Spark研发

2016-01-04 18:36:07 1 举报
Spark是一款快速、通用、可扩展的大数据处理计算引擎,基于内存计算技术,它的运算速度比Hadoop快上100倍。Spark由加州伯克利大学(UCBerkeley)的AMPLab于2009年开发,是基于内存计算的大数据并行计算框架,可用于构建大型的、低延迟的数据分析应用程序。它提供了Java,Scala,Python和R中的高级API,并支持用于SQL,流数据和机器学习的丰富工具集。Spark的核心是弹性分布式数据集(RDD),它是不可变的分布式对象集合。这些对象可以并行操作,支持高度灵活的操作,如map、reduce、filter和join等。
作者其他创作
大纲/内容
评论
0 条评论
下一页