Spark研发

2016-01-04 18:36:07   1  举报





Spark是一款快速、通用、可扩展的大数据处理计算引擎，基于内存计算技术，它的运算速度比Hadoop快上100倍。Spark由加州伯克利大学（UCBerkeley）的AMPLab于2009年开发，是基于内存计算的大数据并行计算框架，可用于构建大型的、低延迟的数据分析应用程序。它提供了Java，Scala，Python和R中的高级API，并支持用于SQL，流数据和机器学习的丰富工具集。Spark的核心是弹性分布式数据集（RDD），它是不可变的分布式对象集合。这些对象可以并行操作，支持高度灵活的操作，如map、reduce、filter和join等。

模板推荐

作者其他创作

大纲/内容