RDD
2016-05-19 11:54:35 0 举报
RDD是Resilient Distributed Datasets的缩写,中文意思是弹性分布式数据集。它是一个容错的、并行的数据结构,可以让用户在大规模数据集上执行各种操作。RDD是Apache Spark的核心数据结构,它提供了一个抽象的概念,可以将数据分布在集群中的多台机器上进行处理。RDD是不可变的,这意味着一旦创建了一个RDD,就不能对其进行修改。相反,可以通过对RDD执行转换操作来创建新的RDD。RDD支持两种类型的操作:转换操作和行动操作。转换操作用于创建一个新的RDD,而行动操作用于对RDD进行计算并返回结果。