rdds
2016-11-11 12:13:56 0 举报
登录查看完整内容
RDDs(Resilient Distributed Datasets)是Apache Spark中的一个核心概念,它是一个不可变的、分布式的对象集合。每个RDD都被分为多个分区,这些分区运行在集群的不同节点上。RDD提供了一种高度优化的抽象模型,可以支持各种并行操作如map、filter、reduce等。这些操作可以在数据集的所有分区上并行执行,从而实现了Spark的高性能计算。此外,RDD还具有容错性,当某个节点失败时,Spark可以自动重新计算该节点上的数据,而无需对整个数据集进行重新计算。这种特性使得RDD成为处理大规模数据的理想选择。