rdd
2016-11-11 11:18:43 0 举报
登录查看完整内容
RDD(Resilient Distributed Datasets)是Apache Spark中的一个核心概念,它是一个不可变的、分布式的对象集合。每个RDD都被分为多个分区,这些分区运行在集群的不同节点上。RDD提供了两种操作:转换操作和行动操作。转换操作创建一个新的RDD,而行动操作对RDD进行计算并返回结果。RDD具有容错性,如果某个节点失败,Spark可以自动重新计算该节点上的数据。此外,RDD还支持并行计算,可以在多个节点上同时处理数据,从而提高了处理速度。总之,RDD是Spark中用于处理大规模数据集的核心数据结构。