RDD

2016-05-19 11:54:35 0 举报
仅支持查看
RDD(Resilient Distributed Datasets)是Apache Spark中的一个核心概念,它是一个不可变的、分布式的对象集合。每个RDD都被分为多个分区,这些分区运行在集群的不同节点上。RDD提供了两种操作:转换操作和行动操作。转换操作创建一个新的RDD,而行动操作对RDD进行计算并返回结果。RDD的特性包括容错性、并行性和可伸缩性。如果某个节点失败,RDD可以在其他节点上重新计算丢失的数据。通过并行处理,RDD可以快速处理大量数据。此外,可以通过添加更多的节点来扩展RDD的处理能力。
作者其他创作
大纲/内容
评论
0 条评论
下一页