rdd

2016-11-11 11:18:43 0 举报
仅支持查看
rdd
RDD(Resilient Distributed Datasets)是Apache Spark中的一个核心概念,它是一个不可变的、分布式的对象集合。每个RDD都被分为多个分区,这些分区运行在集群的不同节点上。RDD提供了两种操作:转换操作和行动操作。转换操作创建一个新的RDD,而行动操作对RDD进行计算并返回结果。RDD具有容错性,如果某个节点失败,Spark可以自动重新计算该节点上的数据。此外,RDD还支持并行计算,可以在多个节点上同时处理数据,从而提高了处理速度。总之,RDD是Spark中用于处理大规模数据集的核心数据结构。
作者其他创作
大纲/内容
评论
0 条评论
回复 删除
取消
回复
下一页