rdds

2016-11-11 12:13:56 0 举报
仅支持查看
rdds
RDDs(Resilient Distributed Datasets)是Apache Spark中的一个核心概念,它是一个不可变的、分布式的对象集合。每个RDD都被分为多个分区,这些分区运行在集群的不同节点上。RDD提供了一种高度优化的抽象模型,可以支持各种并行操作如map、filter、reduce等。这些操作可以在数据集的所有分区上并行执行,从而实现了Spark的高性能计算。此外,RDD还具有容错性,当某个节点失败时,Spark可以自动重新计算该节点上的数据,而无需对整个数据集进行重新计算。这种特性使得RDD成为处理大规模数据的理想选择。
作者其他创作
大纲/内容
评论
0 条评论
回复 删除
取消
回复
下一页