rdd

2017-03-15 13:29:10 0 举报
仅支持查看
rdd
RDD,全称Resilient Distributed Datasets,是Apache Spark中的一个核心概念。它是一个不可变的分布式对象集合,每个RDD都被分为多个分区,这些分区运行在集群的不同节点上。RDD提供了一种高度灵活的容错机制:数据被复制到多个节点上,所以即使某个节点失败,也可以从其他节点恢复数据。这使得RDD适合处理大数据任务。用户可以通过转换操作(如map、filter等)来创建新的RDD,通过行动操作(如count、collect等)来触发计算并获取结果。RDD支持粗粒度的并行操作,可以充分利用集群资源进行高效的数据处理。
作者其他创作
大纲/内容
评论
0 条评论
回复 删除
取消
回复
下一页