Spark_RDD_Chekpoint
2016-09-29 11:36:47 0 举报
Spark RDD Checkpoint是Apache Spark中的一种容错机制,用于在数据处理过程中保存RDD的中间状态。当发生故障时,Checkpoint可以恢复丢失的数据,从而保证数据处理的完整性。通过设置Checkpoint,可以将RDD分区的数据定期保存到外部存储系统(如HDFS、本地文件系统等),以便在需要时进行恢复。这有助于提高Spark应用程序的可靠性和稳定性,特别是在处理大量数据或长时间运行的任务时。
作者其他创作
大纲/内容
setCheckpointDir()
writePartitionToCheckpointFile()
writeRDDToCheckpointDirectory()
runJob()
RDD
SparkContext
RDDCheckpointData
用户API
ReliableRDDCheckpointData
doCheckpoint()
checkpoint()
writePartitionerToCheckpointDir()
checkpointData
checkpointDir
ReliableCheckpointRDD
0 条评论
下一页