影视大数据-计算任务处理流程
2017-04-14 14:30:59 0 举报
影视大数据-计算任务处理流程主要包括数据收集、数据清洗、数据分析和数据可视化四个步骤。首先,通过各种渠道收集大量的影视数据,包括电影、电视剧、演员、导演等信息。然后,对收集到的数据进行清洗,去除重复、错误和无关的数据,确保数据的准确性和完整性。接下来,利用各种数据分析工具和方法,对清洗后的数据进行深入分析,挖掘出有价值的信息和规律。最后,将分析结果以图表、报告等形式进行可视化展示,帮助决策者更好地理解和利用数据。这个过程需要不断迭代和优化,以提高数据处理的效率和质量。
作者其他创作
大纲/内容
结束
使用SparkContext.textFile()来读取HDFS上的文件形成PairRDD
将最终结果存入HDFS
调用saveAsTextFile()将数据存储到HDFS上
开始
最终结果处理
PariRdd.filter()将不符合条件的值过滤掉形成的FilteredRDD
将要处理的数据存入HDFS
ReducedRDD.mapValues()计算平均收视率
对数据进行分布式处理
中间结果处理
FilteredRDD.reduceByKey()合并具有相同key的value值形成ReducedRDD
0 条评论
下一页