影视大数据-收视率处理流程
2017-04-13 16:54:03 0 举报
影视大数据-收视率处理流程主要包括数据采集、数据清洗、数据分析和数据可视化四个步骤。首先,通过各种渠道收集观众的观看数据,包括观看时间、观看频道、观看内容等。然后,对收集到的数据进行清洗,去除无效数据和重复数据,确保数据的准确性。接下来,通过统计分析和机器学习等方法,对清洗后的数据进行深入分析,挖掘出观众的观看习惯、喜好等信息。最后,将分析结果以图表、报告等形式进行可视化展示,为影视制作和播出提供决策依据。
作者其他创作
大纲/内容
FilteredRDD.foreach()将一条数据拆分成多条数据
结束
使用SparkContext.textFile()来读取HDFS上的文件形成PairRDD
PariRdd.flapMapValue()将Value值拆分形成FlatMappedRDD
FlatMappedRDD{(\"北京 2014/01/01 中央一套\
FlatMappedRDD.filter()过滤掉无效数据形成FilteredRDD
FinalRDD{(\"北京 2014/01/01 中央一套\
FilteredRDD{(\"北京 2014/01/01 中央一套\
PairRDD{(\"北京 2014/01/01 中央一套\
调用saveAsTextFile()将数据存储到HDFS上
开始
0 条评论
下一页
为你推荐
查看更多