hadoop job flowchart
2016-08-10 11:03:21 0 举报
Hadoop作业流程图是一个可视化工具,用于描述在Hadoop环境中执行数据处理任务的步骤。这个流程图通常包括以下几个主要组件:HDFS(Hadoop分布式文件系统),MapReduce引擎,以及用户编写的Map和Reduce函数。首先,数据从HDFS中读取并分割成多个块,然后这些块被分发到集群中的不同节点上。接下来,Map函数在每个节点上并行处理这些数据块,生成一组中间键值对。最后,Reduce函数将这些中间键值对按照键进行聚合,从而得到最终的输出结果。整个过程在Hadoop集群上自动并行执行,以实现高性能的数据处理。
作者其他创作
大纲/内容
round2userid求交集并初步累加指标
cmatch_intersect
Difference
DifferenceSets
round2entity_id求交集并初步累加指标
entity_id最终指标百分比
IntersectSets
cmatchdiff_output
round3对entity_id的结果最终累加并输出各指标百分比
userid初步累积指标结果
round1取所需字段
cmatch_difference
End
shitu_log_wise201606201607
entity_id初步累积指标结果
Start
round3对userid的结果最终累加并输出各指标百分比
userid最终指标百分比
Intersect
cmatchinter_output
所有需要的字段
收藏
0 条评论
下一页