登录免费注册

首页  流程图  详情

spark关于wordcount的数据流

2017-10-27 14:37:56   0  举报





spark关于wordcount的数据流

spark

数据流

作者其他创作

大纲/内容

hello hadoop

mappartitionsRDD

stage1

var words=lines.flatmap(line=line.split(\" \"))

partition上reduce操作

mr.saveAsTextFile(\"/test\")

数据整理并入hdfs

map

hello spark hello hgq

从hdfs中读取分布式文件，并且以数据分片的方式存于集群中

shuffer

hello spark hello hgqhello hadoophello scala

对每个partition的每行进行单词切分

stage0

hello scala

textFile

var mr=wp.reduceBykey(_+_)

flatmap

hadoopRDD

shuffer之前本地reduce操作

基于hadoopRDD产生的partition去掉行key

var lines = sc.textFile(\"/test.txt\

shufferedRDD

hdfs中分布式文件test.txt

spark关于wordcount的数据流

 收藏

立即使用

spark关于wordcount的数据流

职业：暂无













评论

0 条评论

下一页

为你推荐

查看更多



Spark中的WordCount源码分析图

Spark中的WordCount源码分析图

查询数据流

数据流处理

日志分析数据流

音频数据流输出