banyan数据梳理流程-v1
2016-11-03 11:09:40 0 举报
Banyan数据梳理流程-v1是一种高效的数据处理方式,旨在帮助用户快速整理和分析大量数据。该流程首先从数据收集开始,然后进行数据清洗,去除重复、错误或无关的数据。接下来是数据转换,将数据转换为适合分析的格式。然后进行数据分析,通过统计和可视化工具揭示数据中的模式和趋势。最后,根据分析结果制定决策或优化策略。此流程简洁明了,易于理解和执行,适用于各种规模的项目。
作者其他创作
大纲/内容
W: comment
开关:可写可不写
RA: post+comment
【WbAdvUser】
【ES】dt-rhino-weibo-index/weibo
【ES】dt-rhino-weibo-index/user
【Kafka】topic_rhino_weibo_all
W: user
【WbUser】
【ES】dt-rhino-weibo-comment-index/weibo
W: advinfo
F:直接刷;W:写;R:读;A:含分析 | kafka: 蓝色 ;hbase: 黄色;es: 绿色
RA: comment
【LongText】
【HBase】dt.rhino.weibo.content.v2
mid
R: content
全量,目前4.3亿
W: post + comment
【WbContent】
【WbComment】
【HBase】dt.rhino.weibo.user.v2
R: rt_content
【Kafka】topic_rhino_weibo_comment
定时(0:30 每天)
全量,目前60亿
全量,comment数4500w+,post数500w+
【ES】dt-rhino-newsforum-index
【Kafka】topic_rhino_news_bbs_all
W: longtext
【Kafka】topic_rhino_weibo_user
【HBase】dt.rhino.sys.common
全量,comment数40w+,weibo数3w+
W: uid
W:cmt_weibo
上述实时的除了入【HBase】dt.rhino.weibo.comment的流程
【HBase】dt.rhino.weibo.advuser
【ES】dt-rhino-weibo-comment-index/comment
FW: user
实时,增量,百万/day,分析meta_group && user_type水军advinfo主要包括需通过微博高级接口获取的用户公司、学校等信息
实时,异步任务提交。
【HBase】dt.rhino.weibo.comment
W: content
R: mid
R: user
A
R: uid
【HBase】dt.rhino.sys.common.v6
FW: content
0 条评论
下一页