2345 - 数据流程图
2017-03-14 13:40:57 0 举报
数据流程图是一种图形化表示系统内数据流动、处理和存储的工具。它由一系列节点和连接线组成,每个节点代表一个数据操作或处理步骤,连接线则表示数据的流动路径。通过数据流程图,我们可以清晰地了解系统中各个组件之间的关系以及数据的传递过程。这有助于我们更好地理解系统的工作原理,发现潜在的问题并进行优化。总之,数据流程图是一种有效的沟通和分析工具,对于设计和改进复杂系统具有重要意义。
作者其他创作
大纲/内容
建模
9.3M/S
集群单任务无负载
数据转换、清洗 Transform (玉龙、炜林)
数据仓库、数据建模 (炜林、志强、瑞博、玉龙)
20 G Snapp 压缩文件到集群37 分钟
统计
报表展示(志强、玉龙、炜林、瑞博)
评估/刷历史数据
7.4M/S
0.5 ~ 2 天
数据接口
分析
以一个浏览器日志一天 6 G= 6144 M抽取过来需要 68 分钟
结果
参考计算环节
300M/S
snappy 压缩
加载到 HDFS
09:00 ~ 15:00 工作时间1.5M/S
检测验证/计算数据复杂度和日期范围
抽取
大数据集群和大数据平台 (炜林、玉龙)1. 开发、运维、数据维护、定期升级2. JOB 优化、工作平台开发3. 新人培训、知识文档化、技术栈管理、代码规范4. 各类系统的权限管理
结论一个新的需求、什么都没有、从头开始稳健的日期需要 3、4 天
数据报表
数据抽取加载 Load (玉龙、炜林)
集群环境复杂1G ~ 20 G20M/S ~ 80M/S
根据需求复杂程度0.5 ~ 2 天
Map + Reduce 计算
解压
6144 M 文件解压 14 分钟解压后 69 G = 70656 Msnappy 压缩 236 S = 3.4 分钟snappy 压缩后 20 G = 20480 M共需要 14 + 3.4 = 17.4 分
数据抽取 Extract (玉龙、炜林)
BI 商业智能、数据分析、数据挖掘 (志强、玉龙、炜林、瑞博)
0 条评论
回复 删除
下一页