数据处理流程
2016-09-17 09:28:43 0 举报
数据处理流程通常包括数据收集、数据清洗、数据转换和数据分析四个步骤。在数据收集阶段,需要确定数据来源和获取方式,并进行数据采集和存储。在数据清洗阶段,需要对数据进行去重、缺失值处理和异常值处理等操作,以保证数据的准确性和完整性。在数据转换阶段,需要将原始数据转换为适合分析的格式,如数值化、离散化或标准化等。最后,在数据分析阶段,可以运用统计学、机器学习等方法对数据进行分析和挖掘,以发现其中的规律和趋势。整个数据处理流程需要严谨的操作和有效的工具支持,以确保数据的可靠性和有效性。
作者其他创作
大纲/内容
Daily job(部分使用配置文件,部分单独作业)
app open接口请求
配置文件
web & H5
原始nginx日志原始open日志
Daily job
应用层表(统计结果,抽取汇总表部分需要数据)
穷游指数邮件报告
flume传输
汇总层(hive汇总表infobright汇总表全量笛卡尔积汇总)
产品服务器写本地日志
根据业务需求清理需要的数据并组成逻辑
清洗后日志lzo,hive
订单归因产品明细
mysql
扩展订单数据(按需求分表,靠order_id可关联)
hadoop
ETL:扩展字段和anti-spam
单向同步
备份数据库
产品数据库
js采集:visit,event,页面中的key-value
中间层(用户链,轻度汇总)
0 条评论
下一页