安个家 - ETL - 数据抽取脚本流程图
2016-09-27 10:33:07 0 举报
安个家的ETL数据抽取脚本流程图主要包括以下几个步骤:首先,从源系统中读取原始数据;然后,对数据进行清洗和转换,以便于后续的数据处理和分析;接着,将清洗后的数据加载到目标数据库中;最后,对数据抽取过程进行监控和管理,确保数据的质量和完整性。在整个流程中,可能会涉及到多个子任务和模块,如数据过滤、数据合并、数据校验等。通过这个流程图,我们可以清晰地了解到安个家ETL数据抽取脚本的整体架构和关键步骤,有助于我们更好地理解和掌握数据处理的过程。
作者其他创作
大纲/内容
等待抽取队列
全量
mysql dump
增量
抽取类型
抽取工具
覆盖写入原始表中
全量抽取
sqoop
删除目标 hive 表
dump file到本地
创建 hive 表结构
上传 dump file到 hive 表目录下
变化
不存在
读取增量数据上传到 hive 增量表中
无变化
原始表与增量表 join
待抽取表元数据
检测字段变化
执行 sqoop脚本导入表到 hive
检测 hive 表是否存在
存在
0 条评论
下一页