安个家 - ETL - 数据抽取与增量抽取
2016-09-14 12:22:51 0 举报
安个家ETL是一款强大的数据抽取工具,它能够有效地从各种数据源中提取数据,并将其转换为可用于分析和报告的格式。其中,增量抽取是其重要功能之一,它能够实时监控数据源的变化,只抽取自上次抽取以来发生变化的数据,大大提高了数据处理的效率。无论是大规模的企业级数据仓库,还是小型的数据分析项目,安个家ETL都能提供稳定、高效的数据抽取服务,帮助用户快速获取所需的信息,从而做出更准确的决策。
作者其他创作
大纲/内容
复制 mysqlangejia.inventory表结构到 hivedb_sync.angejia__inventory
db_sync.angeija__inventory__inc
- id- city_id- district_Id- block_id- updated_at
id 关联LEFT JOIN ON
angejia.inventory
db_sync.angejia__inventory
extract_run
extract_run 1.0 全量抽取
增量数据记录
原始房源表未变动的记录
合并写入到 hive 中
UNION ALL
上传全量 angejia.inventory 文件数据到 hive db_sync.angejia__inventory
原始房源表未变动数据
增量数据表db_sync.angeija__inventory_in_c
落地
增量房源表
上传到 hive db_sync 中
增量房源表数据
抽取
原始表未变动的记录
hive 原始房源表db_sync.angejia__inventory
出参 hive 数据表
hive 增量房源表db_sync.angeija__inventory_in_c
循环抽取
解释: 增量方式1. 不会变化的记录如 log 表: id 增量2. 会变化的记录如 房源 表: updated_at 字段增量
extract_run 2.0 增量与并发
抽取增量数据
原始房源表
入参 mysql 数据表
mysql业务数据库
hivedb_sync 数据库
原始数据
增量数据
extran_run 脚本
0 条评论
下一页