大数据ETL框架_流程图
2017-01-05 18:48:07 0 举报
大数据ETL框架流程图主要包含五个步骤:数据抽取、数据清洗、数据转换、数据加载和数据调度。首先,数据抽取阶段从各种源系统中提取原始数据;其次,数据清洗阶段对提取的数据进行去重、缺失值处理等操作,确保数据的质量和准确性;然后,数据转换阶段将清洗后的数据转换为目标系统可以识别的格式;接着,数据加载阶段将转换后的数据加载到目标系统中;最后,数据调度阶段根据业务需求定时或实时地执行上述过程。这个流程图简洁明了地展示了大数据ETL框架的基本工作流程。
作者其他创作
大纲/内容
SQL语句
OptimizedLogical Plan
血统
Spark/Flink/MapReduce
权限控制
作业调度
HBase
Project
HDFS
交互式界面
Physical Plan
注册
DataSet
权限
a.ida.math_score + b.en_score AS score
Join
查询
PlatformManager
LogicalOptimization
数据质量
Scan(people)
Metadata
ES
a.age 10
Restful API
Logical Plan
Catalog
RDDs
DataHub模块
PhysicalPlanning
Analysis
Kafka
Aggregate
Filter
a.id = b.id
Cost Model
JDBC
SelectedPhysical Plan
Parser
元数据模块
avg(score)
创建作业
DataFrame
Scan(score)
UnresolvedLogical Plan
0 条评论
下一页