DataX学习
2022-02-09 14:28:30 16 举报
AI智能生成
登录查看完整内容
DataX学习
作者其他创作
大纲/内容
https://github.com/alibaba/DataX
alibaba开源异构离线同步工具
MySQL、Oracle、OceanBase、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、Hologres、DRDS
支持数据源
抽取(extract)
转换(transform)
加载(load)至目的端
ETL(Extract-Transform-Load)
结构
原理
reader模块
writer模块
xxx数据库类型
...
https://github.com/alibaba/DataX/blob/master/dataxPluginDev.md
插件开发文档
这里最有可能的是扩展基于http resutful接口
从http restful 接口中获取数据
httpApiReader
没有writer
httpApiWriter
后端适配,可以配置出httpApiPlugin相关的json文件
调度执行部分代码逻辑要扩展
datax-web改造
主动调用
待定
被动接受
可能的扩展方向
易于扩展
设计理念
简介
可视化配置界面
项目地址:https://github.com/WeiYe-Jing/datax-web/blob/master/userGuid.md
linux安装文档:https://github.com/WeiYe-Jing/datax-web/blob/master/doc/datax-web/datax-web-deploy.md
博客:https://segmentfault.com/u/weiye_jing/articles
docs
DataX-web
开源单机版,可以做集群,但是不可以分布式部署
可以搭建多个实例,跑不同的任务
分布式
https://www.cnblogs.com/hit-zb/p/10940849.html
性能调优
调优
切分策略,作业切分成多个Task并行执行,速度随并发成线性增长。
在源端和目的端性能都足够的情况下,单个作业一定可以打满网卡。
参考测试报告:https://www.it610.com/article/1283424802408775680.htm
性能测试
DataX
0 条评论
回复 删除
下一页