TempDB2SparkSubJob.sh
2016-12-15 10:47:08 0 举报
TempDB2SparkSubJob.sh是一个Shell脚本,主要用于将临时数据库(TempDB)的数据迁移到Apache Spark的子任务中。这个脚本的主要功能包括连接到源数据库,读取数据,然后将数据写入到目标Spark子任务。在数据迁移过程中,脚本还会进行一些必要的数据清洗和转换,以确保数据的质量和一致性。此外,该脚本还包含了一些错误处理和日志记录的功能,以便在出现问题时进行调试和追踪。总的来说,TempDB2SparkSubJob.sh是一个强大而灵活的工具,可以帮助用户高效地完成数据库到Spark子任务的数据迁移工作。
作者其他创作
大纲/内容
Not Skip
生成子计算对象
(如果运行失败则退出程序)
TempDB2SparkSubJob.sh
Skip
调用T2S_userAction.sh从dmpsrc直接表对表,分区对分区导入到dmpv3
offset_add
End
判断子计算对象是否需要skip
调用T2S_merge.sh处理以下两种情况数据1、新数据:分区为昨天的数据(取dmpsrc.user_info_attribute1的数据)分区为昨天的数据2、旧数据:cstguid在dmpv3.user_info_attribute1有而dmpsrc.user_info_attribute1没有(取dmpv3.user_info_attribute1的数据)
idgraph
Not Stop
insert
merge
初始化操作1、source env.sh(加载环境信息)2、source func.sh(加载需要用到的函数)3、source TempDB2SparkJob.conf(如果这个配置文件不存在,则退出程序。配置文件指定了需要从dmpsrc导数进dmpv3的表,并且指定了哪些表需要生成offset)4、定义变量,用于保存TempDB2SparkSubJob.sh的入参信息
调用T2S_offsetAndMerge.sh,处理cstguid以下三种情况的数据1、新增数据:dmpsrc.user_info有,而dmpv3.user_info没有(需要新增offset)2、共有数据:dmpsrc.user_info和dmpv3.user_info都有的数据(offset取dmpv3.user_info)3、旧数据:dmpv3.user_info有,而dmpsrc.user_info没有(offset取dmpv3.user_info)
根据传入参数porcesstype调用不同的Shell
Stop
0 条评论
下一页