TempDB2SparkSubJob.sh

2016-12-15 10:47:08   0  举报





仅支持查看

TempDB2SparkSubJob.sh是一个Shell脚本，主要用于将临时数据库（TempDB）的数据迁移到Apache Spark的子任务中。这个脚本的主要功能包括连接到源数据库，读取数据，然后将数据写入到目标Spark子任务。在数据迁移过程中，脚本还会进行一些必要的数据清洗和转换，以确保数据的质量和一致性。此外，该脚本还包含了一些错误处理和日志记录的功能，以便在出现问题时进行调试和追踪。总的来说，TempDB2SparkSubJob.sh是一个强大而灵活的工具，可以帮助用户高效地完成数据库到Spark子任务的数据迁移工作。

作者其他创作

大纲/内容

Not Skip

生成子计算对象

（如果运行失败则退出程序）

TempDB2SparkSubJob.sh

Skip

调用T2S_userAction.sh从dmpsrc直接表对表，分区对分区导入到dmpv3

offset_add

End

判断子计算对象是否需要skip

调用T2S_merge.sh处理以下两种情况数据1、新数据：分区为昨天的数据（取dmpsrc.user_info_attribute1的数据）分区为昨天的数据2、旧数据：cstguid在dmpv3.user_info_attribute1有而dmpsrc.user_info_attribute1没有（取dmpv3.user_info_attribute1的数据）

idgraph

Not Stop

insert

merge

初始化操作1、source env.sh（加载环境信息）2、source func.sh（加载需要用到的函数）3、source TempDB2SparkJob.conf（如果这个配置文件不存在，则退出程序。配置文件指定了需要从dmpsrc导数进dmpv3的表，并且指定了哪些表需要生成offset）4、定义变量，用于保存TempDB2SparkSubJob.sh的入参信息

调用T2S_offsetAndMerge.sh，处理cstguid以下三种情况的数据1、新增数据：dmpsrc.user_info有，而dmpv3.user_info没有（需要新增offset）2、共有数据：dmpsrc.user_info和dmpv3.user_info都有的数据（offset取dmpv3.user_info）3、旧数据：dmpv3.user_info有，而dmpsrc.user_info没有（offset取dmpv3.user_info）

根据传入参数porcesstype调用不同的Shell

Stop