AllTagETLSubJob.sh
2016-12-08 19:34:56 0 举报
AllTagETLSubJob.sh是一个用于数据提取、转换和加载(ETL)的Shell脚本。它主要用于处理大量数据,将数据从源系统提取到目标系统,同时对数据进行清洗、转换和整合,以满足业务需求。通过执行此脚本,可以实现数据的自动化处理,提高数据处理效率,降低人工干预的风险。AllTagETLSubJob.sh适用于各种类型的数据源和目标系统,具有良好的可扩展性和灵活性,可以满足不同场景下的数据处理需求。
作者其他创作
大纲/内容
(如果运行失败则退出程序)
根据上一步骤的结果判断hdfs目录/warehouse/datafile/algorithm/tags/*是否存在,不存在则跳出程序
生成子计算对象
调用hdfsmerge.sh把/warehouse/datafile/algorithm/alltagstemp_account_id目录下面的多个part-xxx通过hadoop fs -getmerge命令(合并多个part-xxx)下载到Linux本地,然后再put到hdfs的目录/warehouse/datafile/algorithm/alltags/allTagsFile_account_id_dmp.txt(这个hdfs目录在前面步骤创建的tmp文件里面的变量${allTagMergeFile}定义)
判断子计算对象是否需要skip
Not Stop
Skip
调用output.sh执行前面步骤创建的tmp文件里面的变量${hql}定义的sql,把sql的执行结果输出到hdfs目录/warehouse/datafile/algorithm/alltagstemp_account_id(该hdfs目录由前面步骤创建的tmp文件里面的变量${hiveOutput}定义)
Not Skip
调用Java类:td.enterprise.dmp.etl.tools.GenerateEtlJobProperties生成/home/hadoop/dmp/etl/tmp/${AllTagETL}/${4770}/${account_id}_props_${20161202}.tmp(变量值来自AllTagETL_props_20161202.tmp)
调用input.sh把/warehouse/datafile/algorithm/tags/*数据加载到dmpv3.all_tag
调用tag_bitmap_dump.sh里面调用了Java类:td.enterprise.dmp.etl.shell.DumpTagBitmapShell到hdfs目录/warehouse/datafile/algorithm/tags/下面创建文件(hdfs目录由上一步骤创建的tmp文件里面的变量${allTagFile}设定)
End
Stop
AllTagETLSubJob.sh(遍历AllTagETL_props_20161202.tmp里面的tenantsForAllTag,以account_id为例说明流程)
0 条评论
下一页