etl
2016-08-23 10:26:37 0 举报
ETL(Extract, Transform, Load)是数据仓库中的一种数据处理过程,用于从多个源系统中提取数据,对数据进行清洗、转换和整合,最后将处理后的数据加载到目标数据仓库或数据集中。ETL过程通常包括三个主要步骤:提取、转换和加载。在提取阶段,从不同的源系统中获取数据;在转换阶段,对数据进行清洗、过滤、合并等操作,以满足目标系统的需求;在加载阶段,将处理后的数据存储到目标系统中。ETL技术在大数据时代发挥着重要作用,帮助企业实现数据的高效管理和分析。
作者其他创作
大纲/内容
flume//20160816/20160817/20160818
spark(clean)
shell 脚本#!/bin/shAGO_DATE=`/bin/date --date='1 days ago ' +'%Y%m%d'`#修改总表total_log的分区alter table total_log add partition (logdate=$AGO_DATE) location '$flume_log_dir/$AGO_DATE'#选择appdatabase = 'test'sql=/home/hadoop/spark/bin/spark-sql$sql --master yarn --deploy-mode client --num-executors 3 -e \"use $database;insert into app_log select * from total_log where logdate=$AGO_DATE and f5 like '%angejia.com'\"#过滤内网ip还有解析get参数spark-submit --class TestRDD /home/lzz/work/spark_work/test_sql2/out/artifacts/test_sql2_jar/test_sql2.jar ips.txt --file ips.txt
web_filter_log
app_log
web_log
spark_clern
flume
准备工作1 创建flume 日志目录$flume_log_dir2 创建原始数据总表create external table total_log(f1 string……)partitioned by (logdate string) row format delimited fields terminated by '\"' location $flume_log_dir;3 创建app_log 表(保存所有来自app)创建app_log目录 $app_log_dir在$app_log_dir 目录下创建filter 和 total 目录$app_filter_log_dir$app_total_log_dir4 创建web_log 表创建目录web_log目录 $web_log_dir在$web_log_dir目录创建filter 和total目录$web_filter_log_dir$web_total_log_dir5 创建app_filter_log 表(过滤ip或其它)create external table app_filter_log(f1 string……)partitioned by (logdate string) row format delimited fields terminated by '\"' location $app_filter_log_dir;6 创建app_total_log 表( 解析后的总表 )create external table app_total_log(f1 string……)partitioned by (logdate string) row format delimited fields terminated by '\"' location $app_total_log_dir;
app_filter_log
HDFS(table)
开始
0 条评论
下一页
为你推荐
查看更多