基于hive离线数据流程搭建
2016-11-14 14:30:12 0 举报
基于Hive离线数据流程搭建,首先需要准备数据源,包括原始数据文件和相关的元数据信息。然后,通过ETL工具将数据从数据源中抽取出来,并进行清洗、转换和加载到Hive中的数据仓库中。在Hive中,可以使用SQL语句对数据进行查询、分析和挖掘。最后,可以将分析结果导出到其他系统中进行展示和应用。整个流程需要考虑到数据的质量和安全性,以及系统的性能和可扩展性。
作者其他创作
大纲/内容
mail/DB
log
HDFS(RowData)
hive表
输出结果
HDFS(ResultData)
log4j
分区
scf
Task
完整hive表
http拉取
创建任务
生成报表
创建
flume
hive脚本任务
0 条评论
下一页