数仓项目数据流程
2022-04-24 12:20:23   0  举报             
     
         
 标准的企业级数仓流程图
    作者其他创作
 大纲/内容
 数仓中的每层内和层间的转换都是通过SparkSql实现的
  Mysql
  磁盘文件
  Kylin速度快,可直接对接可视化系统
    ads层:指标层
  Kylin1.预计算,多维度统计分析2.只要指定了角度不管后续角度如何变化Kylin都能快速返回。3.Kylin比Spark Sql快
  日志数据
  Flume
  将从Mysql采集的数据直接输出的HIve
  数据的导出工具可以使用:sqoop,kettle,Datax
  Spark RDD编程进行数据清洗和ETL,最终导入Hive的ODS层
  可视化系统
  kettle
  Mysql业务数据
  ods层:数据贴源层
  业务系统产生的数据
  HDFS
  dw层数据仓库层,进一步ETL方便最后指标统计
   
 
 
 
 
  0 条评论
 下一页
  
   
  
  
  
  
  
  
  
  
 