数仓核心概念
2020-08-19 10:11:01   2  举报             
     
         
 AI智能生成
  什么是数仓
    作者其他创作
 大纲/内容
  数据仓库    
     商业智能的核心部分,主要是将不同数据源的数据整合到一起,
通过多维分析为企业提供决策支持,报表生成等,存入数据仓库的
资料必定包含时间属性
  
    通过多维分析为企业提供决策支持,报表生成等,存入数据仓库的
资料必定包含时间属性
 数据库    
     面向事务  
     遵循三范式    
     原子性,列不可再分  
     主键,一行的唯一标识  
     外键,表与表的联系  
     存储在线业务数据  
     数据仓库    
     面向分析  
     历史数据  
     数据可能存在大量冗余  
     多个维度分析,提供更多观察视角  
     OLAP和OLTP    
     OLAP:联机分析处理    
     大量的历史数据为基础  
     配合时间点的差异  
     以多维度的方式分析数据  
     一般带有主观的查询需求  
     OLTP:联机事务处理    
     侧重于数据库的增删改查  
     ACID    
     A:原子性  
     C:一致性  
     I:隔离性  
     D:持久性  
     分层思想    
     数据分层的好处    
     提高数据的复用性  
     减少大量的重复计算  
     复杂问题简单化  
     数据结构清晰  
     分层    
     预处理层    
     etl将业务系统的数据经过抽取,清洗,转换之后加载到数据仓库的过程  
     作用    
     将企业中的分散、零乱、标准不统一的数据整合到一起  
     ods:原始数据层    
     存放ETL之后的原始数据  
     作用    
     在业务系统和数据仓库之间形成一个隔离层,
保存的是原始数据或者ETL之后的原始数据
  
    保存的是原始数据或者ETL之后的原始数据
 dwd:数据明细层    
     结构和粒度与ods保持一致,对ods层数据进行再次清洗    
     去空  
     去脏数据  
     去超过极限的数据  
     整理压缩算法,存储格式    
     行式存储    
     TEXTFILE  
     SEQUENCEFILE  
     列式存储    
     ORC  
     PARQUET  
     查看是否能维度退化           
     列裁剪  
     将数据拆分为多级维度表  
     建模    
     确定建模方式    
     雪花模型  
     星型模型  
     根据建模方式抽取维度表和事实表  
     dws:数据服务层    
     轻度汇总    
     构建出的公共指标  
     以某一维度为线索,计算度量  
     ads:数据应用层    
     对应主题的统计指标数据,可以直接用于前端的展示  
     维度和度量    
     维度    
     观察数据的角度  
     时间,地点,性别等都是维度  
     度量    
     基于数据所计算出来的考量值  
     例如每个地点的人数统计,这个数量就是度量  
     预计算    
     cube    
     所有维度组合的Cuboid作为一个整体,被称为Cube  
     cuboid    
     N个维度的组合,将度量做聚合运算,然后将运算的结果保存为一个物化视图  
     事实表和维度表    
     事实表:Fact Table    
     存储有事实记录的表,如系统日志,事实表的记录在
不断地动态增长,所以他的体积通常大于其他表
  
    不断地动态增长,所以他的体积通常大于其他表
 维度表:Dimension Table    
     与事实表相对应的一种表,保存了维度的属性,可以和事实表做关联  
     维度表好处如下    
     缩小了事实表的大小  
     便于维度的管理和维护,增加、删除和修改维度的属性  
     维度表可以为多个事实表重用  
     多维数据模型    
     星型模型:star schema    
     事实表和纬度表通过主外键相关联,维度表之间没有关联  
     效率高  
     数据冗余  
     效率高  
     雪花模型:snowFlake schema    
     将星型模型种的某些维度抽离成更细粒度的维度,然后让维度之间产生关联  
     效率低  
     冗余可以接受  
    
 
 
 
 
  0 条评论
 下一页
  
   
   
   
   
  
  
  
  
  
  
  
  
  
  
 