数据仓库理论
2022-06-23 13:57:00 74 举报
AI智能生成
数据仓库理论
作者其他创作
大纲/内容
数仓建模
范式建模
维度建模
星型模型
雪花模型
星座模型
总结:
1、雪花模型在维度表、事实表之间的连接很多,因此性能方面会比星型模型低。
2、雪花模型使用的是规范化数据。其维度层级和维度信息都存储在数据模型之中。<br>星形模型是反规范化数据,数据存在冗余,维度直接关联事实表,性能较好。
3、雪花模型在设计上更加复杂,ETL较复杂且不能并行化。<br>星形模型不需要添加附属维度层级,ETL相对简单,可以实现高度的并行化。
应用
电池画像
BI报表
数据挖掘
人工智能
数仓管理
数据血缘
元数据管理
数据质量监控
指标体系
意义
整体理解业务<br>
主动发现问题
快速定位原因
是什么
OSM模型
Object(目标)
GVM
Strategy(策略)<br>
提高资产利用率
提高新用户规模
提高复购比例
...
Measure(度量)
柜效比
新增用户数
用户复购率
指标分类
原子指标
不可拆分的指标
GVM
用户数
电池数
衍生指标
原子指标+修饰词
GMV+地区 = 上海GMV
电池数+状态=返厂电池数
用户数+时间=一周内新增用户
派生指标
衍生指标+计算逻辑
GMV同比/环比
财务柜效
定义
<span style="color: rgb(77, 77, 77); font-family: -apple-system, "SF UI Text", Arial, "PingFang SC", "Hiragino Sans GB", "Microsoft YaHei", "WenQuanYi Micro Hei", sans-serif; font-size: 16px; font-variant-ligatures: no-common-ligatures;">数仓是一个</span><span style="box-sizing: border-box; outline: 0px; font-weight: 700; overflow-wrap: break-word; color: rgb(77, 77, 77); font-family: -apple-system, "SF UI Text", Arial, "PingFang SC", "Hiragino Sans GB", "Microsoft YaHei", "WenQuanYi Micro Hei", sans-serif; font-size: 16px; font-variant-ligatures: no-common-ligatures;">面向主题、集成的、相对稳定、反应历史变化的</span><span style="color: rgb(77, 77, 77); font-family: -apple-system, "SF UI Text", Arial, "PingFang SC", "Hiragino Sans GB", "Microsoft YaHei", "WenQuanYi Micro Hei", sans-serif; font-size: 16px; font-variant-ligatures: no-common-ligatures;">数据集合</span>
<b>面向主题</b>
按照部门划分
按照业务划分
按照系统划分
集成性
稳定性
反映历史变化
分层
意义
复杂问题简单化
实时监控预警机制,例如表结构的同步。
分析重点监控对象
通知业务将重点表的变更进行实时通知
重点关注某几类业务,例如风控,财务。
便于理解
空间换时间,减少重复开发
数据之间解耦合
ods(operation data store):原始数据层
dim(public dimension):公共维度层<br>
dwd(data warehouse detail):明细数据层<br>
dws(data warehouse service):数据汇总层<br>
ads(application data store):数据应用层
构建流程
调研
划分主题域
销售域
运营域
构建明细模型
dim
dwd
构建汇总模型
dws
ads
ETL实现
抽取
转换
清洗
加载
数仓应用
用户画像
BI报表
数据挖掘
人工智能
验证/优化
验证
反馈
优化
0 条评论
下一页