数据仓库
2015-11-03 15:19:04 7 举报
数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。它为企业决策者提供了深入观察、分析和应用整个企业内的各种数据的能力。数据仓库通常包含大量历史数据,这些数据经过清洗和转换后以多维形式存储,以便进行高级分析和报表生成。数据仓库的主要特点是其数据的集成性和时间序列性,这使得它能够提供对过去和现在业务情况的全面视图,从而帮助企业做出更好的战略决策。
作者其他创作
大纲/内容
指标体系建设
其他程序更新MDM数据
1、spark、redis、elasticsearch、淘宝对于基数估计使用的都是HyperLogLog2、TopK问题使用spark计算后关联3、hive执行引擎采用Tez,存储引擎采用orc。加快数据的产出。
mid
raw
1、统一指标计算规则,比如人、访次。2、其他系统有的指标,另一个系统无须再次计算,最后将所有系统统一为BAE。3、各个产品建立在自己的数据库中,不要全部放在default下。4、考虑分区加分桶,以及底层数据的存储格式。5、数据中维度越多越好,越多能做到越细粒度的统计
input
sql生成器
调度
配置
BAE
对于第二个问题的解决方案
raw_kafka_input_dt0
BDI-M
hive jdbc
fact
sql
按照l_date/customer/API分区,满足按天,按客户,以及某个客户下单个API行为的查询
问题:1、目前多个指标同时计算,牵一发动全身,不易扩展,考虑如何才能同时计算多个指标,又能具有可扩展性?2、计算规则数据源不能动态改变,比如计算访次使用session,现需要使用tmc计算,只能手动修改sql。
kafka
CDS
BI
MDM数据浏览器操作系统商品地域快递页面类型客户用户id。。。
BDI-APP
公共指标库
按照l_date/API分区,满足全网单个行为查询,省去底层所有按行为切分的基础表
收藏
0 条评论
下一页