离线数仓架构图
2021-08-12 17:17:34 0 举报
数据仓库架构图
作者其他创作
大纲/内容
flume
hdfs sink
页面数据、事件数据、曝光数据、启动数据和错误数据。以JSON格式进行存储
dim_sku_info 常量表dim_coupon_infodim_activity_rule_infodim_base_province 特殊表dim_date_infob style=\
dwd_comment_info 事务型事实表dwd_order_detaildwd_order_refund_infodwd_cart_info 周期型快照事实表dwd_favor_infodwd_coupon_use 累积型快照事实表dwd_payment_infodwd_refund_paymentdwd_order_info
Kafka source->拦截器
数据传输
选择业务过程→声明粒度→确认维度→确认事实
lzo压缩的日志
DIM层
ods_base_dicods_base_trademarkods_base_category3ods_base_category2ods_base_category1ods_sku_info ods_spu_info 全量表ods_activtiy_infoods_activtity_ruleods_cart_infoods_favor_infoods_coupon_infoods_sku_attr_valueods_sku_sale_attr_value
ods_base_provinceods_base_region 特殊表
尚品汇电商网站
事务型事实表:一个数据插入之后不会发生改变周期型快照事实表:数据一天之内发生多次改变只关注最后一次结果。收藏表累积型快照事实表:数据存在多种状态、如订单表存在下单,取消、完成
维度表一般是对事实的描述信息。每一张维表对应现实世界中的一个对象或者概念。 例如:用户、商品、日期、地区等。事实表事实表中的每行数据代表一个业务事件(下单、支付、退款、评价等)。“事实”这个术语表示的是业务事件的度量值(可统计次数、个数、金额等)
DIM层DIM层,维度层,保存维度数据,主要是对业务事实的描述信息,例如何人,何时,何地等
数仓
DWD层
ods_order_redund_infoods_order_status_infoods_order_detail 常量表ods_order_detail_activityods_order_detail_couponods_comment_info
ODM层1、保持数据原貌不做任何修改,起到备份数据的作用2、采用LZO压缩、减少磁盘空间3、创建分区表、较少全表扫描提高性能4、创建外部表
/log/topic_log
pc/app端
ods_log
dwd日志表dwd_start_logdwd_page_logdwd_action_logdwd_display_logdwd_error_log
业务数据
ods_coupon_useods_user_info 新增及变化ods_order_infoods_payment_infoods_refunt_payment
HDFS
DWD层对ODS层数据进行清洗(去除空值,脏数据,超过极限范围的数据)、脱敏等。保存业务事实明细,一行信息代表一次业务行为,例如一次下单。
lzo压缩并且有索引
/db
MySQL数据库
服务器
Kafka
dim_sku_info 商品维度表(全量)以sku_info表为中心关联其他商品类的表如spu表、品牌表、三级分类表、商品销售属性表或者销售平台表等,因为这些表全都是全量同步,所以首日同步和每日同步只需要条件加上当天的分区即可dim_base_province 地区维度表(特殊)base_province表是省份地区表属于特殊表,存入之后不会被修改,所以我们只需要首日存入dim层不需要进行分区dim_user_info 用户维度表(拉链表)用户信息的数据会发生变化但是变化的频率不大,所以我们选择拉链表的形式进行存储。在原来的用户信息表里面添加两个新的字段开始时间和结束时间。分区分为每日的分区和9999-99-99。每日分区存入变化之前的数据,9999分区变化之后的数据。
/origin_data/gmall
用户行为日志
加载数据保持数据原貌不做任何修改加载语法load data inpath '/origin_data/gmall/log/topic_log/2020-06-14' into table ods_log partition(dt='2020-06-14');
Kafka channel
34个表以订单表、用户表、SKU商品表、活动表和优惠券表为中心
日志服务器
27张表
ODW层
Taildir source->拦截器
File channel
sqoop
0 条评论
下一页