数据知识分布图思维导图模板_ProcessOn思维导图、流程图

订单表

id

总金额

订单状态

用户id

订单交易编号

创建时间

操作时间

省份id

优惠金额

原价金额

运费

订单详情表

id

订单编号

用户id

商品id

商品名称

商品价格

商品数量

创建时间

用户表

用户id

真实姓名

生日

性别

邮箱

用户级别

创建时间

操作时间

ods_商品一级分类表

id

名称

汽车

ods_商品二级分类表

id

名称

流水表

id

业务编号

订单编号

用户id

支付宝流水编号

支付金额

交易内容

支付类型

支付时间

省份表

id

省份名称

地区id

地区编码

国际编码

地区

子主题

地区名

特殊商品表

id

特殊商品名称

订单状态

id

订单编号

订单状态

操作时间

评价表

id

用户id

商品id

商品单位id

订单编号

评价

评价时间

退款表

编号

用户id

订单编号

商品id

退款类型

退款件数

退款金额

退款原因

创建时间

日志数据

乱码+访问时间+id+操作事件

乱码+页面停留+id+操作事件

日志数据

mid：995

uid：995

vc:10

vn：1.3.4

er：B

loading_time:2

l：en

注释：先把日志数据变string

hive内置的json

往DWD层转换首先要做的

get_json_object()

get_json_object(line , '$.mid')

dwd每一步

第一步：解析日志（日志结构会很不一样）

自定义UDF函数

第二步：DWD_BASE没有降维，没有拆表。

不考虑数据冗余

宁全勿丢

尽量不连表查询

第三步：举例：错误日志放A表，点击量日志放到B表，页面停留时间放到C表

尽量不连表查询<br>

dwd_goods_sku

商品id

商品单位id

价格

商品名称

商品描述

重量

品牌id

三级品类id

创建时间

二级品类id

一级品类id

一级品类名称

二级品类名称

ods_商品表

商品id

标准商品单位id

价格

商品名称

商品描述

重量

品牌id

三级品类id

X5

创建时间

注意

是否可以共用时间

dwd_data_time

时间维度表

日

周

周的第几天

第几个月

季度

年

是否是周末

目的是声明颗粒度

是否节假日

凭空出现

不是从ods层来的

key值

value值

数据设计

第一范式

属性不可分割

第二范式

不能存在部分函数依赖

第三范式

不能存在传递函数依赖

表

学号

学号不会重

课程名称

分数

学生姓名

可以重名

部分依赖

系名

表和表的依赖关系是什么？

找传递依赖的字段

本表的主键

它表的外键

如何判断两个表在同一维度？

依赖关系

表二

系名

系主任

系主任和学号就是传递依赖

什么叫维度？

存在依赖关系

我个人理解

面向对象，同一类

个人理解

什么叫降维？

依赖关系的表

数仓设计原则

总是在避免连表查询

避免join

个人理解

宽表

避免连表

减少重复开发

通过使用中间数据层，减少重复计算过程

中间层就起到了--大数据中心的作用

大数据中心

清华大学数据中心

国家统计局和清华大学相关数据研究部门合并的

某位教授想做一个课题---主题

需要数据

学校开介绍信

避免大量的IO

数据聚合

广义的降维

合表，因为主题需要

背背佳

防止驼背的产品

主题

使用背背佳

成绩上升

ods层到dwd层该怎么处理？ <br>

结构数据

降维

日志数据

非结构数据

9.12的课程

关系模型和维度模型

联机事务处理OLTP

传统关系型数据库的主要应用

三范式

数据冗余低

面向事务

常使用连表查询------低效

联机分析处理OLAP

数仓的主要应用

维度模型

以一张事实表为中心进行表的组织

面向业务

数据冗余高

表的分类

事实表

事务性事实表

以一笔支付记录作为事实表中的一行数据

周期型快照事实表

每天的销售额

某日退货

实际情况

累积型快照事实表

物流

货到哪里了？

每行数据代表一个业务事件

维度表

抽象

商品种类

订单状态

DWD层

选择业务过程

降维的过程

声明颗粒度

建时间维度表

确定维度

描述业务事实

时间，地点，人物，事

确定事实

事实，指业务中的度量值

订单数，订单金额

基于每个具体业务过程的特点构建最细颗粒度的明细数据层事实表

提前把最小颗粒度构建清楚

回归星形模型

矩阵--我头都大了

为什么要数据分层？

dwd_data_city

地域维度表

区

市

省

国家

街道

自由主题

根据主题和想要的结果去降维---合并表

官方

理想化

每一步提前预知结果

丢失重要的相关数据

直接进行数据聚合

面向字段，面向表

看手里有什么数据

找线索

思路搞清

确定我们已有什么线索

数仓之后层级去做的事

主题：周某某和A某某的关系

销售表（事实表）

卖了多少？

库存多少？

日期表

日期

年份

地址表

国家

省份

城市

商品表

供应商表

供应商名称

供应商id

供应产品品类

品类id

商品实际完成订单情况（事实表）

退货表

数仓主题

DWS层

基于事实表来处理维度表

事实表的颗粒度

事实表和事实表的关联

宽表字段

一张表都是事实表的度量

规整事实表中的字段

Hive

MapReduce

注意Partition

上午数据99%,下午数据1%

大量job

配置优化

列剪裁

忽略不需要的列

hive处理的方式

分区剪裁

hive.optimize.pruner=true

减少join

group by

Map端部分聚合

hive.map.aggr=true

随机分配

hive.group-by.skewindata

程序优化

始终在避免数据倾斜

hive的自定义函数

内置函数

自定义的函数

JAVA访问Hive

线程和进程的基础

进程

程序的一次启动执行

操作系统把程序装入内存

程序是存放在硬盘中的可执行文件，主要是指令和数据。

同一个程序可以多次启动

进程一般都是并发的

不同的进程

地址空间是相互隔离的

不是程序执行和系统进行并发调度的最小单位

什么是Java程序的进程呢？

所有的程序都运行在JVM中

启动一个JVM进程

程序入口点main（）方法

主线程

GC线程（垃圾回收）

JDK1.8

每个线程默认分配1MB的栈内存

线程

CPU调度的最小单位

但是不是操作系统资源分配的最小单位

Java

Thread实例

Java进程中每一个线程都对应着一个Thread实例

线程的描述信息在Thread的实例属性中得到保存，供JVM进行线程管理和调度时使用。

一个CPU内核上，同一时刻只能有一个线程是正在执行的

该线程被叫做当前线程

栈的概念

魏同学的概念

运算受限的线性表。限定仅在表尾进行插入和删除操作的线性表

曹同学的概念

数据的先进后出

栈内存

存放方法帧（栈帧）的内存

栈帧的操作

是后进先出的模式

Java方法每一次执行都需要配一个方法帧

方法帧主要保存该方法中的局部变量，方法的返回地址

JVM合理把方法帧放入对应线程的栈内存

受进程管理

方法执行完后，JVM把方法帧从栈内存清除

方法帧的局部变量的内存空间就被回收

问题

如果一个线程中main（）方法是第一个被分配的方法帧，那么当线程结束时它的方法帧是倒数第几个被栈内存清空的？

本质：4核CPU，在同一时刻，只能执行4个线程。

蔡同学的概念

进程优先级越高,那么就可以分占相对多的CPU时间片

分时操作系统分配给每个正在运行的进程微观上的一段CPU时间

Linux

大部分操作系统都能够直接对部分线程进行管理

CPU时间片

把CPU工作的时间，按某一个定量时间段算就是CPU时间片

注意，这里的时间片不是最小时间单位

颗粒度

不同的操作系统，不同的CPU，对应的CPU时间片长度都不同

进程与线程的区别

进程包含线程

线程是CPU调度的最小单位

进程之间是相互独立的

线程之间共享进程的资源

方法区内存

堆内存

系统资源

切换速度

线程切换比进程切换快

进程和线程的界限很模糊

有本身即使线程也是进程的程序

ZooKeeper

实现了分布式环境的数据一致性

每时每刻我们访问Zookeeper的树结构时，不同的节点返回的数据都是一致的。

是一种简单的分布式数据库

一个事务中访问到了另外一个事务未提交的数据

一个事务内根据同一个条件对数据进行多次查询，但是结果不一样

两个完全相同的查询执行时，结果不同

核心回顾

1.数据库三范式

2.如何降维，什么是同一维度。

3.事实表和维度表

库存表

事件，故事

时间

地点

人物

事

美团

ODS

数据源

IDL

数据集成

业务主题的划分

数据规范

dwd的功能

CDL

数据组件

划分主题

用户活动

商家交易

MDL

数据集市层

宽表

支持应用查询

ADL

数据应用层

IO底层原理

内存的安全

内核内存

用户空间内存

每个应用程序进程都有一个单独的用户空间

对应的进程处于用户状态

用户状态的进程不能访问内核空间中的数据

需要切换到内核状态才能进行系统调用

System Call

IO读写依赖于底层的IO读写

中间会用到System Call这样的系统调用

不同的操作系统IO读写方式不同

read和write

系统调用

write

不是直接把数据写入物理设备

read

不是直接从物理设备把数据读取到应用内存

重点

read和write两个系统调用都不负责数据在内核缓冲区和物理设备之间的交换

本质是两个缓冲区的数据交换

数据架构

物理表现（存储和读取）

纸带，打孔卡

磁带

磁盘存储

并行磁盘存储

大数据

逻辑连接

结构化

层次的/关系的

拓扑/网络

内部格式

结构化

非结构化

重复性（hadoop）

探测器

例子1.遥控器控制电视

例子2.高铁，从郑州到南京什么时候到？火车什么时候进站什么时候离站？

例子3.机器人，电池温度？电池剩余？机械臂是否正常运行？

非重复性（文本消歧）

发布的评论

电子邮件

语音留言

文件结构

文件

主文件

数据库

运营数据的存储

数据仓库

维度模型

数据集市

数据保险箱

数据量很大

同时并行读取

同时并行写入

定义好的数据

重复性的

同一结构重复出现

结构相同

记录数据的结构相似

一个数据的出现和另一个数据的出现之间的唯一区别在于数据的内容

非重复性数据

文本数据

以文本形式体现的数据

语境化

非文本数据

视频，图片，摩斯码

文本消歧（ETL）

提取Extract

转换Transform

加载Load

非结构化的重复性数据不在乎数据的语境，而非结构化的非重复性数据非常在乎语境

数据基础设施

结构化的重复数据和非结构化的重复数据是一样的么？

数据库中的数据和探测器来的数据是一样的么？

都具有重复性

数据体量不一样

结构化数据数据一般被分解成单个记录，以块的形式存在，不同的数据在不同的块里

非结构化的重复数据，所有数据都在一个块里

需要解析器来处理

罗马人口普查方法

管理大量数据的能力

结构化DBMS

只需要做简单的I/O

非结构化数据最重要的是从一大堆数据中解析数据，必须要进行大量的I/O操作

JJJJJJJJJJJJJJJJJJJJJJJJJJLLLLLLLLLLLLLLLLLLLJLJLJJLJLJLJLJLJLJLJJLJLJJLJLJLJLJLJLJLJLJLJLJLJLJLJLJLJLJLJJLJLJLJLJLJLJLJLJLJJLJLJLJLJLJLJLJLJLJLJLJLJLJLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLJJJJJJJJJJJJJJJJJJJLJLJLJLJLJLJLJLJLJLJ

复习一下YARN的管理流程，hadoop的工作流程

企业数据管理

数据的最终目的是支持分析

法律

正式分析

上市公司财务数据

数据质量

准确性

非正式分析

数据有效性

数据的谱系

第一步收集数据