数据知识分布图
2023-01-05 09:59:30   3  举报             
     
         
 AI智能生成
  数据知识分布
    作者其他创作
 大纲/内容
  订单表    
     id  
     总金额  
     订单状态  
     用户id  
     订单交易编号  
     创建时间  
     操作时间  
     省份id  
     优惠金额  
     原价金额  
     运费  
     订单详情表    
     id  
     订单编号  
     用户id  
     商品id  
     商品名称  
     商品价格  
     商品数量  
     创建时间  
     用户表    
     用户id  
     真实姓名  
     生日  
     性别  
     邮箱  
     用户级别  
     创建时间  
     操作时间  
     ods_商品一级分类表    
     id  
     名称  
     汽车  
     ods_商品二级分类表    
     id  
     名称  
     流水表    
     id  
     业务编号  
     订单编号  
     用户id  
     支付宝流水编号  
     支付金额  
     交易内容  
     支付类型  
     支付时间  
     省份表    
     id  
     省份名称  
     地区id  
     地区编码  
     国际编码  
     地区    
     子主题  
     地区名  
     特殊商品表    
     id  
     特殊商品名称  
     订单状态    
     id  
     订单编号  
     订单状态  
     操作时间  
     评价表    
     id  
     用户id  
     商品id  
     商品单位id  
     订单编号  
     评价  
     评价时间  
     退款表    
     编号  
     用户id  
     订单编号  
     商品id  
     退款类型  
     退款件数  
     退款金额  
     退款原因  
     创建时间  
     日志数据    
     乱码+访问时间+id+操作事件  
     乱码+页面停留+id+操作事件  
     日志数据    
     mid:995  
     uid:995  
     vc:10  
     vn:1.3.4  
     er:B  
     loading_time:2  
     l:en  
     注释:先把日志数据变string    
     hive内置的json  
     往DWD层转换首先要做的  
     get_json_object()    
     get_json_object(line , '$.mid')  
     dwd每一步    
     第一步:解析日志(日志结构会很不一样)    
     自定义UDF函数  
     第二步:DWD_BASE没有降维,没有拆表。    
     不考虑数据冗余    
     宁全勿丢    
     尽量不连表查询  
     第三步:举例:错误日志放A表,点击量日志放到B表,页面停留时间放到C表  
     尽量不连表查询
  
     dwd_goods_sku    
     商品id  
     商品单位id  
     价格  
     商品名称  
     商品描述  
     重量  
     品牌id  
     三级品类id  
     创建时间  
     二级品类id  
     一级品类id  
     一级品类名称  
     二级品类名称  
     ods_商品表    
     商品id  
     标准商品单位id  
     价格  
     商品名称  
     商品描述  
     重量  
     品牌id  
     三级品类id    
     X5  
     创建时间  
     注意    
     是否可以共用时间  
     dwd_data_time    
     时间维度表    
     日  
     周  
     周的第几天  
     第几个月  
     季度  
     年  
     是否是周末  
     目的是声明颗粒度  
     是否节假日  
     凭空出现    
     不是从ods层来的  
     key值  
     value值  
     数据设计    
     第一范式    
     属性不可分割  
     第二范式    
     不能存在部分函数依赖  
     第三范式    
     不能存在传递函数依赖  
     表    
     学号    
     学号不会重  
     课程名称  
     分数  
     学生姓名    
     可以重名    
     部分依赖  
     系名  
     表和表的依赖关系是什么?    
     找传递依赖的字段    
     本表的主键  
     它表的外键  
     如何判断两个表在同一维度?    
     依赖关系  
     表二    
     系名  
     系主任    
     系主任和学号就是传递依赖  
     什么叫维度?    
     存在依赖关系    
     我个人理解  
     面向对象,同一类    
     个人理解  
     什么叫降维?    
     依赖关系的表  
     数仓设计原则    
     总是在避免连表查询    
     避免join    
     个人理解  
     宽表    
     避免连表  
     减少重复开发    
     通过使用中间数据层,减少重复计算过程    
     中间层就起到了--大数据中心的作用  
     大数据中心    
     清华大学数据中心    
     国家统计局和清华大学相关数据研究部门合并的  
     某位教授想做一个课题---主题    
     需要数据    
     学校开介绍信  
     避免大量的IO  
     数据聚合    
     广义的降维    
     合表,因为主题需要  
     背背佳    
     防止驼背的产品  
     主题    
     使用背背佳    
     成绩上升  
     ods层到dwd层该怎么处理? 
    
     结构数据    
     降维  
     日志数据  
     非结构数据  
     9.12的课程    
     关系模型和维度模型    
     联机事务处理OLTP    
     传统关系型数据库的主要应用    
     三范式  
     数据冗余低  
     面向事务  
     常使用连表查询------低效  
     联机分析处理OLAP    
     数仓的主要应用    
     维度模型    
     以一张事实表为中心进行表的组织  
     面向业务  
     数据冗余高  
     表的分类    
     事实表    
     事务性事实表    
     以一笔支付记录作为事实表中的一行数据  
     周期型快照事实表    
     每天的销售额    
     某日退货    
     实际情况  
     累积型快照事实表    
     物流    
     货到哪里了?  
     每行数据代表一个业务事件  
     维度表    
     抽象    
     商品种类    
     订单状态  
     DWD层    
     选择业务过程    
     降维的过程  
     声明颗粒度    
     建时间维度表  
     确定维度    
     描述业务事实    
     时间,地点,人物,事  
     确定事实    
     事实,指业务中的度量值    
     订单数,订单金额  
     基于每个具体业务过程的特点构建最细颗粒度的明细数据层事实表    
     提前把最小颗粒度构建清楚  
     回归星形模型    
     矩阵--我头都大了  
     为什么要数据分层?  
     dwd_data_city    
     地域维度表    
     区  
     市  
     省  
     国家  
     街道  
     自由主题    
     根据主题和想要的结果去降维---合并表    
     官方    
     理想化    
     每一步提前预知结果    
     丢失重要的相关数据  
     直接进行数据聚合  
     面向字段,面向表    
     看手里有什么数据  
     找线索    
     思路搞清    
     确定我们已有什么线索  
     数仓之后层级去做的事  
     主题:周某某和A某某的关系  
     销售表(事实表)    
     卖了多少?  
     库存多少?  
     日期表    
     日期  
     年份  
     地址表    
     国家  
     省份  
     城市  
     商品表  
     供应商表    
     供应商名称  
     供应商id  
     供应产品品类  
     品类id  
     商品实际完成订单情况(事实表)  
     退货表  
     数仓主题  
     DWS层    
     基于事实表来处理维度表    
     事实表的颗粒度  
     事实表和事实表的关联  
     宽表字段    
     一张表都是事实表的度量  
     规整事实表中的字段  
     Hive    
     MapReduce    
     注意Partition    
     上午数据99%,下午数据1%  
     大量job  
     配置优化    
     列剪裁    
     忽略不需要的列    
     hive处理的方式  
     分区剪裁    
     hive.optimize.pruner=true  
     减少join  
     group by    
     Map端部分聚合    
     hive.map.aggr=true  
     随机分配    
     hive.group-by.skewindata  
     程序优化  
     始终在避免数据倾斜  
     hive的自定义函数    
     内置函数  
     自定义的函数  
     JAVA访问Hive  
     线程和进程的基础    
     进程    
     程序的一次启动执行    
     操作系统把程序装入内存  
     程序是存放在硬盘中的可执行文件,主要是指令和数据。  
     同一个程序可以多次启动  
     进程一般都是并发的    
     不同的进程    
     地址空间是相互隔离的  
     不是程序执行和系统进行并发调度的最小单位  
     什么是Java程序的进程呢?    
     所有的程序都运行在JVM中  
     启动一个JVM进程    
     程序入口点main()方法    
     主线程  
     GC线程(垃圾回收)  
     JDK1.8    
     每个线程默认分配1MB的栈内存  
     线程    
     CPU调度的最小单位    
     但是不是操作系统资源分配的最小单位  
     Java    
     Thread实例    
     Java进程中每一个线程都对应着一个Thread实例  
     线程的描述信息在Thread的实例属性中得到保存,供JVM进行线程管理和调度时使用。  
     一个CPU内核上,同一时刻只能有一个线程是正在执行的    
     该线程被叫做当前线程  
     栈的概念    
     魏同学的概念    
     运算受限的线性表。限定仅在表尾进行插入和删除操作的线性表  
     曹同学的概念    
     数据的先进后出  
     栈内存    
     存放方法帧(栈帧)的内存    
     栈帧的操作    
     是后进先出的模式  
     Java方法每一次执行都需要配一个方法帧    
     方法帧主要保存该方法中的局部变量,方法的返回地址  
     JVM合理把方法帧放入对应线程的栈内存    
     受进程管理  
     方法执行完后,JVM把方法帧从栈内存清除    
     方法帧的局部变量的内存空间就被回收  
     问题    
     如果一个线程中main()方法是第一个被分配的方法帧,那么当线程结束时它的方法帧是倒数第几个被栈内存清空的?  
     本质:4核CPU,在同一时刻,只能执行4个线程。  
     蔡同学的概念    
     进程优先级越高,那么就可以分占相对多的CPU时间片    
     分时操作系统分配给每个正在运行的进程微观上的一段CPU时间  
     Linux    
     大部分操作系统都能够直接对部分线程进行管理  
     CPU时间片    
     把CPU工作的时间,按某一个定量时间段算就是CPU时间片    
     注意,这里的时间片不是最小时间单位    
     颗粒度  
     不同的操作系统,不同的CPU,对应的CPU时间片长度都不同  
     进程与线程的区别    
     进程包含线程  
     线程是CPU调度的最小单位  
     进程之间是相互独立的    
     线程之间共享进程的资源    
     方法区内存  
     堆内存  
     系统资源  
     切换速度    
     线程切换比进程切换快  
     进程和线程的界限很模糊    
     有本身即使线程也是进程的程序  
     ZooKeeper    
     实现了分布式环境的数据一致性    
     每时每刻我们访问Zookeeper的树结构时,不同的节点返回的数据都是一致的。  
     是一种简单的分布式数据库    
     一个事务中访问到了另外一个事务未提交的数据  
     一个事务内根据同一个条件对数据进行多次查询,但是结果不一样  
     两个完全相同的查询执行时,结果不同  
     核心回顾    
     1.数据库三范式  
     2.如何降维,什么是同一维度。  
     3.事实表和维度表  
     库存表  
     事件,故事  
     时间  
     地点  
     人物  
     事  
     美团    
     ODS    
     数据源  
     IDL    
     数据集成    
     业务主题的划分  
     数据规范  
     dwd的功能  
     CDL    
     数据组件    
     划分主题  
     用户活动  
     商家交易  
     MDL    
     数据集市层    
     宽表  
     支持应用查询  
     ADL    
     数据应用层  
     IO底层原理    
     内存的安全    
     内核内存  
     用户空间内存  
     每个应用程序进程都有一个单独的用户空间    
     对应的进程处于用户状态  
     用户状态的进程不能访问内核空间中的数据    
     需要切换到内核状态才能进行系统调用  
     System Call  
     IO读写依赖于底层的IO读写    
     中间会用到System Call这样的系统调用    
     不同的操作系统IO读写方式不同  
     read和write    
     系统调用    
     write    
     不是直接把数据写入物理设备  
     read    
     不是直接从物理设备把数据读取到应用内存  
     重点    
     read和write两个系统调用都不负责数据在内核缓冲区和物理设备之间的交换  
     本质是两个缓冲区的数据交换  
     数据架构    
     物理表现(存储和读取)    
     纸带,打孔卡    
     磁带    
     磁盘存储    
     并行磁盘存储  
     大数据  
     逻辑连接    
     结构化    
     层次的/关系的    
     拓扑/网络  
     内部格式    
     结构化  
     非结构化    
     重复性(hadoop)    
     探测器    
     例子1.遥控器控制电视  
     例子2.高铁,从郑州到南京什么时候到?火车什么时候进站什么时候离站?  
     例子3.机器人,电池温度?电池剩余?机械臂是否正常运行?  
     非重复性(文本消歧)    
     发布的评论  
     电子邮件  
     语音留言  
     文件结构    
     文件    
     主文件    
     数据库    
     运营数据的存储  
     数据仓库    
     维度模型  
     数据集市  
     数据保险箱  
     数据量很大    
     同时并行读取  
     同时并行写入  
     定义好的数据    
     重复性的    
     同一结构重复出现  
     结构相同    
     记录数据的结构相似  
     一个数据的出现和另一个数据的出现之间的唯一区别在于数据的内容  
     非重复性数据    
     文本数据    
     以文本形式体现的数据    
     语境化  
     非文本数据    
     视频,图片,摩斯码  
     文本消歧(ETL)    
     提取Extract  
     转换Transform  
     加载Load  
     非结构化的重复性数据不在乎数据的语境,而非结构化的非重复性数据非常在乎语境  
     数据基础设施    
     结构化的重复数据和非结构化的重复数据是一样的么?    
     数据库中的数据和探测器来的数据是一样的么?    
     都具有重复性  
     数据体量不一样  
     结构化数据数据一般被分解成单个记录,以块的形式存在,不同的数据在不同的块里  
     非结构化的重复数据,所有数据都在一个块里    
     需要解析器来处理  
     罗马人口普查方法  
     管理大量数据的能力    
     结构化DBMS    
     只需要做简单的I/O  
     非结构化数据最重要的是从一大堆数据中解析数据,必须要进行大量的I/O操作  
     JJJJJJJJJJJJJJJJJJJJJJJJJJLLLLLLLLLLLLLLLLLLLJLJLJJLJLJLJLJLJLJLJJLJLJJLJLJLJLJLJLJLJLJLJLJLJLJLJLJLJLJLJJLJLJLJLJLJLJLJLJLJJLJLJLJLJLJLJLJLJLJLJLJLJLJLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJJLLLLLLLLLLLLLLLLLLLLLLLLLLLLLLJJJJJJJJJJJJJJJJJJJLJLJLJLJLJLJLJLJLJLJ  
     复习一下YARN的管理流程,hadoop的工作流程  
     企业数据管理    
     数据的最终目的是支持分析  
     法律    
     正式分析    
     上市公司财务数据    
     数据质量  
     准确性  
     非正式分析    
     数据有效性  
     数据的谱系  
     第一步收集数据    
     是否是自动化收集  
     特定采集仪器----采集物理纸质数据---OCR光学软件  
     客服录音---语音识别---转录技术  
     第二步逻辑消解    
     消解键结构  
     消解定义  
     消解计算  
     消解数据结构  
     第三步规范化和数据分类  
     数据的生命周期    
     数据源本身----》数据采集------》组织数据------》数据存储----》数据集成----》有用性------》归档-----》丢弃-------》  
     正常来讲,数据的生命周期是随着时间的增长而递减的    
     例外:寿险行业,精算师-----查看100年以前的数据。---科学的历史    
     100年前10元钱就买寿险和现在五千  
     数据完整性    
     会随着时间的流式而退化    
     例子:股价,1950年的IBM每股35美元。2015年IBM的每股200美元。    
     随着时间的推移,数据完整性会发生根本变化,导致数据本身定义发生巨大改变,失去可比性  
    
 
 
 
 
  0 条评论
 下一页
  
   
  
  
  
  
  
  
  
  
  
  
 