《华为数据之道》图解
2024-10-18 17:37:51 21 举报
AI智能生成
在学习、阅读《华为数据之道》这本书的同时,有做导图记录的习惯,正好看到本次活动,希望能和大家一起学习数据管理的知识。
作者其他创作
大纲/内容
数据驱动的企业数字化转型
业态特征
产业链条长,多业态并存
各条块分割、业务组织强势、变革困难、变革复杂度高
运营环境
数据交互和共享风险高
业务涵盖范围广,易形成地区性等客观原因下的数据孤岛
IT建设过程
数据复杂,历史包袱重
企业发展历史长,软件版本多,数据多源多样,维稳
数据质量
数据可信和一致化的要求
质量要求高
建立企业级数据综合治理体系
政策
明确数据工作在公司治理体系中的地位,管理层对数据的重要性有统一认知
华为数据管理总纲
信息架构管理原则
建立企业级信息架构,统一数据语言
所有变革项目须遵从数据管控要求
应用系统设计和开发应遵从企业级信息架构
数据产生管理原则
数据规划对齐业务战略
各数据owner承担管理责任
关键数据须定义单一数据源,一点录入,多点调用
谁产生数据,谁对数据质量负责
数据应用管理原则
在满足安全的前提下充分共享
须遵守法律法规和道德规范的要求
数据问责与奖惩管理原则
各数据owner应建立数据问题回溯和奖惩机制
数据源管理政策
数据源管理原则
所有关键数据必须认证数据源
数据管理专业组织为关键数据制定源头
所有关键数据仅能在数据源录入、修改
所有应用系统必须从数据源或数据源镜像获取关键数据
数据owner确保数据源的数据质量
数据质量管理政策
数据质量管理职责及要求
针对各数据owner提出工作要求
数据质量管理的业务规则和管理要求
建立管理数据流程
管理数据流程关键角色及职责设置
信息架构工程师
数据治理工程师
数据平台工程师
数据分析师
数据科学家
建立业务负责制的数据管理责任体系
数据分类管理框架
基础数据治理
用于对其他数据进行分类--ref:参考数据
管理重点在于变更管理和统一标准管控
主数据治理
是参与业务事件的主体或资源的数据
是具有高业务价值的、跨流程和跨系统重复使用的数据
管理要求是确保同源多用和重点进行数据内容的校验
事务数据治理
事务数据在业务和流程中产生,是业务事件的记录,其本身就是业务运作的一部分
事务数据会调用主数据和基础数据
报告数据治理
报告数据是指对数据进行处理加工后,用作业务决策依据的数据
用于支持报告和报表的生成
观测数据治理
是通过观测工具获取的数据
特征
通常数据量较大且是过程性的,主要用作监控分析
由机器自动采集生成
是观测工具采集回来的原始数据,仅转换结构和格式,不做任何业务规则解析
规则数据治理
是结构化描述业务规则变量的数据,是实现业务规则的核心数据
元数据管理
元数据是描述数据的数据,用于打破业务和IT之间的语言障碍,帮助业务更好地理解数据
业务元数据
用户访问数据时了解业务含义的途径(资产目录、owner、数据密级等)
技术元数据
实施人员开发系统时使用的数据(物理模型的表与字段、ETL规则、集成关系等)
操作元数据
数据处理日志及运营情况数据(调度频度、访问记录等)
元数据管理架构
产生元数据
采集元数据
注册元数据
运维元数据
面向“业务交易”的信息架构建设
数据分层结构
主题域分组
是公司顶层信息分类,通过数据视角体现公司最高层面关注的业务领域
主题域
是互不重叠数据的高层吗的分类,用于管理其下一级的业务对象
业务对象
是业务领域重要的人、事、物,承载了业务运作和管理设计的重要信息
逻辑数据实体
是具有一定逻辑关系的数据属性的集合
属性
是描述所属业务对象的兴致和特征,反映信息管理最小粒度
数据标准
定义公司层面需共同遵守的属性层数据含义和业务规则,是公司层面对某个数据的共同理解
数据模型
是从数据视角对现实世界特征的模拟和抽象,根据业务需求抽取信息的主要特征,反映业务信息(对象)之间的关联关系
架构原则
数据按对象管理,明确数据owner
从企业视角定义信息架构
遵从公司的数据分类管理框架
业务对象结构化、数字化
数据服务化,同源共享
面向“联接共享”的数据底座建设
数据湖
特点
逻辑统一
类型多样
原始记录
数据入湖的标准
明确数据owner
发布数据标准
定义数据密级
明确数据源
数据质量评估
元数据注册
数据入湖的方式
物理入湖
将原始数据复制到数据湖中,包括批量处理、数据复制同步、消息和流集成等方式
虚拟入湖
将原始数据不在数据湖中进行物理存储,而是通过建立对应虚拟表的集成方式实现入湖
面向“自助消费”的数据服务建设
从“保姆”模式到“服务+自助”模式
数据赋能业务运营
打造“数字孪生”的数据全量感知能力
数字世界:数字孪生
对象数字化
规则数字化
过程数字化
数据感知能力架构
硬感知
利用设备或装置进行数据收集
OCR、语音、视频、传感器
软感知
使用软件或各种程序进行数据收集
埋点、System Log、爬虫
打造“清洁数据”的质量综合管理能力
基于PDCA的管理框架
Plan、Do、Check、Action
数据质量管理以数据清洁为目标,以业务需求为驱动,通过PDCA循环,提升数据质量,达到数据质量结果满意
自上而下打造数据质量领导力
全面推进数据质量持续改进机制
不断加强数据质量能力保障
全面监控企业业务异常数据
数据质量规则
单列
不可为空类、语法约束类、格式规范类、长度约束类、值域约束类、事实参照标准类
跨列
应为空值类、入库及时类、单表等值一致约束类、单表逻辑一致约束类
跨行
记录唯一类、层级结构一致约束类
跨表
外关联约束类、跨表等值一致约束类、跨表逻辑一致类
华为数据质量
完整性
数据在创建、传递过程中无缺失和遗漏(实体完整、属性完整、记录完整、字段值完整)
及时性
及时记录和传递相关数据,满足业务对信息获取的时间要求
准确性
真实、准确地记录原始数据,无虚假数据及信息
一致性
遵循统一的数据标准记录和传递数据和信息(数据记录是否规范、数据是否符合逻辑)
唯一性
统一数据只能有唯一的标识符
有效性
数据的值、格式和展现形式符合数据定义和业务定义的要求
打造“安全合规”的数据可控共享能力
分级管控
公司层面
外部公开、内部公开、秘密、机密、绝密
资产层面
核心资产(绝密)、关键资产(机密)
企业内部的管理需求
个人数据、敏感个人数据、商业联系个人数据、一般个人数据、特种个人数据
华为数据治理历程
第一阶段2007-2016
设立数据管理专业组织
建立数据管理框架
发布数据管理政策
任命数据owner
第二阶段2017-至今
建设数据底座
对数据治理的要求
统一数据管理规则
形成清洁、完整、一致的数据湖
业务与数据双驱动
满足业务自助式的数据消费诉求
数据安全合规
完善业务对象、过程与规则数字化
提升数据自动采集能力,减少人工录入
业务即行为,行为即记录,记录及数据
收藏
收藏
0 条评论
下一页