华为数据之道
2023-02-08 15:26:33 10 举报
AI智能生成
华为数据之道,从技术、流程、管理等多个维度系统讲解华为数据治理和数字化转型的著作
作者其他创作
大纲/内容
面向“自助消费”的数据服务建设<br>
数据服务:实现数据自助、高效、复用<br>
什么是数据服务
数据服务和传统集成方式有很大区别,数据的使用方(不仅仅是IT系统人员,也可以是具体业务人员)不再需要点对点地寻找数据来源,再点对点地进行数据集成,从而形成错综复杂的集成关系,而是通过公共数据服务按需获取各类数据。<br>
数据服务生命周期管理
数据服务的识别与定义<br>
分析数据服务需求:通过数据需求调研与需求交接,判断数据服务类型(面向系统或面向消费)、数据内容(指标/维度/范围/报表项)、数据源与时效性要求。<br>
识别可重用性:<br>
判断准入条件:判断服务设计条件是否已具备,包括数据Owner是否明确、元数据是否定义、业务元数据和技术元数据是否建立联接、数据是否已入湖等。<br>
制定迭代计划<br>
数据服务分类与建设规范<br>
数据集服务
数据API服务
打造数据供应的三个1
三个1
构建以用户体验为核心的数据地图<br>
数据地图的核心价值
数据地图的关键能力
数据搜索
排序推荐<br>
数据样例<br>
资产/用户画像<br>
人人都是分析师<br>
从”保姆式“模式到”服务+自助“模式<br>
传统报表需求<br>
服务+自助模式<br>
打造业务自助分析的关键能力<br>
针对三类角色提供差异化服务
以租户为核心的自助分析关键能力<br>
从结果管理到过程管理,从能”看“到能”管“<br>
数据赋能业务运营<br>
满足业务运营中数据实时可视化的需求<br>
满足业务运营中及时诊断预警的需求<br>
满足业务运营中复杂智能决策的需求<br>
数据消费典型场景实践
华为数据驱动数字化运营的历程和经验<br>
华为数字化运营的不同阶段<br>
做好数字化运营的“三个要点、两个基础”<br>
三个要点”是指数字化运营中的“发育、激励、分享
两个基础”是指数字化运营中的“数据服务和IT平台
打造“数字孪生”的数据全量感知能力<br>
全量、无接触”的数据感知能力框架<br>
数据感知能力的需求起源:数字孪生<br>
数据感知能力架构<br>
基于物理世界的“硬感知”能力
“硬感知”能力的分类<br>
条形码与二维码<br>
磁卡<br>
RFID(NFC的距离小于10cm)<br>
OCR和ICR<br>
图像数据采集<br>
音频数据采集<br>
视频数据采集<br>
传感器数据采集<br>
工业设备数据采集<br>
“硬感知”能力在华为的实践<br>
门店数字化<br>
站点数字化<br>
基于数字世界的“软感知”能力
“软感知”能力的分类<br>
埋点<br>
日志数据采集<br>
网络爬虫<br>
“软感知”能力在华为的实践<br>
通过感知能力推进企业业务数字化
感知数据在华为信息架构中的位置<br>
非数字原生企业数据感知能力的建设<br>
打造“清洁数据”的质量综合管理能力<br>
基于PDCA的数据质量管理框架<br>
什么是数据质量<br>
完整性
及时性
准确性
一致性
唯一性
有效性
全面监控企业业务异常数据<br>
数据质量规则<br>
通过数据质量综合水平牵引质量提升<br>
数据质量度量运作机制<br>
度量模型<br>
设计质量度量<br>
执行质量度量<br>
打造“安全合规”的数据可控共享能力<br>
内外部安全形势,驱动数据安全治理发展
数据安全成为国家竞争的新战场<br>
数字时代数据安全的新变化<br>
数字化转型下的数据安全共享<br>
构建以元数据为基础的安全隐私保护框架
以元数据为基础的安全隐私治理<br>
数据安全隐私分层分级管控策略<br>
数据底座安全隐私分级管控方案<br>
分级标识数据安全隐私<br>
“静”“动”结合的数据保护与授权管理
静态控制:数据保护能力架构<br>
动态控制:数据授权与权限管理<br>
未来已来:数据成为企业核心竞争力<br>
数据:新的生产要素<br>
据被列为生产要素:制度层面的肯定<br>
数据将进入企业的资产负债表<br>
数据资产的价值由市场决定<br>
大规模数据交互的企业数据生态<br>
数据生态离不开底层技术的支撑<br>
数据主权是数据安全交换的核心<br>
国际数据空间的目标与原则<br>
多方安全计算强化数据主权<br>
摆脱传统手段的数据管理方式
智能数据管理是数据工作的未来<br>
内容级分析能力提供资产全景图<br>
属性特征启发主外键智能联接<br>
质量缺陷预发现<br>
算法助力数据管理<br>
数字道德抵御算法歧视<br>
第四个世界:机器认知世界<br>
真实唯一的“物理世界”和五彩缤纷的“人类认知世界”<br>
映射“物理世界”的数字孪生——“数字世界”<br>
“数字世界”中的智能认知——“机器认知世界”<br>
序言
第三次工业革命带来了机器的进步,但不能解决一个行业或者一家企业的运营问题,运营效率低下带来的是成本的高居不下。<br>
华为作为非数字原生企业,在信息化时代初期,建立了很多相对独立的IT系统,典型的特点是“一类业务,一个IT系统,一个数据库”的封闭式IT架构<br>
只有建立统一、清洁、智能的数据底座才能支撑公司不断发展新业务,支撑各个区域市场的差异化需求,实现“数据实时可视、海量业务自动、算法支撑决策”,实现“万物互联的智能世界”<br>
华为数字化转型的核心理念是“双模IT、立而不破”,通过建立新老环境融合的双模(Bi-Model)IT架构,把企业的新老数据和应用与正在及未来将要产生的IoT数据连接在一起,构建统一的数据与应用平台,并与机器学习、人工智能等技术手段相结合,使数据产生更大的价值。<br>
数据驱动的企业数字化转型
非数字原生企业的数字化转型挑战<br>
数字原生企业从成立之初就是以数字世界为中心构建,非数字原生企业成立之时基本都是以物理世界展开的<br>
产业链长,多业态并存,特别是大中型的生产企业,往往有较长的业务链路,从研发到销售全产业链覆盖<br>
数据交互和共享风险高<br>
数据更复杂,历史包袱重<br>
数据可信和一致化的要求程度高<br>
华为数字化转型与数据治理<br>
华为数字化转型整体目标
各业务领域数字化、服务化打通跨领域的信息断点,达到领先于行业的运营效率,逐步构建“面向客户做生意”和“基于市场的创新”两个业务流为核心的“端到端”的数字化管理体系。管理方式从定性走向定量,实现数据驱动的高效运作<br>
对准5类用户的ROADS(实时、按需、全在线、服务自助、社交化)体验,实现与客户做生意更简单、更高效、更安全,提升客户满意度<br>
华为数字化转型蓝图及对数据治理的要求<br>
5项举措<br>
实现“客户交互式”的转变,用数字化手段做厚,做深客户界面,实现与客户做生意更简单、更高效、更安全提升客户 体验满意度,帮助客户解决问题<br>
实现“作战模式”的转变,围绕两大主业务流,以项目为中心,对准一线精兵团队作战,率先实现基于ROADS的体验,达到领先于行业的运营效率。<br>
实现“平台能力”提供方式的转变,实现关键业务对象的数字化并不断汇聚数据,实现流程数字化和能力服务化,支撑一线作战人员和客户的全联接。<br>
实现“运营模式”的转变,基于统一数据底座,实现数字化运营与决策,简化管理,加大对一线人员的授权。<br>
云化、服务化的IT基础设施和IT应用,统一公司IT平台,同时构建智能服务。<br>
4项要求<br>
基于统一的数据管理规则,确保数据源头质量以及数据入湖,形成清洁、完整、一致的数据湖,这是华为数字化转型的基础。<br>
业务与数据双驱动,加强数据联接建设,并能够以数据服务方式,灵活满足业务自助式的数据消费诉求。<br>
针对汇聚的海量内外部数据,能够确保数据安全合规。<br>
不断完善业务对象、过程与规则数字化,提升数据自动采集能力,减少人工录入。
华为数据治理实践<br>
历程
第一阶段目标
持续提升数据质量,减少纠错成本:通过数据质量度量与持续改进,确保数据真实反映业务,降低运营风险。<br>
数据全流程贯通,提升业务运作效率:通过业务数字化,标准化,借助IT技术实现业务上下游信息快速传递、共享<br>
第二阶段<br>
业务可视,能够快速、准确决策:通过数据汇聚,实现业务状态透明可视,提供基于“事实”的决策支撑依据<br>
人工智能,实现业务自动化:通过业务规则数字化、算法化,嵌入业务流,逐步替代人工判断<br>
数据创新,成为差异化竞争优势:基于数据的用户洞察,发现新的市场机会点,<br>
华为数据工作的愿景和目标<br>
建立企业级数据综合治理体系<br>
建立公司级数据治理政策
华为数据管理总纲<br>
信息架构管理原则
建立企业级信息架构,统一数据语言。<br>
所有变革项目须遵从数据管控要求。对于不遵从管控要求的变革项目,数据管控组织拥有一票否决权。<br>
应用系统设计和开发应遵从企业级信息架构。关键应用系统必须通过应用系统认证。<br>
数据产生管理原则<br>
数据规划对齐业务战略,业务战略规划必须包含关键数据举措及其路标规划。<br>
公司数据Owner拥有公司数据管理的最高决策权,依托ESC(变革指导委员会)决策平台议事。各数据Owner承担数据工作路标、信息架构、数据责任机制和数据质量的管理责任。<br>
关键数据须定义单一数据源,一点录入,多点调用。数据质量问题应在源头解决。<br>
谁产生数据,谁对数据质量负责。数据Owner负责基于使用要求制定数据质量标准,且须征得关键使用部门的同意。<br>
数据应用管理原则<br>
数据应在满足信息安全的前提下充分共享,数据产生部门不得拒绝跨领域的、合理的数据共享需求。<br>
信息披露、数据安全管理、数据保管和个人数据隐私保护等必须遵守法律法规和道德规范的要求。公司保护员工、客户、商业伙伴和其他可识别个体的数据。<br>
数据问责与奖惩管理原则<br>
各数据Owner应建立数据问题回溯和奖惩机制。对不遵从信息架构或存在严重数据质量问题的责任人进行问责。<br>
信息架构管理政策<br>
管理信息架构的角色与职责<br>
公司数据Owner负责批准企业级信息架构,裁决重大信息架构问题和争议。<br>
各数据Owner负责其所辖数据的信息架构建设和维护,承接及落实公司的数据规划要求。<br>
司的数据管理专业组织作为公司数据工作的支撑组织,负责组织信息架构的建设、维护、落地及遵从管控,负责协调跨领域的信息架构冲突。各领域各事业群(BG)数据管理专业组织协助完成本领域信息架构建设和维护工作。<br>
数据管控组织作为信息架构专业评审机构,确保信息架构的质量和集成。<br>
信息架构建设要求
关键数据应被识别、分类、定义及标准化,数据的定义在公司范围内应唯一,数据标准制定要考虑跨流程要求。<br>
数据资产目录必须承接公司各业务环节的使用需求和报告分析最小粒度的要求。<br>
信息架构驱动应用架构设计,合理规划数据分布。<br>
应用系统数据库的设计和开发要遵循信息架构,减少数据冗余,实现接口标准化。<br>
信息架构遵从管控<br>
变革项目必须遵从已发布的信息架构,变革项目的交付件须包含信息架构内容。对现有架构的遵从是关键评审要素,对于不满足要求的变革项目,数据管控组织拥有一票否决权。<br>
业务流程设计必须遵从已发布的信息架构,在流程说明文件、操作指导书或模板类文件中体现。对于不满足要求的流程,不予发布。<br>
应用系统设计必须遵从已发布的信息架构。在应用架构交付件和应用系统设计交付件中体现。对于不满足要求的应用系统,不予上线。<br>
数据源管理政策<br>
数据源管理原则
所有关键数据必须认证数据源。关键数据是指影响公司经营、运营报告的数据,在公司范围内统一发布。<br>
数据管理专业组织为关键数据指定源头,数据源必须遵从信息架构和标准,经信息架构专家委员会认证后成为数据源。<br>
所有关键数据仅能在数据源录入、修改,全流程共享,其他调用系统不能修改。下游环节发现的数据源质量问题,应当在数据源进行修正。<br>
所有应用系统必须从数据源或数据源镜像获取关键数据。<br>
数据Owner确保数据源的数据质量,对不符合数据质量标准的数据源,必须限期整改。<br>
数据源认证标准<br>
数据源是在信息链上正式发布数据的第一个数据存储系统。<br>
数据源是某项数据唯一的录入点。<br>
数据源必须是数据维护最为及时、正确、完整的数据存储系统。<br>
数据源所在系统的性能和可用性应当满足其他调用系统的数据访问需求。<br>
数据质量管理政策
各数据Owner负责保障所辖数据的质量,承接公司数据Owner设定的数据质量目标,制定数据质量标准及测评指标,持续度量与改进。<br>
公司全员在业务执行的过程中应确保业务记录满足数据质量要求。<br>
财经各级CFO组织应遵循职业道德准则,诚实记录和报告财经数据,承担财务监控和及时报告责任。<br>
公司各级数据管理专业组织为数据Owner提供数据质量管理专业支撑。<br>
融入变革,运营与IT的数据治理<br>
建立管理数据流程
管理数据流程<br>
管理数据流程关键角色及职责设置<br>
管理数据流程与管理变革项目、管理质量与运营之间的关系<br>
通过变革体系和运营体系进行决策<br>
华为数据治理决策体系<br>
数据治理融入IT实施<br>
在IT产品团队中设置系统架构师和数据架构师角色,负责界面设计,数据库设计、数据集成方案设计、向上承接信息架构的设计要求<br>
在管理IT流程的设计规范中,明确界面的字段要遵从数据标准的定义,数据库表和字段的设计要承接信息架构的设计要求,从而达到数据治理融入IT实施流程的目标。<br>
通过内控体系赋能数据治理<br>
要对华为这样的大型企业实施数据治理是件非常复杂的事情,涉及上千个业务对象、上百个变革和优化改进项目的协同,仅仅通过数据管理部门对各个项目和部门的培训、指导、人员支持,不足以确保公司的治理目标和要求有效地贯彻到位,因此,华为通过内控体系,每年实施SACA评估和数据专项内部审计,揭示数据治理过程的问题,确定改进目标和责任人,从而保证数据治理机制的有效运作。<br>
建立业务负责制的数据管理责任体系<br>
任命数据owner和数据管家<br>
公司数据Owner<br>
制定数据管理体系的愿景和路标。<br>
传播数据管理理念,营造数据文化氛围。<br>
建设和优化数据管理体系,包括组织与任命、授权与问责等。<br>
批准公司数据管理的政策和法规。<br>
裁决跨领域的数据及管理争议,解决跨领域的重大数据及管理问题。<br>
领域数据Owner<br>
数据Owner要负责所辖领域的数据管理体系建设和优化,传播数据管理理念,营造数据文化氛围。<br>
数据Owner要负责所辖领域的信息架构建设和维护,确保关键数据被识别、分类、定义及标准化,数据的定义在公司范围内唯一,数据标准制定要考虑跨流程要求。<br>
数据Owner要负责保障所辖领域的数据质量,承接公司设定的数据质量目标,制定数据质量标准及测评指标,持续度量与改进。<br>
数据Owner要负责所辖领域数据入湖,建设数据服务,满足公司各个部门对本领域数据的需求。<br>
数据Owner要建立数据问题回溯和奖惩机制,对所辖领域的数据问题及争议进行裁决,对不遵从信息架构或存在严重数据质量问题的责任人进行问责。<br>
建立公司层面数据管理组织<br>
体系建设者
负责数据管理的战略、规划、政策、规则的制定。<br>
负责数据管理体系建设。<br>
数据架构及核心数据资产管理。<br>
确保公司数据质量水平。<br>
能力中心<br>
构建数据管理的方法、工具、平台。<br>
负责专业能力的开发和建设,包括数据架构、数据分析、信息管理、数据质量管理。<br>
业务的数据伙伴<br>
面向业务,提供数据解决方案,解决业务数据痛点。<br>
支撑业务数据需求。<br>
向业务提供标准化的主数据或基础数据服务
文化倡导者<br>
在公司范围建设追求卓越、“谁创建(录入)数据,谁对数据质量负责”的文化。<br>
用数据支撑业务决策的文化。<br>
差异化的企业数据分类管理框架<br>
基于数据特性的分类管理框架<br>
数据分类
内部数据
外部数据
结构化数据
基础数据
主数据<br>
事务数据<br>
报告数据
观测数据<br>
规则数据
非结构化数据
元数据
数据分类定义及特征描述<br>
<br>
<br>
以统一语言为核心的结构化数据管理<br>
基础数据治理<br>
治理基础数据的价值
以“运输方式”为例,基础数据的管理收益<br>
华为基础数据管理框架
主数据治理<br>
华为的主数据管理策略
主数据治理策略<br>
数据消费层包括所有消费数据的IT产品团队,负责提出数据集成需求和集成接口实施。<br>
负责主数据集成解决方案的落地,包括数据服务的IT实施和数据服务的配置管理。<br>
为需要集成主数据的IT产品团队提供咨询和方案服务,负责受理主数据集成需求,制定主数据集成解决方案,维护主数据的通用数据模型。<br>
管控层由信息架构专家组担任,负责主数据规则的制定与发布,以及主数据集成争议或例外的决策<br>
主数据治理实战
客户主数据治理框架<br>
客户信息不完整,且下游系统未严格遵循数据源头所定义的标准<br>
数据架构不灵活、紧耦合,不能有效支撑多BG的业务管理<br>
下游系统集成管理不严格,存在多源头录入
客户数据源头的数据质量管理控制点无法延伸到下游的各集成IT系统中
客户主数据平台架构
数据服务化改造
确保下游IT系统或应用不从非数据源系统集成客户数据。例如:A系统从B系统(非数据源)集成主数据,并且在A系统落地了物理表。<br>
确保下游IT系统或应用集成合法数据源且不修改属性。例如,修改了展现业务含义的字段,将编码改为编号。<br>
确保下游IT系统或应用中不补录数据。例如,客户数据从合法的数据源集成,集成后对客户数据进行行记录的新增或补录。<br>
确保下游IT系统或应用不向后传递数据。例如,某系统未以数据服务方式从数据源获取数据,而是直接调用中间系统(非数据源)的客户数据。<br>
价值
实现“数出一孔”,提高数据质量。提高数据准确性与及时性,减少不同部门之间的对账成本,帮助提高财经等报告的准确性。<br>
满足内外部应遵从的要求,降低华为公司风险。实现数据“一点录入,多点调用”,满足财报内控及内外部审计要求,提高客户数据真实性,降低合同造假等业务运营风险。<br>
支持交易流打通,提升运营效率。满足各流程对客户数据的要求,降低合同非正常变更及退票风险。<br>
支持经营分析和价值评价。支持基于客户视角生成BG管理报告与各业务部门经营管理分析。<br>
支持价值挖掘,聚焦优质客户。支持客户360度分析,驱动优质资源瞄准优质客户,提高市场响应效率。<br>
事务数据治理
事务数据在业务和流程中产生,是业务事件的记录,其本身就是业务运作的一部分,务数据是具有较强时效性的一次性业务事件,通常在事件结束后不再更新。<br>
事务数据会调用主数据和基础数据。以客户框架合同为例,核心属性有32个,其中调用基础数据和主数据24个,占75%;客户框架合同本身特有的属性8个,占25%。同时,框架合同也引用了机会点的编码和投标项目的编码等事务数据的信息。<br>
事务数据的治理重点就是管理好事务数据对主数据和基础数据的调用,以及事务数据之间的关联关系,确保上下游信息传递顺畅。在事务数据的信息架构中需明确哪些属性是引用其他业务对象的,哪些是其自身特有的。对于引用的基础数据和主数据,要尽可能调用而不是重新创建。<br>
报告数据治理<br>
报告数据是指对数据进行处理加工后,用作业务决策依据的数据。它用于支持报告和报表的生成。<br>
类别
用于报表项数据生成的事实表、指标数据、维度<br>
用于报表项统计和计算的统计函数、趋势函数及报告规则。<br>
用于报表和报告展示的序列关系数据。<br>
用于报表项描述的主数据、基础数据、事务数据、观测数据。<br>
用于对报告进行补充说明的非结构化数据
细分数据类型
事实表
每个事实表由颗粒度属性、维度属性、事务描述属性、度量属性组成;<br>
事实表可以分为基于明细构建的事实表和基于明细做过汇聚的事实表。<br>
维度<br>
维度的数据一般来源于基础数据和主数据;<br>
维度的数据一般用于分析视角的分类;<br>
维度的数据一般有层级关系,可以向下钻取和向上聚合形成新的维度。<br>
统计型函数
通常反映某一维度下指标的聚合情况、离散情况等特征;<br>
其计算数值在报告中通常呈现为图表中的参考线。<br>
趋势型函数<br>
通常将当期值与历史某时点值进行比较
调用时,需要收集指标的历史表现数据<br>
其计算数值在报告中通常呈现为图表中的趋势线
报告规则函数
将业务逻辑通过函数运算体现,通常一个规则包含多个运算和判断条件
规则的计算结果一般不直接输出,需要基于计算结果翻译成业务语言后输出<br>
规则通常与参数表密切相关
序列关系数据
观测数据治理<br>
概念
观测数据是通过观测工具获取的数据,观测对象一般为人、事、物、环境。<br>
相比传统数据,观测数据通常数据量较大且是过程性的,由机器自动采集生成。不同感知方式获取的观测数据,其数据资产管理要素不同<br>
使用软件或者各种技术进行数据收集,收集的对象存在于数字世界,通常不依赖于物理设备,一般是自动运行的程序或脚本
利用设备或装置进行数据收集,收集的对象为物理世界中的物理实体,或者是以物理实体为载体的信息,其数据的感知过程是数据从物理世界向数字世界的转化过程。<br>
特征
观测数据通常数据量较大且是过程性的,主要用作监控分析。例如,视频监控器产生的视频数据、操作系统产生的日志记录数据等
观测数据由机器自动采集生成。例如,各种传感器或探针记录观测对象产生的数据
观测数据是观测工具采集回来的原始数据(Raw Data),仅转换结构和格式,不做任何业务规则解析。<br>
管理
观测工具的元数据可以作为数据资产管理:软感知(埋点、日志收集、爬虫)观测工具抽象成业务对象,由IT部门担任数据Owner进行统一管理;硬感知观测工具作为资源类数据,也建议作为业务对象由相应的领域担任数据Owner进行管理。<br>
原则上,观测对象要定义成业务对象进行管理,这是观测数据管理的前提条件。<br>
观测数据需要记录观测工具、观测对象。针对不同感知方式获取的观测数据,其资产管理方案也不尽相同。例如,以用户界面浏览记录为例,如果是对销售机会点的查询访问观测,应当归属到相应业务领域;如果是对页面性能、页面UV、PV的观测,应当归属到IT部门。<br>
规则数据治理<br>
规则数据是结构化描述业务规则变量(一般为决策表、关联关系表、评分卡等形式)的数据,是实现业务规则的核心数据,如业务中普遍存在的基线数据。<br>
特征<br>
规则数据不可实例化;<br>
规则数据包含判断条件和决策结果两部分信息,区别于描述事物分类信息的基础数据;<br>
规则数据的结构在纵向(列)、横向(行)两个维度上相对稳定,变化形式多为内容刷新
规则数据的变更对业务活动的影响是大范围的。<br>
原则
规则数据的管理是为了支撑业务规则的结构化、信息化、数字化,目标是实现规则的可配置、可视化、可追溯。<br>
不同于标准化的信息架构管理,规则数据的管理具有轻量化、分级的特点。重要的、调用量大、变动频繁的业务规则需要通过规则数据管理,使其从代码中解耦,进行资产注册;使用广泛的、有分析需求的规则数据需要通过注册入湖,实现共享和复用。<br>
业务规则在架构层次上与流程中的业务活动相关联,是业务活动的指导和依据,业务活动的结果通过该业务活动的相关业务对象的属性来记录。业务规则通过业务活动对业务事实、业务行为进行限制,业务人员可以根据业务规则判断业务情况,采取具体行动。<br>
业务规则包含规则变量和变量之间的关系,规则数据主要描述规则的变量部分,是支撑业务规则的核心数据
管理
规则数据必须有唯一的数据Owner,其负责开展规则数据的信息架构建设与维护、数据质量的监控与保障、数据服务建设、数据安全授权与定密等工作。相应的数据管家支持数据Owner对所管辖的业务中的规则数据进行治理,包括建设和维护信息架构、确保架构落地遵从、例行监控数据质量等。<br>
规则数据的元数据要记录与业务规则的关系(规则数据定义前应先完成业务规则的识别和定义)。一个业务规则可以包含零个、一个或多个规则数据,一个规则数据在信息架构上对应一个逻辑数据实体,在物理实现上一般对应一个物理表。规则数据要遵从信息架构资产管理要求(包括明确规则数据的Owner、制定数据标准、明确数据源等),按照信息安全要求定密,以方便规则数据的管理、共享和分析。
以特征提取为核心的非结构化数据管理<br>
随着业务对大数据分析的需求日益增长,非结构化数据的管理逐渐成为数据管理的重要组成部分。非结构化数据包括无格式文本、各类格式文档、图像、音频、视频等多种异构的格式文件,较之结构化数据,其更难标准化和理解,因此在存储、检索以及消费使用时需要智能化的IT技术与之匹配。华为的非结构化数据包括文档(邮件、Excel、Word、PPT)、图片、音频、视频等。<br>
相较于结构化数据,非结构化元数据管理除了需要管理文件对象的标题、格式、Owner等基本特征和定义外,还需对数据内容的客观理解进行管理,如标签、相似性检索、相似性连接等,以便于用户搜索和消费使用。因此,<font color="#ff0000">非结构化数据的治理核心是对其基本特征与内容进行提取</font>,并通过元数据落地来开展的<br>
分类<br>
基本特征类
内容增强类<br>
以确保合规遵从为核心的外部数据管理<br>
外部数据是指华为公司引入的外部组织或者个人拥有处置权利的数据,如供应商资质证明、消费者洞察报告等。外部数据治理的出发点是合规遵从优先,与内部数据治理的目的不同。<br>
治理原则
遵从法律法规、采购合同、客户授权、公司信息安全与公司隐私保护政策等相关规定。<br>
所有引入的外部数据都要有明确的管理责任主体,承担数据引入方式、数据安全要求、数据隐私要求、数据共享范围、数据使用授权、数据质量监管、数据退出销毁等责任
使用方优先使用公司已有数据资产,避免重复采购、重复建设。<br>
控制访问权限,留存访问日志,做到外部数据使用有记录、可审计、可追溯。<br>
在授权范围内,外部数据管理责任主体应合理审批使用方的数据获取要求。<br>
作用于数据价值流的元数据管理<br>
元数据治理面临的挑战<br>
元数据是描述数据的数据,用于打破业务和IT之间的语言障碍,帮助业务更好地理解数据
分类
用户访问数据时了解业务含义的途径,包括资产目录、Owner、数据密级等
实施人员开发系统时使用的数据,包括物理模型的表与字段、ETL规则、集成关系等
数据处理日志及运营情况数据,包括调度频度、访问记录等
价值
元数据能支持企业指标、报表的动态构建。<br>
元数据支持数据服务的统一管理和运营,并实现利用元数据驱动IT敏捷开发
元数据统一管理分析模型,敏捷响应井喷式增长的数据分析需求,支持数据增值、数据变现。<br>
元数据能实现暗数据的透明化,增强数据活性,并能解决数据治理与IT落地脱节的问题<br>
元数据支撑业务管理规则有效落地,保障数据内容合格、合规。<br>
元数据管理架构及策略<br>
制定元数据管理相关流程与规范的落地方案,在IT产品开发过程中实现业务元数据与技术元数据的连接。<br>
通过统一的元模型从各类IT系统中自动采集元数据。<br>
基于增量与存量两种场景,制定元数据注册方法,完成底座元数据注册工作
打造公司元数据中心,管理元数据产生、采集、注册的全过程,实现元数据运维
通过制定元数据标准、规范、平台与管控机制,建立企业级元数据管理体系,并推动其在公司各领域落地,支撑数据底座建设与数字化运营
元数据管理<br>
产生元数据
采集元数据
注册元数据<br>
运维元数据<br>
面向“业务交易”的信息架构设计<br>
信息架构的四个组件
数据资产目录
数据标准
数据模型<br>
数据分布<br>
建立企业层面的共同行为准则
数据按对象管理,明确数据owner<br>
从企业视角定义信息架构
遵从公司的数据分类管理框架<br>
数据服务化,同源共享
基于业务对象进行设计和落地<br>
按业务对象进行架构设计<br>
业务对象是指企业运作和管理中不可缺少的重要人、事、物<br>
业务对象有唯一的身份标识<br>
业务对象相对独立并有属性描述
业务对象可实例化
按业务对象进行架构落地
对象、过程、规则
既有信息架构无法满足自身业务需求<br>
大量业务和作业所产生的数据并没有完整地被管理<br>
大量业务过程没有形成可视,可管理的数据<br>
大量业务过程缺乏管理,无法灵活使用<br>
面向数字化转型的扩展
对象数字化
过程数字化<br>
规则数字化<br>
面向“链接共享”的数据底座建设<br>
支撑非数字原生企业数字化转型的数据底座建设框架<br>
数据底座总体架构
数据底座建设策略
数据安全原则
需求、规划双轮驱动原则<br>
数据供应多场景原则<br>
信息架构遵从原则<br>
数据湖:实现企业数据的“逻辑汇聚“<br>
华为数据湖的三个特点
华为数据湖不是一个单一的物理存储,而是根据数据类型、业务区域等由多个不同的物理存储构成,并通过统一的元数据语义层进行定义、拉通和管理。<br>
数据湖存放所有不同类型的数据,包括企业内部IT系统产生的结构化数据、业务交易和内部管理的非结构化的文本数据、公司内部园区各种传感器检测到的设备运行数据,以及外部的媒体数据等。<br>
华为数据湖是对原始数据的汇聚,不对数据做任何的转换、清洗、加工等处理,保留数据最原始特征,为数据的加工和消费提供丰富的可能。<br>
数据入湖的6个标准
明确数据Owner<br>
发布数据标准<br>
认证数据源<br>
定义数据密级<br>
数据质量评估<br>
元数据注册<br>
数据入湖方式
批量集成<br>
数据复制同步<br>
消息集成<br>
流集成
数据虚拟化
结构化数据入湖
非结构化数据入湖
数据主题连接:将数据转换为”信息“<br>
5类主题联接的应用场景<br>
多维模型设计
确定业务场景<br>
声明粒度<br>
维度设计
图模型设计
标签设计
三种类型的标签
标签管理<br>
标签体系建设
选定目标对象,根据业务需求确定标签所打的业务对象,业务对象范围参考公司发布的信息架构中的业务对象。<br>
根据标签的复杂程度进行标签层级设计。<br>
进行详细的标签和标签值设计,包括标签定义、适用范围、标签的生成逻辑等
打标签
打标签数据存储结构<br>
打标签的实现方法<br>
指标设计
算法模型设计
0 条评论
下一页