数据平台设计方案
2023-11-24 09:52:53 0 举报
登录查看完整内容
大数据平台设计方案
作者其他创作
大纲/内容
数据源(font color=\"#323232\
数据科学机器学习
特征工程
实时计算
模型应用
数据补全
加密/前端/后端/算法/大数据
产品主题
数据调度
公共数据资源
限流策略
渠道主题
......
数据安全
数据同步(数据装载)
主数据融合
结构化数据
统一数据标签
数据集成数据开发数据查询仓库模型设计数据存储数据调度数据分发安全管理
数据处理层
①数据质量管理:包括规则管理(准确性、完整性、唯一性、一致性、及时性、业务关联性等)、任务配置、检查报告。
数据发布应用
目录管理系统
目录分类管理目录编制审核发布
or
2.数据描述:提供关于数据的详细描述和说明,例如数据的含义、数据的结构、数据的格式等。这可以帮助用户了解歌据的内容和结构,以便正确地使用和解释数据。---DWD层/MID层
4.数据质量:提供有关数据质量的信息,例如数据的准确性、完案性、一致性等。这可以帮助用户评估数据的可信度和可用性。---DWD层/MID层
元数据管理主数据管理数据质量数据标准数据安全数据生命周期
公共维度组合
离线开发
MPP
1.数据分类:将数据按照一定的分类标准进行分类,例如按照数据类型、数据主题、数据来源等进行分类。这可以帮助用户更快地找到所需的数据,并了解数据的基本属性。---DWD层/MID层
数据字典转换
考核主题数据集市
2.数据可视化与报告模型: 将数据可视化服务与报告模型相结合,帮助用户将数据可视化并生成报告。这可以包括将数据转化为图表、仪表盘和报告,以便用户更好地理解和传达数据的见解。
ES
数据列检查
4.经济指标维度: 将经济指标数据与教据服务相结合,帮助用户分析和预测经济趋势和市场动态。这可以包括使用经济模型、指标分析和经济预测算法来处理经济指标数据,并提供相关的经济分析和预测结果。
数据安全方面主要是对数据脱敏,数据保密等级的设定 (C1~C4),数据申请做权限控制,审计数据使用的方式,我们分三个阶段完成数据安全的治理
数据格式转换
MID
模型发布
数据共享系统依托数据资源目录,按照数据交换标准,实现数据资源跨部门、跨层级、跨区域共享交换。提供资源展示、检索、申请、使用、下载能力,用户管理和资源授权能力,以及数据库表、服务接口、文件等类型共享交换能力。
实时任务监控
可视化分析(BI)
ODS
3.数据流与实时分析模型: 将数据流服务与实时分析模型相结合,帮助用户实时监控和分析数据。这可以包括接收实时教据流,应用实时分析算法来处理数据,并生成实时的结果和警报。
元数据管理
API授权
半结构化数据
Hive
统一数据维度
(2)支持数据采集过程的可视化视图分析;---APP层
HDFS
(5)支持数据及数据产品分级分类管理,包括数据集、软件、算法、模型等,根据数据级别实施不同的管理方式。---MID层
数据服务API
MySQL
Flink
(1)提供结构化、半结构化和非结构化数据的统一存储功能,能够自动构建数据存储空间;---ODS层
3.社交网络维度: 将社交网络数据与数据服务相结合,帮助用户分析和利用社交网络关系和行为数据。这可以包括使用社交网络分析、社交网络挖掘和社交网络影响力评估等技术来处理计交网络数据,并洞察用户关系和行为模式。
覆盖指标
数据集成
⑨业务目录映射:配置业务目录与数据目录的映射关系
2.数据分析API: 用于分析和处理DaaS平台上的数据。这可以包括使用数据挖掘、机器学习和统计分析等技术来处理数据,并生成数据分析和预测结果。
事中:包括敏感 SQL 的预警与拦截,针对敏感 SQL 我们进行拦截并由数据安全人员进行审批
数据同步
DWD
(3)支持数据备份,提供自动备份和手动备份两种方式。---ODS层/DWD层/MID层/APP层
HDFSOracle/MySQL文件HTTP......
统一数据模型
(3)支持根据数据资源的特点和内容,进行分类和归纳,构建数据资产目录,生成数据资源池。---MID层
主数据建模
包括图片、声音、视频等,这类数据通常无法直接知道它的内容,数据库通常将它保存在一个BLOB字段中。一般的做法是,建立一个包含三个字段的表(编号 number、内容描述 varchar(1024)、内容 blob)。引用通过编号,检索通过内容描述。
数据存储层
离线数据处理
应用开发工具:提供在线开发IDE、数据源控件库、预处理控件库、模型控件库、可视化控件库、输出控件库、挖掘算法库等
只能发布
客户主题
非结构化数据
数据查询
4.数据存储与扩展模型: 将数据存储服务与扩展模型相结合,帮助用户扩展和管理数据。,这可以包括将数据存储在云端,使用云存储和数据库技术来管理大规模数据,并实现数据的打展性和灵活性。
(2)具备数据安全过滤、数据动静态脱敏、数据安全审计等多项数据安全防护功能;---ODS层/DWD层/MID层/APP层
分离线采集(Spark/hadoop)+实时采集(flink)
1.地理你置维度:将地理位置数据与数据服务相结合,帮助用户根据地理位置信息进行数据分析和决策。这可以包括使用地理编码、地理信息系统(GIS) 和地理空间分析来处理和可视化地理位置数据。
1.数据查询API: 用子查询和和检索DaaS平台上的数据,这可以包括使用SQL查询语言或RESTfulAPI来音询和获取数据,并根据用户的需求进行数据筛选和排序。
统一数据采集 (ETL)
离线/实时
TMP
数据安全防护
⑩数据资产盘点:数据资产仪表盘、数据资产查看
数据湖仓大数据平台整体架构
分布式文件存储
协议主题
⑦数据目录分类:实现数据目录的分类设置
数据质量
数据处理
1.数据质量指标:衡量数据的准确性、完整性、一致性、时效性等方面的指标。例如,数据的错误率、缺失率、重复率等。---ODS层
(2)能够实现数据访问应用过程审计。 ---ODS层/DWD层/MID层/APP层
主数据管理
临时数据或临时存放区域,用于存放临时性的数据或中间计算结果,在ODS/DWD/MID/APP这些分层中,都可适用
5.数据安全与合规模型:将数据安全服务与合规模型相结合,帮助用户确保数据的安全性和合规性。这可以包括数据加密、访问控制和合规检音等功能,以保护数据的机密性和完案性。
数据分析
Spark
数据开发系统
3.数据标签:为数据添加标签或关键字,以便于数据的搜索和发现。这可以通过给数据添加标签、关键字或者使用标准的数据词汇进行实现。---DWD层/MID层
2.数据性能指标:衡量数据的处理速度、响应时间、可扩展性等方面的指标。例如,数据的读取速度、写入速度、查询响应时间等。---ODS层
事前:包括敏感数据脱敏、数据权限控制。针对事业部内、事业部外使用不同的权限流程控制
加密/前端/后端/大数据
可视化视图分析需要有一个类似美林数据那样的可视化分析工具,满足提供丰富的统计图表用于分析结果的可视化展示的功能http://www.tempodata.com.cn/portal/#/tempo-bi/workspace/view
3.数据价值指标:衡量数据对业务决策和价值创造的员献。例如,数据的影响力、可信度、决策支持程度等。---ODS层
APP
3.数据可视化API:用于将DaaS平台上的数据可视化和呈现。这可以包括使用图表、地图、仪表盘和报告等可视化丁具来展示数据,并帮助用户更好地理解数据和发现数据中的模式和趋势。
数据预处理:数据去重数据转换字段映射数据脱敏
Solr
TEST
安全管控
Kettle
Hbase
任务调度执行:数据抽取
数据治理系统用于规范数据的生成以及使用,改进数据质量,对数据进行加工处理,提升数据价值。提供识别和度量数据质量能力、数据清洗转换能力、数据加工三个核心能力。
数据开发管理:包括应用工程管理、计算任务管理、任务调度管理、资源管理等
数据获取层
资源组管理
事后:包括敏感 SQL 审计,操作异常审计。输出敏感 SQL审计的月报发到对应的部门负责人,审核内容主要有敏感SQL 的查询、数据操作异常及后续审批还有全量查询日志分析
数据采集系统
关系数据库
Kafka消息字段
数据资产管理系统
①标准数据管理:管理对象为字典、数据元,形成数据标准体系
(1)支持针对不少于3类数据源的数据引接汇聚,包括但不限于数据库、文件系统、API接口等;---ODS层
⑧数据目录编制:实现数据目录的新增、修改、删除、停/启等
ETL
全域数据资产安全管控
(1)支持数据资源目录发布给其他协同参与方;---MID层
数据接引处理
数据治理
实时数据采集Flink任务开发实时任务监控KafKa消息字典数据源管理KafKa监控项目管理任务管理
项目管理
同步任务监控
1.数据类型维度: 将数据按照其类型进行分类,例如结构化数据、半结构化据和非结构化敬据。这可以帮助用户了解数据的格式和结构,以便正确地使用和解释数据。---DWD层
⑤元数据查看:按数据源查看已注册的所有元数据,并可查看元数据的关联关系、血缘关系
数据一致性检查
②元数据管理:元数据是所有系统、文档和流程中包含的所有数据的语境,是生数据的知识
4.数据时间维度:将数据按照其时间属性进行分类,例如历史数据、实时数据预测数据等。这可以帮助用户了解数据的时效性和适用性,以便根据需要选择合适的数据。---DWD层
③数据加工:模型定义、模型调度
5.数据管理API: 用于管理和维护DaaS平台上的数据。这可以包括使用数据备份、恢复和清理等技术来管理数据,并确保数据的可靠性和可用性。
模型评估
更新频率检查
1.数据分析与决策模型:将数据分析服务与决策模型相结合,帮助企业进行数据分析和决策支持。这可以包括使用数据挖掘和机器学习算法来分析数据,并使用决策模型进行业务决策和预测。
数据查询模型设计CODE管理项目管理、模型监控模型调优
业务模型组合
数据分类存储
数据湖仓
Flume
同步任务管理同步任务监控项目管理模型监控
数据可视化
数据存储
Daas平台支撑
③元模型管理:获取并展示不同数据库类型的元模型元素及属性信息
统一数据指标
用户画像
通过哦盘点和梳理业务数据,编制、发布数据目录,规划和指导数据的接入、管理、治理、开发、共享等
实时数据处理
数据标准
业务关联检查
4.数据安全API: 用子确保DaaS平台上的数据安全性和合规性。这可以包括使用数据加密、访问控制和台规检查等技术来保护数据的机密性和完整性,并确保数据使用符合相关的法规和标准。
同步任务管理
②数据规整管理:包括格式转换、字典转换、内容转换、任务管理、日志等
自动学习
sqoop/ketlle/flune
API网关
⑥数据资源管理:对数据资源进行目录化管理,形成有层级、有结构的数据资源集市
(2)提供统一的数据格式和命名规范,用于数据的统一处理和管理;---MID层
数据服务
资产主题
API注册
(5)支持数据采样、数据验证、数据格式转换、数据合并、数据增强、数据计算等其他数据预处理功能;(标准化、类型转换、降维、分箱、数据切分、样本对齐)---DWD层
数据资产管理系统主要作用为标准数据管理、元数据管理、数据资源管理和数据资产盘点。
全文索引
3.数据集成:将不同数据源中的数据警合到统一的数据模型中,形成一个完警的数据集。这可以通过数据整合厂具和技术实现,例如数据集成平台和数据虚拟化技术。---DWD层/MID层
2.数据主题维度: 将数据按照其主题或领域进行分类例如销售数据、客户数据、市场数据等这可以帮助用户更快地找到所需的数据并了解数据的内客和用途。---DWD层
大数据平台技术架构
4.数据安全指标:衡量数据的安全性和隐私保护程度。例如,数据的访问控制、数据的加密程度、数据的合规性等。 ---在接口接入的时候就需要有数据安全指标---ODS层
2.数据标准化:将数据源中的数据转换为统一的数据格式和规范,以确保数据在人同系统中的一致性和互提作性,这可以通过数据转换工具和数据清洗技术来实现,例如ETL(抽取、转换、加载) 流程。---DWD层
实时数据采集
数据分发
3.数据来源维度:将数据按照其来源进行分类,例如内部数据、外部数据、第三方数据等。这可以帮助用户了解数据的可信度和可靠性,以及数据的使用限制和合规性要求---DWD层
5.健康指标维度: 将健康指标数据与数据服务相结合,帮助用户分析和管理健康相关的教据。
数据治理系统
企业数据仓库
模型监控
模型调优
数据开发系统使用大数据或人工之恶能算法组件对数据进行分析、挖掘,形成数据服务资产产品
Kafka
源数据
人资主题数据集市
CODE管理
数据加工
1.数据定义: 定义统一的数据结构和字段,如数据类型、长度、格式等,这可以通过使用标准的数据模型语言和规范来实现,例如XML、JSON、RDF等---ODS层/DWD层/MID层/APP层
数据源层
数据科学机器学习/联邦学习
数据处理特征工程模型训练模型评估模型发布模型应用自动学习智能发布
Kafka监控
数据集市
任务管理
(4)支持多维度统一数据标签,包括分类标签、主题标签、属性标签、来源标签等,提供标签导航,标签检索等功能;---MID层
2.时间维度:将时间数据与数据服务相结合,帮助用户根据时间维度进行数据分析和趋势预测。这可以包括使用时间序列分析、季节性模型和时间序列预测算法来处理时间数据,并生成时间相关的结果和报告。
仓库模型设计
数据共享系统
Flink任务开发
数据生命周期
数据应用层
在数据湖仓基础上去划分公共数据资源
④元数据注册:包括表、视图、索引、字段、列族、消息等各类元模型下的元数据
数据分析系统
目录规范性检查
(3)支持数据质量检查和清洗功能,去除重复、缺失、错误和不一致的数据,保证原始数据的一致性;(样本过滤、缺失值填充)---ODS层
半结构化数据具有一定的结构性,但是结构变化很大。因为我们要了解数据的细节所以不能将数据简单的组织成一个文件按照非结构化数据处理,由于结构变化很大也不能够简单的建立一个表和他对应。其存储方式有两种:一种是化解为结构化数据,另一种是用XML格式来组织并保存到CLOB字段中。
数据源管理
(4)支持数据变换功能,包括但不限于对数变换、指数变换、平方根变换等;---DWD层
模型训练
数据应用
数据清洗
模型设计
经营主题数据集市
数据开发
非关系数据库
Sqoop
API网关限流策略资源组管理API注册API授权
数据采集系统为大数据平台提供基础支撑性服务,构建高效、易用、可扩展的数据传输通道。
(1)支持数据透明加解密、数据压缩等功能,保证数据的一致性、完整性、安全性和可靠性;---ODS层
对接各种业务数据库、数据仓库以及大数据平台,为用户提供从基本数据查询统计、数据交叉汇总、自由钻取分析、多维数据分析等多层次的数据分析功能。用户只需用鼠标拖拽指标和维度,即可产生数据分析结果。同时提供丰富的统计图表用于分析结果的可视化展示。
(6)支持数据透明加解密、数据压缩等功能,保证数据的一致性、完整性、安全性和可靠性。---DWD层
收藏
0 条评论
回复 删除
下一页