首页  思维导图  详情



 



数据脱敏

2022-06-07 00:27:34   3  举报





AI智能生成

数据脱敏

数据安全

脱敏

数据脱敏

模板推荐

作者其他创作

大纲/内容

4.实现数据审计

1.日志整理

2.技术选型

ELK

子主题

Ranger Audit 记录用户审计日志到HDFS，可查用户操作数据历史

ApacheEagle

优势

1.内置支持Hadoop、Hive、Yarn等常用日志且支持自行扩展

2.内置多种报警插件且支持自行扩展

3.界面化作业配置提交和控制Storm起停、不写代码完成规则配置

4.界面化统计历史报警信息和细节

缺点

1.依赖Storm，消费延迟时调优没经验

2.部署不太方便，版本旧，资料不多

3.实现数据脱敏

SDM数据治理

基于ApacheAtlas实现表元数据信息收集

使用ApacheAtlas对数据资产分类分级

SDM权限管控

基于LDAP+Ranger+Atlas的细粒度权限管控

Ranger非实时拉取LDAP数据

Ranger AccessManager 列屏蔽行过滤

Ranger+Atlas 基于标签的安全服务

面临的问题

集群组件版本较低，无法兼容新版Ranger，改源码工作量大

Ranger 0.4.1 支持Hadoop2.6.0 Hive 0.14.0 HBase0.99.2

Ranger 0.5 支持Hadoop 2.7.0+ Hive 1.2.0 HBase1.1.0(后续版本不支持Hadoop2.6.0，原因INodeAttributeProvider不存在)

Ranger >0.6 Hive支持2.x 不确定是否支持1.x

SDM字段脱敏

根据已有规则库配置脱敏

Ranger 内置脱敏策略也支持HiveUDF自定义脱敏策略

多冗余的脱敏

DDM动态脱敏

动态脱敏

自研脱敏平台

耗费大量人力成本，但效果更好

需求

1.保证数据安全

2.不破坏原有数据的关联关系和业务规则

3.权衡数据安全性和数据可用性，找到平衡点

4.结合数据、业务需求合理制定脱敏规则库

5.脱敏支持多个组件，细粒度控制(精确到Hive列,HBase列,HDFS目录,Yarn队列,KafkaTopic)

6.安全审计是脱敏的一部分，也需要完善的审计和报警体系

7.权限如何控制切换是否灵活考虑计算存储成本考虑运行效率、维护难易

1.敏感数据发现

从数据来源分析

1.埋点数据Hive、HBase

2.Sqoop同步、udc同步

3.Es2Hive

4.其他

库和字段分析

1.人工整理-敏感字段名、字段含义、分类

2.自动化匹配发现和整理

3.数据分类(按业务、按安全等级)

4.结合已有血缘梳理涉及库表

数据操作审计

1.sql_log审计日志

2.完善对除了thrift外的数据操作审计日志收集

HBase

Kudu

Yarn

Impala

HiveCli

2.敏感数据梳理-制定规则库

完善Atlas上的数据分类、安全性分级

用户数据

企业数据

非敏感数据

敏感数据

一级敏感数据

二级敏感数据

三级敏感数据

可推断

不可推断

敏感字段汇总

直接暴露用户、企业、资金等敏感信息的字段

间接暴露敏感信息的字段

根据多个字段可推断出敏感信息的字段

制定高效的字段脱敏算法规则库

可逆脱敏

唯一值映射(通过映射表找回原值)

双向加密

RES

AES

DES

......

不可逆脱敏

替代

随机变换

混洗

加密

遮挡

Hash映射

偏移

截断

局部混淆

均值

保证业务含义

不保证业务含义

场景及解决方案示例

https://smartbridge.com/overview-data-masking-methods/

http://www.oracle.com/us/products/database/data-masking-best-practices-161213.pdf

 Collect

Get Started

流程图-数据迁移业务流程图

 Collect

Get Started

数据库脱敏

 Collect

Get Started

数据脱敏（去标识化）

 Collect

Get Started

企业级数据资产入表与数据治理实施路线图思维导图





0 条评论

下一页