文档介绍：精选优质文档-----倾情为你奉上
精选优质文档-----倾情为你奉上
专心---专注---专业
专心---专注---专业
精选优质文档-----倾情为你奉上
专心---专注---专业

大数据脱敏方案
策规定。
具体脱敏需求包括：
防止生产库中的敏感数据泄漏
通过对生产库中的身份、地址、用户卡号、手机号等敏感信息进行混淆、打乱后再提供给第三方使用，防止生产库中的敏感数据泄漏。
保证测试、开发、应用阶段的数据关联性
通过脱敏策略和算法，保证脱敏数据有效性（保持原有数据类型和业务格式不变）、完整性（保证长度不变、数据含义不丢失）、关系性（保持表间、表内数据关联关系）。以提升测试、开发、应用环节的数据真实性和可用性。
保证数据维护和数据共享的安全
对数据库访问者的用户名、IP、工具类型、时间等进行监控，控制数据访问结果的差异化，数据结果可以划分为真实数据、掩码数据、数据阻断、行限定数据等，通过访问者的不同访问策略，满足细粒度的数据访问需求。例如DBA可维护但无法查看敏感数据、业务系统可以访问真实数据、分析系统可以访问脱敏后的数据。
保证隐私数据管理的政策合规性
数据的脱敏和数据处理必须在国家电网的相关政策规定允许的情况下进行，脱敏规则符合国家电网的数据管理要求。
精选优质文档-----倾情为你奉上
精选优质文档-----倾情为你奉上
专心---专注---专业
专心---专注---专业
精选优质文档-----倾情为你奉上
专心---专注---专业
脱敏方案
脱敏流程
数据脱敏的流程一般分为：敏感数据发现、敏感数据梳理、脱敏方案制定、脱敏任务执行四大步骤，结合数据脱敏算法、数据脱敏规则以及脱敏的环境来达到最佳的数据脱敏效果。
敏感数据发现
敏感数据的发现分为人工发现和自动发现两种。对于国家电网相对固定的业务数据，可以采用人工甄别，明确指定那些列、那些库的数据是需要脱敏，这些数据一般数据结构和数据长度不会有变化，大部分为数值型和固定长度的字符。比如：单位代码、户号、户名、用电地址等标识列，针对这些数据可以通过人工指定脱敏规则和不同的数据访问策略，保证敏感信息不被泄漏。自动识别根据人工指定或预定义的敏感数据特征，借助敏感数据信息库和分词系统，自动识别数据库中包含的敏感信息，相对于人工识别可以减少工作量和防止遗漏。一般采用自动发现为主，结合人工发现和审核，来完成敏感数据的发现和定义，最终形成完善的敏感数据字典。
敏感数据梳理
在敏感数据发现的基础上，完成敏感数据列、敏感数据关系的调整，以保证数据的关联关系。通过屏蔽、变形、替换、随机、格式保留加密、强加密等数据脱敏算法，针对不同的数据类型进行数据掩码扰乱。
脱敏方案制定
对于不同的数据脱敏需求，在基础脱敏算法的基础上，可配置专门的脱敏策略。脱敏方案的制定主要依靠脱敏策略和脱敏算法的复用来实现，通过配置和扩展脱密算法以制定最优方案。
脱敏任务执行
脱敏任务的停止、启动、暂停等操作，支持任务并行处理，支持脱敏任务的中断续延等。
精选优质文档-----倾情为你奉上
精选优质文档-----倾情为你奉上
专心---专注---专业
专心---专注---专业
精选优质文档-----倾情为你奉上
专心---专注---专业
脱敏算法
脱敏算法特征
通常根据不同数据特征选择不同的脱敏算法，对常见数据如姓名、证件号、银行账户、金额、日期、住址、电话号码、Email 地址、车牌号、车架号、企业名称、工商注册号、组织机构代码、纳税人识别号等敏感数据进行脱敏，脱敏算法通常包括屏蔽、变形、替换、随机、格式保留加密（FPE）和强加密算法（如AES ）。
脱敏算法具有如下特性：
同义替换
使用相同含义的数据替换原有的敏感数据，如姓名脱敏后仍然为有意义的姓名，住址脱敏后仍然为住址。
部分数据遮蔽
将原数据中部分或全部内容，用“*”或“# ”等字符进行替换，遮盖部分或全部原文。
混合屏蔽
将相关的列作为一个组进行屏蔽，以保证这些相关列中被屏蔽的数据保持同样的关系，例如，城市、省、邮编在屏蔽后保持一致。
确定性屏蔽
确保在运行屏蔽后生成可重复的屏蔽值。可确保特定的值（如，客户号、身份证号码、银行卡号）在所有数据库中屏蔽为同一个值。
可逆脱敏
确保脱敏后的数据可还原，便于将第三方分析机构和内部分析团队基于脱敏后数据上的分析的结果还原为业务数据。
K-Anonymity (K-匿名)
算法描述：
要求对于任意一行记录，其所属的相等集内记录数量不小于k，即至少有k-1条记录半标识列属性值与该条记录相同。
理论上来说，对于 K-Anonymity 数据集