文档介绍:数据脱敏
数据脱敏(Data Masking),又称数据漂白、数据去隐私化或数据变形。baidu百科对数据脱敏定义为:指对一些敏感信息经过脱敏规则进行数据变形,实现敏感隐私数据 可靠保护。这么,就能够在开发、测试和其它非生产环境和外包环境中安全地使用脱敏后真实数据集。
能够看到数据脱敏含有多个关键点:敏感数据、脱敏规则、使用环境。
敏感数据,又称隐私数据,常见敏感数据有: 姓名、身份证号码、地址、电话号码、银行账号、邮箱地址、所属城市、邮编、密码类 ( 如账户查询密码、取款密码、登录密码等 )、组织机构名称、营业执照号码、银行帐号、交易日期、交易金额等。
伴随大数据时代到来,大数据商业价值挖掘,用户正确定位,大数据中蕴藏巨大商业价值被逐步挖掘出来,不过同时也带来了巨大挑战–个人隐私信息 保护。个人信息和个人行为(比如位置信息、消费行为、网络访问行为)等,这些全部是人隐私,也是我们所关注一类敏感信息,在大数据价值挖掘基础上如 何保护人隐私信息,也将是数据脱敏必需处理难题。
脱敏规则,通常脱敏规则分类为可恢复和不可恢复两类。
可恢复类,指脱敏后数据能够经过一定方法,能够恢复成原来敏感数据,这类脱敏规则关键指各类加解密算法规则。
不可恢复类,指脱敏后数据被脱敏部分使用任何方法全部不能恢复出。通常可分为替换算法和生成算法两大类。替换算法立即需要脱敏部分使用定义好字符或字符串替换,生成类算法则更复杂部分,要求脱敏后数据符合逻辑规则,即是“看起来很真实假数据”。
使用环境,关键指脱敏以后数据在哪些环境中使用。普遍根据生产环境和非生产环境(开发、测试、外包、数据分析等)进行划分。
在最近一期Gartner相关数据脱敏汇报(Magic Quadrant for Data Masking Technology-12月)中依据数据脱敏产品应用场景将数据脱敏划分为静态数据脱敏(static data masking[SDM])和动态数据脱敏(dynamic data masking[DDM])。
静态数据脱敏(SDM)和动态数据脱敏(DDM)关键区分是:是否在使用敏感数据当初进行脱敏。
静态数据脱敏(SDM)通常见在非生产环境,在敏感数据从生产环境脱敏完成以后再在非生产环境使用,通常见于处理测试、开发库需要生产库数据量和数据间关联,以排查问题或进行数据分析等,但又不能将敏感数据存放于非生产环境问题。
动态数据脱敏(DDM)通常见在生产环境,在访问敏感数据当初进行脱敏,通常见来处理在生产环境需要依据不一样情况对同一敏感数据读取时需要进行不一样等级脱敏问题。
隐私数据脱敏技术
通常在大数据平台中,数据以结构化格式存放,每个表有很多行组成,每行数据有很多列组成。依据列数据属性,数据列通常能够分为以下多个类型:
可确切定位某个人列,称为可识别列,如身份证号,地址和姓名等。
单列并不能定位个人,不过多列信息可用来潜在识别某个人,这些列被称为半识别列,如邮编号,生日及性别等。美国一份研究论文称,仅使用邮编号,生日和性别信息即可识别87%美国人[3]。
包含用户敏感信息列,如交易数额,疾病和收入等。
其它不包含用户敏感信息列。
所谓避免隐私数据泄露,是指避免使用数据人员(数据分析师,BI工程师等)将某行数据识别为某个人信息。数据脱敏技术经过对数据进行脱敏,如移除识别列,转换半识别列等方法,使得数据使用人员在确保可对#2(转换后)半识别列,#3敏感信息列和#4其它列进行数据分析基础上,在一定程度上确保其无法依据数据反识别用户,达成确保数据安全和最大化挖掘数据价值平衡。
隐私数据泄露类型
隐私数据泄露能够分为多个类型,依据不一样类型,通常能够采取不一样隐私数据泄露风险模型来衡量预防隐私数据泄露风险,和对应不一样数据脱敏算法对数据进行脱敏。通常来说,隐私数据泄露类型包含:
个人标识泄露。当数据使用人员经过任何方法确定数据表中某条数据属于某个人时,称为个人标识泄露。个人标识泄露最为严重,因为一旦发生个人标识泄露,数据使用人员就能够得到具体个人敏感信息。
属性泄露,当数据使用人员依据其访问数据表了解到某个人新属性信息时,称为属性泄露。个人标识泄露肯定会造成属性泄露,但属性泄露也有可能单独发生。
组员关系泄露。当数据使用人员能够确定某个人数据存在于数据表中时,称为组员关系泄露。组员关系泄露相对风险较小,个人标识泄露和属性泄露肯定意味着组员关系泄露,但组员关系泄露也有可能单独发生。
隐私数据泄露风险模型
将数据开放给数据分析人员,同时就引入了隐私数据泄露风险。在限制隐私数据泄露风险在一定范围内同时,最大化数据分析挖掘潜