文档介绍：该【数据脱敏】是由【游园会】上传分享，文档一共【8】页，该文档可以免费在线阅读，需要了解更多关于【数据脱敏】的内容，可以使用淘豆网的站内搜索功能，选择自己适合的文档，以下文字是截取该文章内的部分文字，如需要获得完整电子版，请下载此文档到您的设备，方便您编辑和打印。数据脱敏
数据脱敏
数据脱敏〔DataMasking〕,又称数据漂白、数据去隐私化或数据变形。百度百科对数据脱敏的定义为:指对某些敏感信息通过脱敏规章进展数据的变形,实现敏感隐私数据的牢靠保护。这样,就可以在开发、测试和其它非生产环境以及外包环境中安全地使用脱敏后的真实数据集。
数据脱敏
可以看到数据脱敏具有几个关键点:敏感数据、脱敏规章、使用环境。
敏感数据,又称隐私数据,常见的敏感数据有:姓名、身份证号码、地址、号码、银行账号、邮箱地址、所属城市、、密码类〔如账户查询密码、取款密码、登录密码等〕、组织机构名称、营业执照号码、银行帐号、交易日期、交易金额等。
随着大数据时代的到来,大数据商业价值的挖掘,用户的精准定位,大数据中隐藏的巨大商业价值被逐步挖掘出来,但是同时也带来了巨大的挑战–〔比方位置信息、消费行为、网络访问行为)等,这些都是人的隐私,也是我们所关注的一类敏感信息,在大数据价值挖掘的根底上如何保护人的隐私信息,也将是数据脱敏必需解决的难题。
脱敏规章,一般的脱敏规章分类为可恢复与不行恢复两类。
可恢复类,指脱敏后的数据可以通过肯定的方式,可以恢复成原来的敏感数据,此类脱敏规章主要指各类加解密算法规章。
不行恢复类,。替换算法马上需要脱敏的局部使用定义好的字符或字符串替换,生成类算法则更简单一些,要求脱敏后的数据符合规律规章,即是“看起来很真实的假数据”。
使用环境,主要指脱敏之后的数据在哪些环境中使用。普遍依据生产环境和非生产环境〔开发、测试、外包、数据分析等〕进展划分。
在最近一期的Gartner关于数据脱敏的报告〔MagicQuadrantforDataMaskingTechnology-2022年12月〕中依据数据脱敏产品应用场景的将数据脱敏划分为静态数据脱敏〔staticdatamasking[SDM]〕和动态数据脱敏〔dynamicdatamasking[DDM]〕。
静态数据脱敏〔SDM〕与动态数据脱敏〔DDM〕主要的区分是:是否在使用敏感数据当时进展脱敏。
静态数据脱敏〔SDM)一般用在非生产环境,在敏感数据从生产环境脱敏完毕之后再在非生产环境使用,一般用于解决测试、开发库需要生产库的数据量与数据间的关联,以排查问题或进展数据分析等,但又不能将敏感数据存储于非生产环境的问题。
动态数据脱敏〔DDM〕一般用在生产环境,在访问敏感数据当时进展脱敏,一般用来解决在生产环境需要依据不同状况对同一敏感数据读取时需要进展不同级别脱敏的问题.
隐私数据脱敏技术
通常在大数据平台中,数据以构造化的格式存储,每个表有诸多行组成,每行数据有诸多列组成。依据列的数据属性,数据列通常可以分为以下几种类型:
可精准定位某个人的列,称为可识别列,如身份证号,地址以及姓名等。
数据脱敏单列并不能定位个人,但是多列信息可用来潜在的识别某个人,这些列被称为半识别列,如号,生日及性别等。美国的一份争论论文称,仅使用号,生日和性别信息即可识别87%的美国人[3].
包含用户敏感信息的列,如交易数额,疾病以及收入等。其他不包含用户敏感信息的列。
所谓避开隐私数据泄露,是指避开使用数据的人员(数据分析师,BI工程师等〕将某行数据识别为某个人的信息。数据脱敏技术通过对数据进展脱敏,如移除识别列,转换半识别列等方式,使得数据使用人员在保证可对#2(转换后〕半识别列,#3敏感信息列以及#4其他列进展数据分析的根底上,在肯定程度上保证其无法依据数据反识别用户,到达保证数据安全与最大化挖掘数据价值的平衡。
隐私数据泄露类型
隐私数据泄露可以分为多种类型,依据不同的类型,通常可以承受不同的隐私数据泄露风险模型来衡量防止隐私数据泄露的风险,,隐私数据泄露类型包括:
个人标识泄露。当数据使用人员通过任何方式确认数据表中某条数据属于某个人时,称为个人标识泄露。个人标识泄露最为严峻,由于一旦发生个人标识泄露,数据使用人员就可以得到具体个人的敏感信息。
属性泄露,当数据使用人员依据其访问的数据表了解到某个人的属性信息时,称为属性泄露。个人标识泄露确定会导致属性泄露,但属性泄露也有可能单独发生。
成员关系泄露。当数据使用人员可以确认某个人的数据存在于数据表中时,称为成员关系泄露。成员关系泄露相对风险较小,个人标识泄露与属性泄露确定意味着成员关系泄露,但成员关系泄露也有可能单独发生。
隐私数据泄露风险模型
将数据开放给数据分析人员,,最大化数据分析挖掘的潜力,是数据脱敏技术的最终目标。目前在隐私数据脱敏领域,有几个不同的模型可以用来从不同角度衡量数据可能存在的隐私数据泄露风险。
K-Anonymity
数据脱敏隐私数据脱敏的第一步是对全部可标识列进展移除或是脱敏,使得攻击者无法直接标识用户。但是攻击者还是有可能通过多个半标识列的属性值识别个人。攻击者可能通过社工(知道某个人的姓名,,生日,性别等〕或是其他包含个人信息的以开放数据库获得特定个人的半标识列属性值,并与大数据平台数据进展匹配,,假设攻击者知道某用户的和年龄,就可以得到该用户的疾病敏感信息。为了避开这种状况的发生,通常需要对半标识列进展脱敏处理,如数据泛化等。数据泛化是将半标识列的数据替换为语义全都但更通用的数据,已上述数据为例,对和年龄泛化后的数据如表二所示。
原始信息
经过泛化后,有多条纪录的半标识列属性值一样,全部半标识列属性值一样的行的集合被称为相等集。例如,表二中1,2,3行是一个相等集,4,5,6行也是一个相等集。Sama—ratiandSweeney[4]引入了K-Anonymity用于衡量个人标识泄露的风险。K-Anonymity定义如下:
K—Anonymity要求对于任意一行纪录,其所属的相等集内纪录数量不小于k,即至少有k-1条纪录半标识列属性值与该条纪录一样。
图二中的数据是一个3—Anonymity的数据集。作为一个衡量隐私数据泄露风险的指标,K—Anonymity可用于衡量个人标识泄露的风险,理论上来说,对于K—Anonymity数据集,对于任意纪录,攻击者只有1/k的概率将该纪录与具体用户关联.
数据脱敏
L-Diversity
K—Anonymity可用于保护个人标识泄露的风险,但是无法保护属性泄露的风险。对于K—Anonymity的数据集,攻击者可能通过同质属性攻击与背景学问攻击两种方式攻击用户的属性信息。
同质属性攻击。对于图二半标识列泛化后的数据集,假设攻击者知道Bob为47677,年龄为29,则Bob肯定对应于前面三条记录,从而可以确定Bob有心脏病。
,假设攻击者知道Alice为47673,年龄为36,则Alice肯定对应于后面三条记录,假设攻击者知道Alice患有心脏病的几率很小,则能推断Alice很有可能患有癌症。
Machanavajjhalaetal.[5]引入了L-Diversity用于衡量属性泄露的风险,L-Diversity定义如下:
假设对于任意相等集内全部记录对应的敏感数据的集合,包含L个”适宜“值,则称该相等集是满足L-Deversity。假设数据集中全部相等集都满足L-Deversity,则称该数据集满足L—Deversity。
所谓L个“适宜”值,最简洁的理解就是L个不同值。基于图二的数据通过插入干扰纪录,一个3—Anonymity2-Diversity的数据集如表三所示:
相对于K-Anonymity标准,符合L—Deversity标准的数据集显著降低了属性数据泄露的风险。对于满足L—Diversity的数据集,理论上,攻击者最多只有1/L的概率能够属性泄露攻击,将特定用户与其敏感信息关联起来。一般来说是通过插入干扰数据构造符合L-Diversity标准的数据集,但是同数据泛化一样,插入干扰数据也会导致表级别的信息丧失。同时L-Diversity标准也有缺乏之处。
L-Diversity标准有可能很难或是没有必要实现。例如,对于HIV的测试数据,测试结果列可能为阴性或是阳性。对于10000条记录,可能99%的记录都是阴性的,只有1%,测试结果为阴性的用户可能不介意其他人看到他的测试结果,-Deversity的测试数据集,会丧失大量的信息,降低数据分析挖掘的价值.
L-Diversity标准无法防范特定类型的属性数据泄露.
倾斜攻击假设敏感属性分布存在倾斜,L—Diversity标准很有可能无法抵挡属性数据泄露。连续以HIV测试数据为例,假设构造的数据集对于任意相等类测试结果都包含阴性与阳性,且阴性数量与阳性一样,该数据
数据脱敏集确定满足2—Diversity。依据真实测试记录的分布,对于任意个人,攻击者只能推断其有1%的可能测试结果为阳性。但是对于2—Diversity数据集,攻击者会推断每个人有50%的可能测试结果为阳性。
相像性攻击假设相等类的敏感属性分布满足L—Diversity,但是属性值相像或是内聚,,病人数据满足3—Diversity,攻击者假设了解Bob为47677,年龄为29,则可以确认Bob的工资收入在3—5K之间,且能确认Bob得了胃病相关的病,由于前三条的病都和胃病相关.
简洁来说,对于L-Diversity一样的相等集,敏感属性值的分布信息对于保护属性泄露至关重要。L—Diversity只是用来衡量相等集的不同属性值数量,并没有衡量不同属性值的分布,所以其在衡量属性泄露风险上仍有缺乏之处.
T-Closeness
直观的来说,隐私信息泄露的程度可以依据攻击者增量获得的个人信息衡量。假设攻击者在访问数据集之前的个人信息为B0,然后假设攻击者访问全部半标识列都已移除的数据集,Q为数据集敏感数据的分布信息,依据Q,,由于知道用户的半标识列的信息,攻击者可以将某用户与某相等集联系在一起,通过该相等集的敏感数据分布信息P,攻击者更后的个人信息为B2.
L—Diversity约束是通过约束P的diverisity属性,尽量削减B0和B2之间的信息量差距,差距越小,说明隐私信息泄露越少。T-Closeness约束则期望削减B1和B2之间的信息量差距,削减攻击者从敏感数据的全局分布信息和相等集分布信息之间得到更多的个人隐私信息。T—Closeness的定义如下:
假设一个相等类的敏感数据的分布与敏感数据的全局分布之间的距离小于T,则称该相等类满足T--Closeness,则称该数据集满足T—Closeness。
T-Closeness约束限定了半标识列属性与敏感信息的全局分布之间的联系,减弱了半标识列属性与特定敏感信息的联系,,所以治理者通过T值的大小平衡数据可用性与用户隐私保护。
常见数据脱敏算法
K-Anonymity,L-Diversity和T—Closeness均依靠对半标识列进展数据变形处理,使得攻击者无法直接进展属性泄露攻击,常见的数据变形处理方式如下:
数据脱敏
大数据脱敏平台
用户隐私数据保护与挖掘用户数据价值是两个相互冲突的冲突体,彻底的数据脱敏,需要抹去全部的用户标识信息,,完全保存用户隐私数据信息,可最大化数据的分析价值,,而是包括如下几个目标:
数据泄露风险可控。首先,实现基于大数据平台的脱敏算法库,可并行,高效的依据脱敏规章对隐私数据进展脱敏。其次,基于数据脱敏的理论根底,建立用户隐私数据泄露风险的衡量模型,可定性定量的准确衡量数据可能发生泄露的风险。
,权限治理体系,以及隐私数据不同保护级别的权限治理体系,,标准,法务等治理,实现在尽可能保护用户隐私数据,削减数据泄露风险的前提下,最大化保存数据分析挖掘的价值。
可审计。对数据的访问要保证可回溯,可审计,当发生数据泄露时,要保证能够通过审计日志找到对应的泄露人员。
大数据脱敏平台的设计方向一般包括静态大数据脱敏平台和动态大数据脱敏平台,所谓静态和动态之分,主要在于脱敏的时机不同。对于静态脱敏来说,数据治理员提前对数据进展不同级别的脱敏处理,生成不同安全级别的数据,然后授予不同用户访问不同安全级别数据的权限。对于动态脱敏来说,治理员通过元数据治理不同用户访问具体数据的安全权限,在用户访问数据的时候,动态的从原始数据中依据用户权限动态的进行脱敏处理。大数据平台脱敏技术方案是一个格外好玩的课题,目前业界还没有看到有成熟的方案,鉴于其对数据安全和数据价值的作用,格外值得深入争论,期望以后可以连续以适宜的方式共享我在这方面的争论与实践.
数据脱敏
总结
针对于大数据平台对于数据脱敏的需求,本文分析了数据泄露可能带来的风险,介绍了数据脱敏技术的理论根底与实现方式,同时简洁分析了大数据平台的隐私数据脱敏技术方向。本文争论的均是基于离线数据的数据脱敏,流式数据的脱敏技术无论是理论根底与具体实践大都还处在摸索的过程中,留待以后连续探究.