文档介绍:工程技术
Projecttechnique
数据隐私保护技术综述
王艳
(天津师范大学计算机与信息工程学院 300387)
【摘要】随着电子商务,电子政务等各种网络应用的不断发展,数据挖掘中
的隐私保护问题近年来引起人们的广泛关注,并成为一个急待解决的问题。
本文介绍了当前数据挖掘隐私保护技术的发展现状,着重介绍了几种关键隐
私保护技术的特点。在此基础上对隐私保护技术进行了综合对比与分析,提
出了隐私保护技术未来的研究方向。
【关键词】数据挖掘;隐私保护
数据挖掘中的隐私保护问题近年来引起人们的广泛关注,并成为
一个急待解决的问题。通过查询各类资料,本文对隐私保护技术的最
新进展进行了比较详细的综述,对该领域的主要技术进行了分类阐述,
分析了在具体应用中该技术的优缺点、适用范围等,在此基础上对各类
隐私保护技术进行了综合对比与分析,并总结了隐私保护技术未来的
研究方向。
1、数据挖掘与隐私保护
1. 数据挖掘
数据挖掘(aa iig)就是从大量的、不完全的、有噪声的、模糊
的、随机的实际应用数据中,提取其中隐含的、人们事先不知道但是又
潜在于事务中的有用信息和知识的过程。数据挖掘的结果是发现知
识,并将其表示为概念、规则、规律、模式等。数据挖掘要处理的问题,就
是在庞大的数据源中寻找有价值的隐藏事件,加以分析,并将这些有意
义的信息归纳成结构模式,以供决策参考。
1. 隐私保护
一般认为,隐私保护包含两个目的:符合隐私要求和提供有效的数
据挖掘结果。因此,这个定义强调了平衡隐私保护和知识发现之间的
两难局面。数据挖掘的目的是发现隐藏在大型数据集中有趣的知识,
所以在挖掘有效的结果时,必须保证符合隐私要求。同时,在使得数据
符合隐私要求的同时,必须保证数据不会影响数据挖掘的结果。
1. 数据挖掘与隐私保护的冲突
数据挖掘与知识发现在各个领域都扮演着非常重要的角色,然而
传统的数据挖掘技术在发现知识的同时,也给数据的隐私带来了威胁。
通过近年来很多隐私暴露的案例来看,尤其是网络隐私的暴露,数据挖
掘与隐私保护在一定程度上产生了很大的冲突。在科技日益发达的今
天,人们在不时承受个人隐私被泄露和生活受到骚扰的苦恼。我们如
何既能在数据挖掘中从大量的数据中抽取出潜在的、有价值的知识(模
型或规则),又能保证数据应用过程中不泄露隐私,这是一个两难的问
题,也是数据挖掘与隐私保护的冲突。这个冲突也激发了人们对数据
隐私保护技术的研究。
2、数据隐私保护技术
2. 国内外研究现状
目前我们国内关于隐私保护技术的研究处于刚起步阶段,主要集
中于基于数据失真或数据加密技术方面;在国外,由于对隐私问题的重
视,从九十年代初开始,研究人员就已经对挖掘中触犯隐私的问题进行
了研究,一些相关的论文相继得到发表。
2. 数据隐私保护技术的分类
()基于数据失真的隐私保护技术
数据失真技术通过扰动(eturbain)原始数据来实现隐私保护。
它要使扰动后的数据同时满足:①攻击者不能发现真实的原始数据。
②失真后的数据仍然保持某些性质不变,即利用失真数据得出的某些
信息等同于从原始数据上得出的信息。这就保证了基于失真数据的某
些应用的可行性。
()基于数据加密的隐私保