文档介绍:河北工业大学硕士学位论文
基于规则隐藏的聚类隐私保护模型及算法研究
摘要
近几十年来,随着信息技术的发展,企业的运作方式发生了深刻地变革,数据信息流
成为了企业生命的主线。然而在这种情况下,人们往往担心隐私被泄露而拒绝提供信息资
料或提供虚假的信息。所以保护隐私程度的高低将直接关系到是否能够收集到足够真实的
信息,从而关系到挖掘出来的信息是否可靠有用。于是,隐私保护便成为人们关注的焦点。
本文建立了一个隐私保护算法的分类框架,通过对该分类框架的研究分析,发现了目
前研究中的空缺——基于规则隐藏的聚类隐私保护,并针对这一空缺进行研究,提出了一
种新颖的聚类隐私保护规则隐藏的模型及算法,进行了实验仿真,验证了算法的有效性。
本文的具体贡献有如下几个方面:
第一,本文提出了新的隐私保护算法分类框架,从应用类型、技术策略、隐藏对象和
适用算法四个维度对隐私保护算法进行分类。在此基础上通过文献研究,分别从这四个维
度对现有的主要隐私保护数据挖掘算法进行了分析比较,找出了目前研究中的空缺——基
于规则隐藏的聚类隐私保护。
第二,针对目前的研究空缺——基于规则隐藏的聚类隐私保护,提出了基于规则隐藏
的聚类隐私保护模型,包含:数据预处理,聚类规则隐藏和算法评价三部分。首先,在数
据预处理中,采用数据规范化,k-means聚类算法,轮廓系数法等方法,对原始数据进行预
处理,目的是得到聚类规则隐藏算法所需要输入的变量。之后,使用添加噪声的办法,将
数据进行几何平移,以达到隐私保护的目的。聚类规则隐藏算法包括三个必要的过程:(1)
确定敏感对象;(2)确定噪声矢量;(3)根据前一步定义的噪声矢量,使用几何平移函数
将数据进行修改。最后,依据评价指标对结果进行评价,判断运算结果的优劣。评价指标
分别为:计算复杂性、隐私保护效果和准确性。
第三,使用两组实验数据,并进行仿真实验,证明了算法的有效性。
关键词:数据挖掘,隐私保护,聚类,规则隐藏
i
基于规则隐藏的聚类隐私保护模型及算法研究
RESEARCH ON MODEL AND ALGORITHM FOR PRIVACY
PRESERVING CLUSTERING BASED ON RULE HIDING
ABSTRACT
In recent years, with the development of information technology, the operation of
enterprises has gone through a drastic revolution. Data information flow became the lifeblood of
enterprises. However, in such a situation, people would worry about disclosure of privacy and
are likely to provide phony information rather than the authentic. So, the level of privacy
preserving determines whether enterprises can get real information from which they could mine
the useful rule. Upon that, privacy preserving became the focus of people’s attention.
In this dissertation, taxonomy of privacy preserving algorithm is developed. Based on this
taxonomy, discover a vacancy of recent research which is a preserving clustering based on rule
hiding. Subsequently, a novel model is built and an algorithm is put forward. In addition,
introduce performance measures for privacy preserving and report the results. The tests show
that such an approach is fairly effective. The