文档介绍:华中科技大学
硕士学位论文
基于Web的社会网络搜索中人名同一性判断方法研究
姓名:庞永杰
申请学位级别:硕士
专业:计算机软件与理论
指导教师:张晓芳
2011-01-17
摘要
随着计算机科学与互联网技术的不断进步,人们彼此之间可以通过各种各样的软
件和方式进行在线交互,不再受到时间和地域的限制。随着人们在互联网上的行为日
益丰富,互联网上的社交行为和关系逐渐的接近传统的客观世界的社交网络,并能够
真实反映出人与人之间在客观世界的真实关系。可以从互联网中通过搜索的方式来构
建一个真实客观世界的社会网络。社会网络搜索技术及其方法逐渐成为目前的研究热
点,互联网中的丰富信息大都包含在Web中,可以从Web中获取关于某个人的社会网
络信息,然而多个人会具有一个相同的名字,那么如何对每个Web进行人名同一性判
断就称为了社会网络搜索的关键技术。为了能准确地进行社会网络搜索,研究了人名
同一性判断技术的实现。
介绍了信息检索领域中的向量空间模型。为了从文本中抽取准确的特征并降低向
量维度,给出一个基于C− value 和词频 IDF 的特征向量权值计算方法。实现了基于余
弦夹角的相似度计算的算法;通过对文本聚类算法中层次聚类算法和划分聚类算法的
研究,给出一种改进的层次聚类算法来实现人名同一性判断;为了提高聚类算法的收
敛速度,给出一种聚类中心的计算方法。
为了实现社会网络搜索,设计了一种基于Web的社会网络搜索系统框架。为了能
获取包含社会网络信息的Web文档,给出一种Web下载器的实现方法;通过使用
ICTCLAS-API完成对Web的中文分词处理;根据C− value 和词频 IDF 计算词项权值,
并根据特征选择条件选择特征词项作为向量;通过使用聚类算法进行Web文档分类完
成人名同一性判断;给出人物关系强度定义,通过使用现有商用搜索引擎,设计并实
现了人物关系获取和关系强度计算的具体算法。
为了说明使用C− value* IDF 权值计算方法和改进的层次聚类算法对人名同一性
判断性能的影响,以搜索引擎的人名检索结果进行测试。说明了基于改进的层次聚类
算法的人名同一性判断能有效降低人名判断的时间,但是以损失部分准确率为代价。
关键词: 社会网络,向量空间模型,同一性判断,层次聚类
I
Abstract
As the progressing of puter science and technology and the growing,
people can do municate with each other via kinds of software and type no
more be restricted by time and region. As the increase of activity on from
people, the social contact base on close in on the external world. We can
structure a real work via search technology from . work has
caused a large number of researcher attentions which focus on social relationship
network search. Rich information has be included in Web page, so we can acquire a
people work information by Web mining. When you search for information
regarding a particular person on the Web, a search engine returns mayn pages. Some of
these pages may be for people woth the same name. How can we disambiguate these
different people with the same name has be the key technology in work search.
In order to construct a accurate work for person, we research the person name
identical judgement technology.
This paper