1 / 44
文档名称:

中文人名搜索引擎关键技术研究.pdf

格式:pdf   页数:44
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

中文人名搜索引擎关键技术研究.pdf

上传人:quality 2014/1/22 文件大小:0 KB

下载得到文件列表

中文人名搜索引擎关键技术研究.pdf

文档介绍

文档介绍:密级: 学校代码:10075
分类号: 学号:20091319




工学硕士学位论文

中文人名搜索引擎关键技术研究




学位申请人: 曹文学
指导教师:李新福教授
学位类别:工学硕士
学科专业:计算机软件与理论
授予单位:河北大学
答辩日期:二〇一二年五月
Classified Index: CODE: 10075
: NO: 20091319





A Dissertation for the Degree of M. Engineering


Research on Key Techniques of Chinese
Name Search Engine







Candidate : Cao Wenxue
Supervisor : Prof. Li Xinfu
Academic Degree Applied : Master of Engineering
Specialty : Computer Software and Theory
University : Hebei University
Date of Oral Examination : May, 2012
摘要
摘要
人名歧义是由于现实中同一姓名可能被多个实体人物共同使用而带来的一种身份
不确定现象。中文人名搜索是互联网用户日常需求之一。随着 的发展,Web 页
面中因人物同名而带来阅读理解困难的问题越来突出,尤其给搜索引擎带来了不利影
响。目前流行的通用搜索引擎对歧义人名仅通过关键字匹配、Web 页面热度排序,输出
长而无序的列表。真正有价值的信息仅为海量 Web 数据中的“冰山一角”,同时有“名
人”网页淹没“非名人”网页的现象,给用户查找其所需要的人物信息带来了极大不便。
本文针对中文人名搜索这一问题进行研究,主要工作如下:
首先在对垂直搜索引擎技术的研究基础之上,结合中文人名搜索的特点,设计出中
文人名搜索引擎体系结构。其中,Web人名主题爬虫采用基于模板和基于网页DOM树分
析两种方法,分别从百度人物百科采集人物信息建立人物资料库和互联网采集包含歧义
人名的Web页面,构建人物知识库和待消歧Web页面库。
在Web人名消歧方面,本文给出了一种基于百度百科的无监督自动人名消歧方法。
采用百度人物百科的海量数据作为基础人物资料库,通过解析其丰富的人物信息和语义
关系,提炼出人物背景知识、人物特征语境、人物群体信息3大特征并进行线性融合,
选取最大值所对应的实体人物作为歧义人名所指人物,作为Web页面索引建立依据。
最后,本文建立实验原型并进行了Web中文人名消歧实验,取得了较好的消歧效果,
验证了该方法的有效性。




关键词搜索引擎中文人名搜索百度百科人名消歧
I
Abstract
Abstract
The phenomenon of person name ambiguity is widespread on web pages in that one
name may be used by different people. Chinese names search is one of the daily needs of
users. With the development of the , Web pages because of character with the
same name, increasingly prominent prehension difficulties had a negative impact,
especially to search engines. The popular general search engines ambiguous names by
keywords only match, output long unordered list. The truly valuable information is only the
tip of the iceberg "in the massive Web data. The pages of "celebrity" submerged
"non-celebrity" phenomenon, brought a great deal of inconvenience for users to find