文档介绍:大连理工大学硕士学位论文
摘要
目前互联网领域主要的搜索引擎服务商如、百度、龋S没峁┑
都是横向的海量信息搜索。这些通用搜索引擎在满足信息全面搜索的同时,却很难兼顾
搜索的准确度与相关度的质量,而且存在网页覆盖率低、索引不及时等缺点,尤其对于
信息需求相对集中、分类更加详细的行业用户缺乏导向。垂直搜索引擎作为搜索引擎技
术发展的一个分支方向,通过对领域内信息的全面搜集、再组织整理,将会提供更专业
化、个性化的行业信息服务,能够满足用户对专业领域信息的搜索需求。
本文的研究工作主要分为两个部分,第一部分主要研究了垂直搜索引擎中的网络蜘
蛛技术和结构化信息抽取技术。在网络蜘蛛的研究中,重点解决了主题目标描述、对
乃阉鞑呗院椭魈庀喙囟扰卸ㄎ侍狻F渲型ü煊蜃ḿ已《ǔ跏贾肿覷,从主
题网页库中自动提取特征关键词并辅助人工筛选的方式生成主题特征向量;在网络蜘蛛
搜索过程中,采用最佳优先的搜索策略以保证高效地抓取主题资源;通过向量空间模型
计算网页与主题特征向量之间的相似度,并考虑了关键词的位置权重。在畔⒊
取技术的研究中,对比分析了现有的畔⒊槿》椒ǎ捎昧嘶谡虮泶锸降耐
页结构化信息抽取方法。
第二部分对搜索结果聚类进行了研究,通过分析现有聚类方法的不足及搜索结果聚
类的特点,提出了一种适合于搜索结果动态聚类的新的后缀树聚类算法,其中后缀树的
构建以中文汉字为基本单位,采取比较子串和父串短语类代表的文档数量策略有效地解
决了基于二进制方法合并短语类后的类别描述问题,并利用短语类语义层面的相似性合
并同义短语类,有效地改善了聚类结果的质量。实验结果表明:与传统的文档聚类算法
相比,基于后缀树的算法在牡稻劾嗟木ǘ群托史矫婢哂薪锨康挠旁叫浴
最后本文设计并实现了一个面向专利领域的垂直搜索系统,其中以开源框
架实现了索引和搜索功能,采用基于词典的正向最大匹配算法实现了中文切词,并运用
信息可视化技术对搜索聚类结果进行展示。
关键词:垂直搜索;网络蜘蛛;结构化信息抽取;后缀树聚类
面向领域的垂直搜索系统研究与实现
,琘
瓵
’琲
瓵
瑀猳瓻
.
,
. 纾琒
瓼,
.
. , 瑃
. 甀瑃
瓺
瑃
甌
琣
. .
,
‘, .飔
,
甌
瓵
琣
——
大连理工大学硕士学位论文
,
.
.
.
甌甅
.
.
篤
; ; ;
—
大连理工大学硕士学位论文
髀
研究背景与意义
随着难该头⒄购蚖信息的增加,从海量级的网络信息资源中快速准确
地获取信息就显得越来越困难,也变得越来越重要。搜索引擎就是在这样的背景下出现
的技术,它整合了互联网上的网页资源,并提供信息导航和信息查询服务,在很大程度
上解决了人们在互联网上查找和定位信息的瓶颈问题。但是,目前的通用搜索引擎在使
用中也面临着许多问题:
哺锹实停和缧畔⒆试闯始负渭妒卦龀ぃ阉饕嬖谒鸭缧畔⒎矫嬖对
赶不上网络信息的增长速度。又由于写罅康亩趁嫖薹ḿ焖鳎ジ鏊阉饕
的覆盖率一般都低于%,很难索引所有的试础
毙圆睿夯チM写罅啃畔⒌拇婊钇谠谒醵蹋獾贾滤阉饕娴氖毙院苣驯
证,返回结果中存在大量无效或过时的链接。
峁蛔既罚核阉饕娣祷氐牟檠峁呛A康模杏玫男畔⒅皇瞧渲械男
部分,可谓“冰山一角”,而且搜索结果中存在着大量的重复信息和垃圾信息,用户很
难在短时间内准确地筛选出需要的内容,出现所谓的“认知过载”【俊
椎贾旅院剑耗壳暗乃阉饕娑际且G笥没а细癜凑账娑ǖ母袷绞淙氩檠剩
但种种限制使用户不知道如何确切地表达自己的信息需求,即所谓的‘‘‘迷航】,表达
的困难将导致检索结果的不理想。
谒腊澹合钟械乃阉饕娑嗖捎霉丶实幕凳狡ヅ洌挥卸杂没У氖淙虢
语义理解;这种方式的固有缺点是参与匹配的只有字符的外在表现形式,而非它们所表
达的概念。因此,经常出现答非所问、检索不全的结果。
面对通用搜索引擎发展所遇到的困难和人们对信息的新需求,人们开始呼唤更有针
对性的搜索引擎的出现。垂直搜索引擎正是针对通用搜索引擎的信息量大、查询不准确、
深度不够等问题提出来的新的搜索引擎服务模式,它是针对某一特定领域、某一特定人
群或某一特定需求的专业搜索引擎,是通用搜索引擎的细分和延伸。垂直搜索引擎对用
户提供的不再是成千上万的相关网页信息,而是范围很小,且极具针对性的具体信息,
它的产生有效地解决了通用搜索引擎搜索质量的问题。