文档介绍:摘要
相比较传统全文搜索引擎,垂直搜索引擎可以为用户提供更专业、更准确的知识,
避免用户在大量的数据中筛选与专业相关的知识,是搜索引擎的研究热点和发展趋势。
目前垂直搜索引擎采用与通用全文搜索引擎类似的全文检索系统结构,在专业相关度方
面具有相当高的水平。但与通用全文搜索引擎类似,全文检索的垂直搜索引擎存在着查
全率较低、网络资源消耗过多等问题。针对这些问题,本文提出了一个基于元搜索技术
的垂直搜索引擎系统结构,虽然结果的专业相关度有所下降,却提高了垂直搜索引擎的
查全率。经过实验,证明了该系统可以满足用户垂直搜索的需要。论文的主要工作有:
攵阅壳按怪彼阉饕嫱缧畔⒏哺锹式系偷奈侍猓岢隽瞬捎猛缧畔⒏哺
率更高的元搜索引擎作为信息收集的垂直搜索引擎系统结构。针对元搜索引擎不具有信
息收集和分析功能的特点,为改进结果以适应垂直搜索的需要,系统增加了信息收集和
信息分析功能。
畔⑹占撬阉饕娴幕。疚恼攵阅壳按怪彼阉饕嫘畔⑹占写嬖诘耐
络信息覆盖率较低、被收集信息中无效信息较多等问题,提出了基于统计用户浏览时间
的信息收集方法。该方法在网络信息覆盖率更高的元搜索引擎结果的基础上收集大量用
户关注度较高的信息,一方面增加了信息的覆盖率,另一方面增加了被收集信息的专业
相关度。
畔⒓焖魇撬阉饕娴暮诵模疚囊胧萃诰蚨运占男畔⒔蟹治觯
出用户满意度较高的信息中词汇与查询关键词之间的相关规则。提出了隐形关键词的概
念,并将隐形关键词用于信息检索。实验证明加入隐形关键词的搜索可以提高系统查询
结果的专业相关度。
没ё罟匦乃阉鹘峁那懊娴慕峁越峁判蚴撬阉饕姹匦胍V厥拥奈
题。目前,元搜索引擎结果排序所用到的信息较少,不能保证结果的相关度。本文提出
适合系统结果排序的排序方法。并针对引入隐形关键词的搜索提出了改进后的位置排序
算法,增加结果的专业相关度。
本文提出了一种基于元搜索技术的垂直搜索解决方案,为垂直搜索引擎的设计提供
了一个新的思路。
关键词:元搜索,垂直搜索,结果排序,隐形关键词
Ⅱ
阛
,
甌
.
. 瑃
籺· .
. ,
丽.
,
.
鏰甒:
瓵瑃瓸
瑆
.
.
甀.
畆瑃
甌拉
甇琲
. 琲
甀.
—甒
.
甌
硫.
琲
.
西
, 百
篗, , ,
第一章绪论
第一章绪论
论文的研究背景
互联网诞生于上个世纪六七十年代,用爆炸式这样的词汇来形容互联网这短短几十
年的发展速度,相信不会有人反对。互联网上的信息可以说的上是浩如烟海,而这些信
息仍以很高的速度不断增加着。根据中国互联网络信息中心统计,截至年底,中
国的网站数,即域名注册者在中国境内的网站数ㄔ诰衬诮尤牒途惩饨尤达到
万个,,比去年同期增加%【俊
这些网页涵盖了文化、体育、医疗、行政法规⋯⋯,甚至是生活的方方面面。
如此规模巨大的信息,深刻改变着人们的知识获取方式,使人们更加依靠这个庞大
的信息库。然而,人们如何能在如此庞大的信息库中找到自己想要找到的信息呢诨
联网刚诞生的一段时间里,人们只是凭借着几个熟悉的网站地址来浏览互联网的。人们
能否从这些网站中找到自己想要的信息,完全取决于用户对于该网站的熟悉程度。在后
来的一段时间里,出现了一种整个网页贴满各个网站链接的网站,方便人们找到自己想
要去的网站。这说明人们对于互联网信息的渴求与无奈。
正是在这种需求的巨大推动下,一种可以在互联网中完成检索功能的工具——搜索
引擎的出现成为了必然结果。年,第一个支持搜索文件全部文字的全文搜索引擎
正式亮相时仅包含来自个服务器的内容。作为一个新兴的工具,在使
用的初期每天仅承受次左右的搜索量。这样的情况之持续了两年左右,到了
年,采用了新技术的第二代搜索引擎无论是在数据量,响应的时间,还是访问的承受量
方面都得到了显著的提高。并伴随着搜索引擎被广泛大众所了解,这个时候,第二代搜
索引擎的访问量就有了很大的飞跃。庋牡诙阉饕娲砉ú嫉拿刻斓
查询量曾经一度高于万次。年至今,是搜索引擎发展的第三个阶段。在这个
阶段,新一代搜索引擎的数据存储量,用户数量,查询响应时间都达到了惊人的程度。
跟据中国互联网络信息中心⒉嫉膡年中国搜索引擎用户行为研究报
告》显示,,年增长率达%。
】。搜索引擎如此快速的发展,正说明人们从互
联网信息中找到自己需要的信息的需求。
随着互联网信息的巨大增加,通用全文搜