文档介绍:摘要随着姆伤俜⒄梗瑆曲的信息量越来越大,通用搜索引擎将面临信息采集、存储等方面更大的挑战。此外,由于通用搜索引擎面向所有的用户,力争在返回结果上做到面面俱到,包罗万象的结果显然不能满足用户精确搜索的需求。因此,面向专业领域的搜索引擎即垂直搜索引擎应运而生。与通用搜索引擎不唰,垂直搜索引擎的网络蜘蛛只采集械牟糠中畔ⅰ通过对网页的主题相关度进行预测和判断,专业网络蜘蛛在爬行时避开了大量主题无关的区域。由于只采集主题相关的网页,垂直搜索引擎在套询的准确率和效率上都有显著的提高。目前,垂直搜索引擎的中文分词和主题预测有待进一步提高精度,网络蜘蛛的搜索策略也有待进一步改进以提高搜索引擎的本文提出了基于主题的自适应的分词技术,使用候选词典和专业词库来指导分词和歧义消除,能有效地提高专业领域中分词的查全率和查准率。本文还提出了基于父网页的主题相关度预测算法、基于链入网页的主题相关度预测算法和魈庠げ馑惴ā昧嗣N谋竞透网页的主题相关度等信息进行预测;在预测主题相关度时综合考虑了链接的数量和质量;惴ㄔ蚪车闹魈庀喙匦院腿ㄍ韵嘟岷希佣行У胤止了“主题漂流”现象。为了解决普通隧道技术随着探索半径的增大,主题无关网页呈指数级增加的问题,本文提出了稀疏隧道技术,稀疏隧道技术使专业网络蜘蛛在整个欣网式地探索未知网页,从而实现“疏而不漏”地挖掘新的鶦騨想,并介绍了系统的体系结构和具体实现技术。垂直搜索引擎,中文分词,网络蜘蛛,隧道技术,主题相关度预测覆盖率和效率。最后是系统的设计与实现,在上述理论分析的基础上提出了系统的设计思关键词浙江大学硕士学位论文
鲫锄“痶癛”.琫莟瓵,鶶琺,“,玱玝,,陀瑃壬碑琲浙江大学硕上学位论文】甀,丘,甌,ⅲ琲】琣緎琣℃,盘,甀琵Ⅱ℃矗籘鏾奄..ⅱ゛騛瑂
⒄估息中,在这种情况之下,面向特定专业的搜索引擎,即垂直搜索引擎应运而生。垂直搜索引擎也叫专业搜索引擎,是相对通用搜索引擎的覆盖率过低、查询不准分网页无法被搜索引擎索引到,即使是世界上最大的搜索引擎也只能索引【康难芯砍晒方法,结合这种新思路所实现的垂直搜索引擎较普通的垂直搜索引擎在精度和效因此锄想到了开发一个可以以文件名查找文件的系统,于是便有了’随着姆伤俜⒄梗瑆曲的信息量越来越大,人们往往需要借助搜索引擎来帮助他们寻找特定领域的资料,然而现有的搜索引擎如蟚、百度等,都不是专门为搜索特定领域资料而设计的,这些搜索引擎面向所有的用户,力争在返回结果上做到面面俱到。因此,真正需要的资料往往淹没在大量的无用的信确、更新不及时等缺点提出来的新的搜索引擎服务模式,它通过针对某一特定领域、某一特定人群或某一特定需求而提供有一定价值的信息和相关服务,其特点是“专、精、深”,且具有行业色彩。目前因特网上的可索引到的网页数量已超过谝场】,还有相当大的一部到整个ィ抡庑┧饕氖奔浯蛹钢艿郊父鲈虏坏取U庵痔粽讲是来自互联网本身,而是来自一个简单的哲学道理:我们没有办法让~台机器存储整个互联网的信息,垂直搜索引擎是在这样的背景下提出来的一种顺应历史潮流的解决方案。本文在这种背景下,结合近年来比较热门的对垂直搜索引擎中的中文分词和精确爬行曲技术提出了新的思路和解决率上都有较大的改进。在互联网发展初期,网站相对较少,信息查找比较容易。然而伴随互联网爆炸性的发展,普通网络用户想找到所需的资料简直如同大海捞针,这时为满足大众信息检索需求的专业搜索网站便应运而生了。现代意义上的搜索引擎的祖先,是年由蒙特利尔大学学生弛发明的。虽然当时刮闯鱿郑缰形募浠故窍嗟频繁的,而且由于大量的文件散布在各个分散的骰校檠鹄捶浅2槐悖浙江大学硕士学位论文.。
.阉饕娴姆掷上的文件,然后对有关信息进行索引,供使用者以一定的表达式查询。由于深受用户欢迎,受其启发,美国内华达月,斯坦福硆大学的两名博士生,蜘蛛全文搜索引擎和元搜索引擎。目录式搜索引擎目录式搜索引擎的典型代表是侵饕R揽咳工维护网站索引。基于目录的搜索引擎通过人工浏览各站点的信息,按照一定的分类规则或分类体系,对网站进行分类。一般来说,它们具有结构清晰、错误较慢、人工干预成分多,不能适应缱试吹墓婺7⒄梗硗馊绻檎业男畔⒚挥对应的分类项,则无法进行搜索。一定规则自动从略赝车募扑慊绦颍杂Φ耐宕视谢魅薴、爬行器鬺握取1韭畚耐骋徊捎谩巴缰┲搿崩创砀美嗉扑成分很少。它通过网络蜘蛛在网上自动爬行,将搜索到的网页自动地加入到本地索引数据库中,用户可以很快从索引数据库查到更新后的信息。它的优势在于自作,因而成为当前研究的热点。常用的基于网络蜘蛛的搜索引擎有剐只需递交一次检索请求,由元搜索引擎负责转换处理后提交给多个预先选定的独立搜索引擎,并将所有查询结果集中起来以整体统一的格式呈现到用户面前。元搜索引擎通过综合利用多个搜索引擎的搜索服务,可以在一定程度上弥