1 / 43
文档名称:

【硕士论文】军训网主题搜索引擎技术研究.pdf

格式:pdf   页数:43页
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

【硕士论文】军训网主题搜索引擎技术研究.pdf

上传人:千与千寻 2012/5/11 文件大小:0 KB

下载得到文件列表

【硕士论文】军训网主题搜索引擎技术研究.pdf

文档介绍

文档介绍:摘要
随着的迅速发展,网络信息增长的速度和人们获取所需信息能力之间的矛
盾越来越突出。本文围绕主题搜索引擎这一社会研究的新热点技术,对主题搜索引擎
中占有重要地位的主题蜘蛛给予研究和讨论。主题搜索引擎中的信息采集,即主题蜘
蛛系统的搜索策略的研究,对于主题搜索引擎的应用与发展具有非常重要的作用。论
文首先对主题搜索引擎的原理和结构进行介绍,引出主题蜘蛛,分析了其基本结构和
工作原理。又详细的介绍了主题蜘蛛的其他相关技术,如文本分类和主题描述。然后
抓住如何评价页面的主题相关性和设计高效的爬行策略这两个关键问题,从军训网的
结构入手,在研究大量现有的主题蜘蛛搜索策略基础上,引入链接分析策略,对现存
的搜索策略进行改进,并设计了一个主题蜘蛛模型。最后对该主题蜘蛛的性能进行了
测试,同时给出了实验结果及分析。
关键词:军训网主题蜘蛛主题爬行策略链接分析
,



. 瑃

甌產.

,


. ,


第一章绪论
背景
生产力的发展和人类文明的进步都离不开知识的积累。从古到今,人们一直梦想
着将世界上所有的知识汇总起来,做成一部百科全书,以便在解决问题的时候能够更
方便。然而在网络的快速发展看来要将这个乌托邦式的梦想付诸实现的时候,一个更
严峻的问题摆在了人们面前,即如何利用这部包罗万象的知识宝库呢,如何翻阅这本
厚厚的百科全书呢
随着疘难杆俜⒄梗缯羁痰馗谋渥盼颐堑纳睢6谕戏
展最为迅猛的际酰云渲惫邸⒎奖愕氖褂梅绞胶头岣坏
表达能力,已逐渐成为上最重要的信息发布和传输方式。随着信息时代的到来
和发展,系男畔⑷缬旰蟠核癜阊杆僭龀て鹄础=刂沟拢泄
%Ⅲ,网上信息资源的增长速度非常迅猛。
然而,畔⒌募彼倥蛘停诟嗣翘峁┓岣恍畔⒌耐保质谷嗣窃诙运
的有效使用方面面临一个巨大的挑战。一方面网上的信息多种多样、丰富多彩,而另
一方面用户却找不到他们所需要的信息。为解决“信息爆炸’’带来的这些问题,各种
新技术应运而生;传统的信息检索,机器学****自然语言处理
技术也被广泛的应用于F渲凶钔怀龅募际跄9谒阉饕妗R蚨赪的
网上信息的采集、发布和相关的信息处理日益成为人们关注的焦点。
.ㄓ盟阉饕
为此,人们发展了以阉饕嫖V鞯募焖鞣瘛NA私饩鐾闲畔⒓焖鞯哪
题,人们在信息检索领域进行了大量的研究,开发了各种搜索引擎鏕
这些搜索引擎通常使用一个或多个采集器从鲜占髦质荩缓笤诒镜胤
器上为这些数据建立索引,当用户检索时根据用户提交的检索条件利用索引库迅速查
找到所需的信息。
ㄓ盟阉饕婀ぷ髟
搜索引擎的实现原理,可以分为四步:从互联网上抓取网页一建立索引数据库一
在索引数据库中搜索一对搜索结果进行处理和排序。通常由三个子系统组成口缤
所示。数据采集子系统从一个或多个初始网页出发遍历互联网自动地采集网上信
息,数据索引子系统对采集来的网页进行索引并存储到索引数据库中。而数据检索子
系统则等待用户的查询指令,对用户的查询信息进行分析,然后在索引数据库中进行
检索,并根据一定的策略对结果进行排序,最后将结果返回给用户。
图搜索引孥工作流程图
ㄓ盟阉饕娲嬖诘奈侍
传统的畔⒉杉哪勘昃褪蔷】赡芏嗟夭杉畔⒁趁妫踔潦钦鯳上的
资源,而在这一过程中它并不太在意采集的顺序和被采集页面的相关主题。这样做的
一个极大好处是能够集中精力在采集的速度和数量上,并且实现起来也相对简单,例
如采集系统在并行霾杉魇钡乃俣瓤梢源锏矫棵页,从而它配合搜索
引擎给网络用户带来了很大的便利。但是,这种传统的采集方法也存在着很多缺陷。
随着万维网信息的爆炸性增长,信息采集的速度越来越不能满足实际应用的需要。即
使大型的信息采集系统,它对网络的覆盖率也只有一%。解决这一问题的直接办法
是升级信息采集器的硬件,采用处理能力更强的计算机系统,然而这种方法的扩展性
有限,性价比也不高。一个更好的解决方法是采用分布式方法来提高并行能力,但是
并行不但增加了系统的开销和设计的复杂性,并且并行换来的效益也随着并行采集器
数目的增加而显著地减小。目前,一般的大型采集系统都采用了并行机制,但并行带
来的改善效果仍远不能满足人们的需要。人们需要从其它角度改善目前的困境。比如
说对整个网络分块采集,并将不同块的采集结果整合到一起,以提高整个牟杉
覆盖率。信息的分散存储、管理和动态变化也是困扰着信息采集的问题之一。
由于信息源随时可能处于变化之中,信息采集器必须时常地刷新数据,但仍无法避免
采集到的页面失效的情况。对于传统的信息采集来说,待刷新页面数量的巨大使得很