1 / 46
文档名称:

【硕士论文】垂直搜索引擎的研究与实现.pdf

格式:pdf   页数:46
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

【硕士论文】垂直搜索引擎的研究与实现.pdf

上传人:fxl8 2013/4/19 文件大小:0 KB

下载得到文件列表

【硕士论文】垂直搜索引擎的研究与实现.pdf

文档介绍

文档介绍:京交道太堂亟±堂僮鹑虫室擅要
中文摘要
摘要:随着蚖的迅速发展,系淖试慈涨鞣岣唬A税镏
人们在浩如烟海的互联网中得到有用的信息,基于母骼嘈畔⒓焖鞣裼
运而生并得到了迅速发展。目前人们在互联网上搜索信息主要是通过,百
度等通用搜索引擎。这类搜索引擎的功能已十分强大,在~般情况下是可以满足
用户的需求的。然而当用户只想查询具体某专业或某行业,或某种主题的相关信
息时,这类搜索引擎就会显得有些力不从心了。垂直搜索引擎的出现,就是专们
为了解决这个问题的。
本文首先论述了垂直搜索的研究意义,接着详细介绍了搜索引擎的体系结构,
并深入探讨了通用搜索引擎的核心技术,包括网页抓取技术,中文分词技术,网
页排名技术等。然后又通过与通用搜索引擎的对比,介绍了构造垂直搜索引擎所
需要的关键技术。
在此基础上,本文提出了构造垂直搜索引擎时最重要的两个模块,即网页搜
集模块和结构化信息抽取模块的架构设计及算法模型。在网页搜集模块中,对垂
直搜索所要着力解决的“主题飘移”现象,提出了通过主题判定,主题预测和网
页排序的手段束防止这种现象,并在各自的模块中提出了相应的算法模型。在结
构化信息提取模块中,构造了一个基于际醯男畔⒊槿∠低车脑汀=阉
模块和信息提取模块进行合理的组合配置,形成了垂直搜索引擎的核心部分,为
创建一个完整的垂直搜索引擎打下了良好的基础。
关键词:垂直搜索引擎;专业爬虫;信息抽取;
分类号:
哀交道太堂亟±堂僮鹨缱雷估

: 觥猰

瑃—

,

’瓾

.

,
, 疽╪
,
. ,
.


,
琩皌
’琤
,

,



: ; 籌
篢.
致谢本论文的工作是在我的导师朱卫东副教授的悉心指导下完成的,朱卫东副教授严谨的治学态度和科学的工作方法给了我极大的帮助和影响。在此衷心感谢三年来朱卫东老师对我的关心和指导。朱卫东副教授悉心指导我们完成了实验室的科研工作,在学习上和生活上都给予了我很大的关心和帮助,在此向朱卫东老师表示衷心的谢意。朱卫东副教授对于我的科研工作和论文都提出了许多的宝贵意见,在此表示在实验室工作及撰写论文期间,刘宇,吴伟等同学对我论文中的理论研究工作给予了热情帮助,在此向他们表达我的感激之情。另外也感谢我的家人,他们的理解和支持使我能够在学校专心完成我的学业。衷心的感谢。
,其实就是因特网上一种基于男畔⒓焖鞴ぞ撸美醇焖尽网页、新闻组、图片、声音等募K导噬鲜且桓鲎ㄓ玫衿鳎部梢运凳腔チM咸峁┬畔⒓焖鞣竦耐尽U饫嗤居胍话阃不同的是,其主要功能是采用人工或自动的方式去搜寻系男畔ⅲ⒔缧息进行主题分类、建立索引,再把索引的内容存放到索引数据库中,通过查询语法为用户返回匹配资源,以帮助用户在兴蜒八枰5男畔ⅰC娑院棋ǖ网络资源,搜索引擎为所有网上冲浪的用户提供了一个入口,毫不夸张的说,所有的用户都可以从搜索引擎出发到达自己想去的网上任何一个地方。搜索引擎按其工作方式主要可分为三种,分别是全文搜索引擎⒛柯妓饕嗨阉饕乃阉饕全文搜索引擎是名副其实的搜索引擎,国外具代表性的有,、龋谥挠邪俣。它们都是通过从互联网上提取的各个网站的信息酝澄淖治V而建立的数据库中,检索与用户查询条件匹配的相关记录,然后按一定的排列顺序将结果返回给用户,因此他们是真正的搜索引擎。从搜索结果来源的角度,全文搜索引擎又可细分为两种,一种是拥有自己的检索程序壮啤爸┲搿绦蚧颉盎魅恕程序,并自建网页数据库,搜索结果直接从自身的数据库中调用,如上面提到的几家搜索引擎;另一种则是租用其他引擎的数据库,并按自定的格式排列搜索结果,如璴擎。柯妓鞴韭塞銮望太堂亟±堂焦论塞缓途和元搜索引擎
.ㄓ盟阉饕娴牟蛔目录索引虽然有搜索功能,但在严格意义上算不上是真正的搜索引擎,仅仅是按目录分类的网站链接列表而已。它们主要依靠人工维护网站索引。基于目录的搜索引擎通过人工浏览各站点的信息,按照一定的分类规则或分类体系,对网站进行分类。一般来说,它们具有结构清晰、错误较少,比较符合人们的阅读习惯的优点,而缺点是工作人员多、整理周期长,速度慢、人工干预成分多,不能适应试吹墓婺7⒄梗硗馊绻檎业男畔⒚挥卸杂Φ姆掷嘞睿蛭薹ń兴索。目录索引中最具代表性的莫过于大名鼎鼎的呕ⅰF渌幕褂蠴等。K阉饕元搜索引擎是一种通过调用其它独立搜索引擎而完成搜索服务的搜索引擎,是用户同时使用多个独立搜索引擎进行网络搜索的中介。用户只需递交~次检索请求,由元搜索引擎负责转换处理后提交给多个预先选定的独立搜索引擎,并将所有查询结果集中起来以整体统一的格式呈现到用户面前。元搜索引擎通过