1 / 67
文档名称:

旅游信息垂直搜索系统的设计与实现.pdf

格式:pdf   页数:67
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

旅游信息垂直搜索系统的设计与实现.pdf

上传人:cherry 2014/2/25 文件大小:0 KB

下载得到文件列表

旅游信息垂直搜索系统的设计与实现.pdf

文档介绍

文档介绍:北京邮电大学
硕士学位论文
旅游信息垂直搜索系统的设计与实现
姓名:张慧
申请学位级别:硕士
专业:计算机科学与技术
指导教师:陈行益
20090215
旅游信息垂直搜索系统的设计与实现摘要关键字:垂直搜索引擎,形姆执剩魈庀喙囟龋莱作为索引和检索的模块,其工作流程包括网页搜集,预处理和检索模块,的相关功能模块,可以迅速搭建一个垂直搜索引擎。题是首要解决的重要问题。本文采用垂菇ɑ舅阉饕婕芄梗⑿薷牧牧礁鲋匾D?椋乘鸭?楹椭形姆执誓?椋蛊淠芄皇视Υ怪彼阉通用搜索引擎的核心技术,以及垂直搜索引擎的技术特点,接着介绍了工作原理,在搜索模块中,本文采用了算法实现主题相关网页的抓的分词方式,设计了一种新的词典机制,并将一种新的分词算法引入到分词模块随着的迅速发展,网络资源日益丰富,传统的搜索引擎技术不加区分的从网络上收集网页,产生了大量用户不需要的无关信息,大大影响了用户的使用,为了更精确更迅速的获得用户关心的相关领域的信息,垂直搜索引擎技术应运而生。垂直搜索引擎仅仅采集用户指定的、与某一特定主题相关的页面。且桓龈崭盏7旁创的阉饕妗K褂具有与商用搜索引擎相同的工作流程,且其各功能模块相对独立,通过改造本文的工作目标是构建一个基于垂直搜索引擎技术的旅游信息搜索网站,搜索引擎部分是一个中文主题搜索引擎,因此,中文处理的问题与主题相关性的问的使用。在此基础上,本文首先介绍了通用搜索引擎与垂直搜索引擎的不同,讨论了取;网页抓取下来后,使用向量空间模型进行主题相关度判定,将相关度低于一定阈值的コ皇褂迷谥形姆执誓?橹校疚母慕薔基于单字切分中。随后,本文讨论了旅游信息搜索引擎的总体设计过程,包括手机客户端和阉饕娴氖迪止獭I杓乒讨氐懵凼隽诵枨蠓治觥⑹只突Ф撕屯镜功能规划和总体结构、数据库设计等内容。最后,对本文工作进行了总结,提出了今后的工作方向,并对垂直搜索引擎的技术发展方向做出了展望。北京邮电大学硕士论文北京邮电大学网络与交换国家重点实验室
綿甌舯瑃鱑Ⅱ’舀甒,.—甌.,.,珻
醐。晕严日期:霸絃一本人签名:一矩:日期::本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任研究生在校攻读学位期间论文工作的知识产权单位属北京邮电大学。学校有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许学位论文被查阅和借阅;学校可以公布学位论文的全部或部分内容,可以允许采用影印、缩印或其它包含其他人已经发表或撰写过的研究成果,也不包含为获得北京邮电大学或其他何贡献均已在论文中作了明确的说明并表示了谢意。申请学位论文与资料若有不实之处,本人承担一切相关责任。学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规定,即:复制手段保存、汇编学位论文。C艿难宦畚脑诮饷芎笞袷卮斯娑保密论文注释:本学位论文属于保密在年解密后适用本授权书。非保密论文注释:本学围,适用本授权书。独创性虼葱滦声明关于论文使用授权的说明本人签名:导师签名:北京邮电大学硕士论文旅游信息垂直搜索引擎系统的设计与实现北京邮电大学网络与交换国家重点实验室
第一章绪论【浚翘酙『已经搜集了一批网页,并以某种形式存储在系统中,当用户提交查询后,搜索引擎只是在内部系统中检索而已。而当用户发现某个冉舷喙吹降哪谌菀恢拢踔敛荒鼙Vつ歉鐾郴勾嬖凇2⑶蚁馟庋搜索引擎,为了维护其庞大的数据库,网页信息的平均更新周期要长达一个月左通用搜索引擎面临的第三大挑战。以外,还有新闻组,论坛,专业数据库等。通用搜素引擎对互联网信息不加区分出来的新的搜索引擎服务模式,通过针对某一特定领域、某一特定人群或某一特具有行业色彩,相比较通用搜索引擎的海量信息无序化,垂直搜索引擎则显得更研究背景及意义伴随着互联网的普及,互联网已经成为人们获取信息的重要途径,而搜索引擎则成为人们在互联网获取信息的重要工具。随着网络信息内容的爆炸性增长,传统的以覆盖所有网页为目标的搜索引擎正面临着前所未有的挑战。一是网页数量呈现出指数级的爆炸性增长趋势,搜索引擎无法索引所有的页面,即使是目前全球最大的搜索引擎,其索引的页面数量也仅占量的%左右【二是传统搜索引擎的搜索结果是海量的,而其中真正符合人们需要的信息只占其中很小一部分,可谓“冰山一角>萦泄刈柿涎芯肯允荆サ氖褂者会在看完前三页之前就停止阅读搜索结果。在讲第三条之前,必须澄清一个概念。首先,用户提交查询信息后,搜索引擎并不是立刻在纤阉饕槐椋⑾窒喙氐耐巢⒁砸欢ǖ乃承蛳允靖没进行点击获得网页全文的时候,此时访问的则是网页的原始