1 / 83
文档名称:

毕业论文-基于Lucene垂直搜索引擎的研究与实现.pdf

格式:pdf   大小:4,424KB   页数:83页
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

毕业论文-基于Lucene垂直搜索引擎的研究与实现.pdf

上传人:endfrs 2021/7/22 文件大小:4.32 MB

下载得到文件列表

毕业论文-基于Lucene垂直搜索引擎的研究与实现.pdf

文档介绍

文档介绍:西安科技大学
硕士学位论文
基于Lucene垂直搜索引擎的研究与实现
姓名:徐海
申请学位级别:硕士
专业:计算机应用技术
指导教师:李军民
20090422
论文题目:基于垂直搜索引擎的研究与实现
专 业:计算机应用技术
硕士生:徐海 ┟盏盆三蜀
指导教师:李军民 ┟李狁
摘要
随着和难杆俜⒄梗琁上的资源同趋丰富,人们也越来越多
地依赖网络进行学****和研究。为了帮助人们在浩如烟海的网络中得到有用的信息,基于
母骼嗨阉饕嬗υ硕⒌玫搅搜杆俜⒄埂D壳埃嗣窃谕缟纤阉餍畔⒅
要利用百度,等通用搜索引擎,这类搜索引擎功能已经十分强大,基本可以满足
用户的需求,但是当用户搜索一些专业信息时,这类搜索引擎往往显得力不从心。垂直
搜索引擎的出现,正是为了解决此类问题。
首先,本文论述了垂直搜索引擎的研究意义及体系结构,并深入研究了垂直搜索引
擎的核心技术,包括主题相关度的判断,中文分词技术,网页排名技术等。
其次,本文对开发包进行深入的学****研究,对比了其本身的中文分词方法
及执史椒ǎ捎枚灾形姆执市Ч虾玫腒分词方法对所提取的内
容进行分词。
最后,本文设计并实现了威客任务信息垂直搜索引擎系统,包括主题蜘蛛模块,信
息提取模块,索引与检索模块。在主题蜘蛛模块采用算法来对未处理的
进行分析,提高了对主题信息采集的准确度;在信息提取模块,采用文档解
析方法对采集的页面进行信息提取;在索引与检索模块,针对中的得分算法没
有很好的体现网页在网站中的位置信息这一不足,设计了一种改进的解决方案,将文档
的基本得分与文档在网页中的位置信息以及文档本身的特点很好的结合起来,以提高对
搜索结果排序的准确度,由此增强了搜索的精确度。
关键词:垂直搜索引擎;主题蜘蛛;;信息检索;中文分词
研究类型:应用研究









肌 .