1 / 47
文档名称:

基于Lucene的AEP垂直搜索引擎的研究与实现.pdf

格式:pdf   大小:3,012KB   页数:47页
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

基于Lucene的AEP垂直搜索引擎的研究与实现.pdf

上传人:aena45 2021/8/19 文件大小:2.94 MB

下载得到文件列表

基于Lucene的AEP垂直搜索引擎的研究与实现.pdf

文档介绍

文档介绍:华 中 科 技 大 学 硕 士 学 位 论 文
摘 要
随着阿里软件电子商务平台上软件的增多,单纯的依靠目录式的方法来寻找需要
的软件已经不能满足用户的需求,也不能提升用户的体验度,开发搜索引擎势在必
行。本文在开源工具包 的基础上,开发了一个能够深度搜索软件详细信息
的垂直搜索引擎,力争应用到电子商务平台上。
本文的主要工作有:分析包括信息检索的模型等搜索引擎的相关理论;介绍搜索
引擎的相关技术,包括网络爬虫 Heritrix 和 DWR 的原理和应用;扩展 Heritrix 并抓
取 AEP 平台上的软件信息;将 DWR 技术应用于平台的搜索模块,能够大大节省系
统资源;使用 Htmlparser 处理抓取到的文档,将 html 页面持久化为包含软件所有有
用信息的文档;分析 Lucene 的开源框架、搜索引擎的工作原理,对它的索引构建、
搜索模块和过滤排序等有了深入的了解,并在此基础上开发了垂直搜索引擎的相应
模块;使用 Spring+Hibernate+MySql 构建 AEP 垂直搜索引擎的搜索模块,并使用最
大匹配法进行分词处理。
总之,本文不仅对 AEP 搜索引擎进行了实现,还在实现中尽量使用主流的技术,
对用到的各种相关工具进行了较为深入的研究,对用到的分词算法和排序算法进行
了研究和实现。
本文的研究成果可以广泛应用于各种网站和 Web 应用系统的搜索,开发者可以
根据需要制定符合用户****惯和要求的搜索。

关键词: 垂直搜索引擎 Heritrix DWR HtmlParser
I
华 中 科 技 大 学 硕 士 学 位 论 文
Abstract
With the increase of software on the Alisoft Economic PlatForm(AEP),finding the
necessary software simply rely on directory-style method is unable to meet the needs of
users, also can not enhance the Customer Experience Index(CEI). A search engine must
been developed in the near future. A vertical search engine which can get software details
is established based on the open-source tool kits . This can be applied to
practical application.
The major works in this thesis are as follows: Analyze search engine theory including
the model of information retrieval; introduce the related technology of search engine,
including the theory and application of Heritrix and DWR; extend the spider Heritrix and
crawl information on AEP; DWR is applied to the search module of AEP search engine,
which can save the system resource to a large extent; During the design and
implementation, Htmlparser is used to deal with the document. It transforms html page to
txt document that includes all