1 / 63
文档名称:

汽车行业垂直搜索系统原型的设计与关键模块的实现.pdf

格式:pdf   页数:63
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

汽车行业垂直搜索系统原型的设计与关键模块的实现.pdf

上传人:banana 2014/2/25 文件大小:0 KB

下载得到文件列表

汽车行业垂直搜索系统原型的设计与关键模块的实现.pdf

文档介绍

文档介绍:北京邮电大学
硕士学位论文
汽车行业垂直搜索系统原型的设计与关键模块的实现
姓名:刘金亮
申请学位级别:硕士
专业:软件工程
指导教师:吴国仕
20080501
汽车行业垂直搜索系统原型的设计与关键模块的实现摘要及信息抽取系统的基础上,设计了一种新的垂直搜索系统——随着互联网技术应用范围的不断扩大,人们越来越多地关注如何快速有效地从海量的网络信息中抽取出潜在的、有价值的信息,使之在管理和决策中有效地发挥作用。搜索引擎技术解决了用户信息检索的困难,但目前的通用搜索引擎存在着信息重复率高、检索功能单一等缺点。所以作为通用搜索引擎的补充,垂直搜索引擎更能做到符合用户个性化的需求。本文的目的便是构建一个较之通用搜索更为人性化,专业性更强的垂直搜索系统。本论文对垂直搜索引擎进行了理论性的分析,介绍了垂直搜索系统涉及到的术语和关键技术,具体介绍了网络蜘蛛的运行规则设计,信息抽取技术以及垂直搜索网站的相关页面设计。针对中文信息抽取的难点:即中文语料词表和中文命名实体识别,提出了解决方案;针对汽车领域收集制作了格式的语料词表;并针对中文的语言特点撰写了规则来实现中文命名实体识别。最后是系统的设计部分,在上述理论分析的基础上提出了系统的设计思想,并介绍了系统的结构和具体技术。最后本文结合理论和实践,在探讨了网络信息检索技术及中文信息抽取技术在搜索引擎系统中的应用,并在研究了阉髂诤艘汽车行业垂直搜索网站系统的框架原型。其中详细研究了系统构成中信息抓取、信息中文抽取和信息检索功能的实现过程。本系统设计的目标为:专注汽车行业领域的搜索,只提供用户关注的信息,将重复转载的信息去除,并对信息进行分类,帮助用户快捷查询到所需的资讯,实现对汽车领域信息的垂直搜索。关键词:垂直搜索搜索引擎信息检索信息抽取北京邮电大学工程硕士论文
咖姗鐳哐Ⅱ,,.,簐...,..,北京邮电大学工程硕士论文,瑂.,瓵,.,
:抑型韭本人签名:丛盟本人签名:纠坌鱼..本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得北京邮电大学或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任申请学位论文与资料若有不实之处,本人承担一切相关责任。本人完全了解北京邮电大学有关保留和使用学位论文的规定,即:研究生在家有关部门或机构送交论文的复印件和磁盘,允许学位论文被查阅和借阅;学校保存、汇编学位论文。本学位论文不属于保密范围,适用本授权书。独创性虼葱滦声明何贡献均已在论文中作了明确的说明并表示了谢意。日期:关于论文使用授权的说明校攻读学位期间论文工作的知识产权单位属北京邮电大学。学校有权保留并向国可以公布学位论文的全部或部分内容,可以允许采用影印、缩印或其它复制手段北京邮电大学工程硕士论文
第一章引言背景介绍国内外搜索系统的现状用户在使用通用互联网搜索引擎时,搜索引擎显示不准确、信息重复率高、.垂直搜索就是针对性的为某一特定领域、某一特定人群或某一特定需求提供抽取技术成为了垂直搜索的关键技术之一。本文介绍的此垂直搜索系统使用开源关注的汽车价格、性能的比较、汽车店信息、汽车厂商促销活动、车友论坛评论等。本系统与通用搜索系统的区别:本系统专注汽车领域的搜索,只提供用户关注的信息,将重复转载的信息自动去除,并对信息进行分类,帮助希望了解买车、养车、用车经验及喜爱汽车的用户能够快捷查询到自己想要的资讯,获得网络搜索引擎又称网络检索引擎,广义上是指一种的信息查询系效工具。根据统计,大约%的用户使用搜索引擎去定位他们需要的信息;并且,几个著名的搜索引擎,如、纫恢倍嘉榷ǖ嘏旁谌蚍梦柿孔畲蟮信息时效性不强,而且搜索不能做到智能化。作为通用搜索引擎的补充,垂直搜索引擎能做到自动符合用户个性化需求进行自助搜索。而我们要实现的这个汽车行业垂直搜索系统,就是基于垂直搜索引擎技术杓瓶7⒌墓赜谄敌幸领域的垂直搜索网站。的有一定价值的信息检索服务。垂直搜索和普通的网页搜索的最大区别是它对网页信息进行了结构化信息抽取,也就是从网页的某些非结构化数据中抽取出特定的结构化信息数据。垂直搜索是以结构化数据为最小单位,然后将这些数据存储到数据库中;而普通的网页搜索是以网页或网页块为最小单位的。所以峁化信息抽取的技术水平是决定垂直搜索质量的重要技术指标,因此结构化的信息码工具作为主要信息抽取工具。本垂直搜索系统开发的意图是为了便于用户查找汽车行业相关信息。如用户纯粹的高质量信息。统,包括信息抓取、信息管理和信息检索;狭义上是指一种为搜集上的网页而设计的检索软件。搜索引擎自年面世后,迅速成为人们网上搜索的有