文档介绍:电子科技大学
硕士学位论文
垂直搜索引擎的研究与设计
姓名:李副铭
申请学位级别:硕士
专业:计算机系统结构
指导教师:文军
20090501
摘要由于通用搜索很难满足个性化和专业化的需求,垂直搜索应运而生。垂直搜索能提供给人们更相关的信息。本文对中文垂直搜索中的几个关键技术进行论述,并设计实现了一个简单的检索系统,包括网络爬虫、网页提取、中文分词、索引检索等,各个部分相互关联构成一个有机的整体。提出了基于实验学习和聚集爬虫的嬖蜓八惴āK惴ǖ暮诵氖荱规则表达式学习,它能自动从样本网页中学习和产生规则表达式。主要包括以下几个部分:槿⑹匝檠啊⒎掷嗯斜稹⒐嬖蜓埃淮覷中发掘出链接与主题之间的相关性,以此作为判断欠褡ト〉囊谰荨V匦律杓屏舜实浠坪筒檠算法,我们采用了双字加逐字二分的词典机制,综合利用网络文本和搜索提交的关键词来识别新词,并对网页信息抽取做了论述。设计并实现了一个简单的搜索引擎,给出了系统的总体结构图,并对各个工作流程进行了详细的描述,最后对系统的使用效果和性能进行了简单评测。关键词:垂直搜索,网络爬虫,中文分词,结构化提取
..锄.,甀,,,.,..禟:鷒::;
签名:硅到%签名:丕刭丝日期:少雩年于即/『日翌叁关于论文使用授权的说明独创性声明日期:趴哆年月≥/日作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,、使用学位论文盘,允许论文被查阅和借阅。本人授权电子科技大学可以将学位论文本人声明所呈交的学位论文是本人在导师指导下进行的研究工为获得电子科技大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。C艿难宦畚脑诮饷芎笥ψ袷卮斯娑导师签名:
第一章引言相关背景随着互联网的普及和不断发展,现今我们的生活已经离不开网络,据市场调查公司兰疲凑胀袷考扑阒泄丫拦晌J澜缱畲蟮幕チM场。图我国网民增长图中国互联网协会发布《网站流量分析报告》。报告对中国网民访问网站行为作了抽样分析,结果显示,绝大部分的中国网民经常访问搜索引擎类网站和新闻类网站。其中,有.%的抽样网民经常访问搜索引擎类网站,.%的抽样网民经常访问新闻类网站,此二类网站形成了中国网民经常访问网站的第一阵营。搜索引擎是网民在互联网中获取所需信息的重要工具,是互联网中的基础应用。根据谋ǜ嫦允灸壳八阉饕娴氖褂寐饰%。即时通信、搜索引擎和电子邮件三大互联网基础应用也位列前十,使用率均超过%。报告显示用户对搜索引擎的依赖较高,。观察国外的情况,搜索引擎是美国的第二大网络应用,使用率已经达到%。.甤...
垂直搜索概述根据中国互联网络信息中心难芯浚裱Ю礁撸阉饕媸褂寐示越高。学历在本科及以上的网民中,搜索引擎使用率已经超过%。搜索引擎整合了众多网站信息,恰恰起到了信息导航的作用。通用搜索引擎就如同互联网第一次出现的门户网站一样,大量的信息整合导航,极快的查询,将所有网站上的信息整理在一个平台上供网民使用,于是信息的价值第一次普遍的被人们所认可,迅速成为互联网中最有价值的领域。互联网的低谷由此演变为第二次高峰。大家熟知的搜索引擎俣娶等是搜索引擎现今的杰出代由于通用搜索引擎是针对所有的用户群,信息量大、查询不准确、深度不够等特点使得它并不能满足人们某一特定领域、某一特定人群或某一特定需求提供精准化信息服务。垂直搜索有如燎原星火般迅速发展起来。垂直搜索细分了用户的需求,它将逐步帮助用户认识到“精准才是好”的理念。以前是“阅读尽可能多的信息”,现在是“将有限信息作用于实践的效率最大化”,拥有再多的垃圾信息也是无济于事,重要的是在用最短的时间找到最准确的对实践有帮助的信息阻¨。由于通用搜索的上述一些问题,垂直搜索如雨后春生般的兴起。垂直搜索【】是针对某一个行业的专业搜索引擎,是搜索引擎的细分和延伸,是对网页库中的某类专门的信息进行一次整合,定向分字段抽取出需要的数据进行处理后再以某种形式返回给用户。垂直搜索引擎和普通的网页搜索引擎的最大区别是对网页信息进行了结构化信息抽取,也就是将网页的非结构化数据抽取成特定的结构化信息数据,好比网页搜索是以网页为最小单位,基于视觉的网页块分析是以网页块为最小单位,而垂直搜索是以结构化数据为最小单位。然后将这些数据存储到数据库,进行进一步的加工处理