文档介绍:中山大学
硕士学位论文
网页垂直搜索中信息抽取系统的设计与实现
姓名:黄讴
申请学位级别:硕士
专业:软件工程
指导教师:任江涛
20080530
摘要本文通过一个实际项目——中国电信号码百事通垂直搜索引擎——提出如的主要模块——信息抽取子系统的设计与实现。信息抽取子系统包括网页规范论文题目:网页垂直搜索中信息抽取系统的设计与实现随着的高速发展,男畔⒘吭嚼丛酱螅鼻白盍餍械耐车己工具通用搜索引擎在信息采集、信息存储等方面面临着巨大的挑战。另外,由于通用搜索引擎只是对网页的文本建立分词索引,而面向的是几乎所有类型的用户,包罗万象的结果越来越难满足用户精确搜索的要求。于是,面向专业领域的垂直搜索引擎就成为搜索引擎一个新的发展方向。垂直搜索引擎与通用搜索引擎最大的区别就是前者对网页进行了页面净化、提供覆盖率和准确率都比较高的搜索结果。在垂直搜索引擎的构建过程中,从陌虢峁够葜谐槿〕鼋峁够菔瞧渲凶钪匾2街柚唬M撤类,数据挖掘等处理过程提供基础数据。化、网页净化、结构化信息抽取、信息存储等模块。文中提出了采用分词技术对网页进行净化的新方法,在信息抽取过程中,设计实现了一种结合正则表达式和关键词:垂直搜索引擎、信息抽取、网页净化专业:软件工程硕士生:黄讴指导教师:任江涛讲师信息抽取、页面分类、数据挖掘等深度的加工。经过这些加工之后,它能为用户何在T纯蚣芑∩瞎菇ㄒ桓鐾暾拇怪彼阉饕妫⒅氐闾致郾救瞬斡际醯氖莩槿》椒ā网页垂直搜索中信息抽取系统的设计与实现
.,—...,,:瑃甌瑅。●!!!。。。。。。。。。。!●馹馹●馹。●馹●——●———————————一一一篢::,琭甀Ⅱ一一
学位论文作者签名:靠迈论文原创性声明签字日期:汐·易年石月∥日本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立进行研究工作所取得的成果。除文中已经注明引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写过的作品成果。对本文的研究作出重要贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。
学位论文作者签名:璜返学位论文版权使用授权书签字期:为口辍拢本学位论文作者完全了解史出太堂有关保留、使用学位论文的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人授权虫出太堂可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。C艿难宦畚脑诮饷芎笫视帽臼谌ㄊ导师签名:签字日期:
第伦凼研究背景随着互联网的快速发展,网上的信息资源呈“爆炸式”增长,如何在浩瀚的信息资源中快速地定位自己想要的信息,成了人们使用互联网的一个瓶颈。极大地提高信息定位的效率。在我国目前亿网民中,【¨。搜索引擎以一定的策略在互联网中搜集、发现信息,对信息进行理解、提取、组织和处理,为用户提供检索服务,从而起到信息导航的作用‘。搜索引擎能有效地解决海量数据访问的“迷航”问题。按照不同的技术特点,可以把搜索引擎分为通用搜索、垂直搜索、元搜索引擎、目录搜索和集成搜索五类。元搜索引擎和集成搜索引擎都利用了其它搜索引擎的查询结果,其自身并没有对网页进行抓取、处理的过程,这两者不是搜索引擎的主要发展方向。目录搜索虽然有搜索功能,但在严格意义上算不上是真正的搜索引擎。因此,目前主流的搜索引擎一般可以分为通用搜索引擎和通用搜索引擎又叫水平搜索引擎,它是现代搜索引擎产生后发展得最早的技术,它的市场也比较成熟,是常规意义上的搜索引擎。目前,百度、、人阉饕娑际峭ㄓ盟阉鞯牟贰4怪彼阉魇钦攵阅骋桓鲂幸档淖ㄒ邓索引擎,是搜索引擎的细分和延伸,它对网页库中某类专门的信息进行一次整合,定向分字段抽取出需要的数据,进行处理后再以某种形式返回给用户。各大通用搜索引擎都有自身的垂直搜索功能,比如阉鳌⑼计阉鳌⑿挛搜索、搜索等。独立的垂直搜索网站也受到相关用户的青睐,比如旅游搜索引擎、商业搜索引擎、比价搜索引擎等。搜索引擎是人们在众多网页中搜寻信息的工具,是互联网的基础应用之一,能垂直搜索引擎两种。网页垂直搜索中信息抽取系统的设计与实现
相关研究现状一个专业的网络搜索引擎至少包括三个部分,即:网页抓取程序,网页处理程序和网页搜索程序。通用搜索引擎和垂直搜索引擎都由这三个部分组成,但它们在各部分采用了不同的策略,因此提供完全不同的服务质量。在网页抓取阶段,通用搜索采用宽度优先的算法,尽可能地抓取整个网络上的所有网页,集比较少量的网页,它在抓取过程中一般采用深度优先的算法。通用搜索只提搜索则要对页面进行结构化信息的抽取、分类,甚至进行数据挖掘等操作,处直搜索由于有了分类处理,可以按