1 / 64
文档名称:

网页垂直搜索中信息抽取系统的设计与实现.pdf

格式:pdf   页数:64
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

网页垂直搜索中信息抽取系统的设计与实现.pdf

上传人:山吉 2014/3/4 文件大小:0 KB

下载得到文件列表

网页垂直搜索中信息抽取系统的设计与实现.pdf

文档介绍

文档介绍:中山大学
硕士学位论文
网页垂直搜索中信息抽取系统的设计与实现
姓名:黄讴
申请学位级别:硕士
专业:软件工程
指导教师:任江涛
20080530
摘要本文通过一个实际项目——中国电信号码百事通垂直搜索引擎——提出如的主要模块——信息抽取子系统的设计与实现。信息抽取子系统包括网页规范论文题目:网页垂直搜索中信息抽取系统的设计与实现随着的高速发展,男畔⒘吭嚼丛酱螅鼻白盍餍械耐车己工具通用搜索引擎在信息采集、信息存储等方面面临着巨大的挑战。另外,由于通用搜索引擎只是对网页的文本建立分词索引,而面向的是几乎所有类型的用户,包罗万象的结果越来越难满足用户精确搜索的要求。于是,面向专业领域的垂直搜索引擎就成为搜索引擎一个新的发展方向。垂直搜索引擎与通用搜索引擎最大的区别就是前者对网页进行了页面净化、提供覆盖率和准确率都比较高的搜索结果。在垂直搜索引擎的构建过程中,从陌虢峁够葜谐槿〕鼋峁够菔瞧渲凶钪匾2街柚唬M撤类,数据挖掘等处理过程提供基础数据。化、网页净化、结构化信息抽取、信息存储等模块。文中提出了采用分词技术对网页进行净化的新方法,在信息抽取过程中,设计实现了一种结合正则表达式和关键词:垂直搜索引擎、信息抽取、网页净化专业:软件工程硕士生:黄讴指导教师:任江涛讲师信息抽取、页面分类、数据挖掘等深度的加工。经过这些加工之后,它能为用户何在T纯蚣芑∩瞎菇ㄒ桓鐾暾拇怪彼阉饕妫⒅氐闾致郾救瞬斡际醯氖莩槿》椒ā网页垂直搜索中信息抽取系统的设计与实现
.,—...,,:瑃甌瑅。●!!!。。。。。。。。。。!●馹馹●馹。●馹●——●———————————一一一篢::,琭甀Ⅱ一一
学位论文作者签名:靠迈论文原创性声明签字日期:汐·易年石月∥日本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立进行研究工作所取得的成果。除文中已经注明引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写过的作品成果。对本文的研究作出重要贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。
学位论文作者签名:璜返学位论文版权使用授权书签字期:为口辍拢本学位论文作者完全了解史出太堂有关保留、使用学位论文的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人授权虫出太堂可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。C艿难宦畚脑诮饷芎笫视帽臼谌ㄊ导师签名:签字日期:
第伦凼研究背景随着互联网的快速发展,网上的信息资源呈“爆炸式”增长,如何在浩瀚的信息资源中快速地定位自己想要的信息,成了人们使用互联网的一个瓶颈。极大地提高信息定位的效率。在我国目前亿网民中,【¨。搜索引擎以一定的策略在互联网中搜集、发现信息,对信息进行理解、提取、组织和处理,为用户提供检索服务,从而起到信息导航的作用‘。搜索引擎能有效地解决海量数据访问的“迷航”问题。按照不同的技术特点,可以把搜索引擎分为通用搜索、垂直搜索、元搜索引擎、目录搜索和集成搜索五类。元搜索引擎和集成搜索引擎都利用了其它搜索引擎的查询结果,其自身并没有对网页进行抓取、处理的过程,这两者不是搜索引擎的主要发展方向。目录搜索虽然有搜索功能,但在严格意义上算不上是真正的搜索引擎。因此,目前主流的搜索引擎一般可以分为通用搜索引擎和通用搜索引擎又叫水平搜索引擎,它是现代搜索引擎产生后发展得最早的技术,它的市场也比较成熟,是常规意义上的搜索引擎。目前,百度、、人阉饕娑际峭ㄓ盟阉鞯牟贰4怪彼阉魇钦攵阅骋桓鲂幸档淖ㄒ邓索引擎,是搜索引擎的细分和延伸,它对网页库中某类专门的信息进行一次整合,定向分字段抽取出需要的数据,进行处理后再以某种形式返回给用户。各大通用搜索引擎都有自身的垂直搜索功能,比如阉鳌⑼计阉鳌⑿挛搜索、搜索等。独立的垂直搜索网站也受到相关用户的青睐,比如旅游搜索引擎、商业搜索引擎、比价搜索引擎等。搜索引擎是人们在众多网页中搜寻信息的工具,是互联网的基础应用之一,能垂直搜索引擎两种。网页垂直搜索中信息抽取系统的设计与实现
相关研究现状一个专业的网络搜索引擎至少包括三个部分,即:网页抓取程序,网页处理程序和网页搜索程序。通用搜索引擎和垂直搜索引擎都由这三个部分组成,但它们在各部分采用了不同的策略,因此提供完全不同的服务质量。在网页抓取阶段,通用搜索采用宽度优先的算法,尽可能地抓取整个网络上的所有网页,集比较少量的网页,它在抓取过程中一般采用深度优先的算法。通用搜索只提搜索则要对页面进行结构化信息的抽取、分类,甚至进行数据挖掘等操作,处直搜索由于有了分类处理,可以按

最近更新

2025年医用真空负压机项目合作计划书 66页

2025年医疗器械批发零售项目合作计划书 63页

2025年兽用生物制品项目合作计划书 69页

2025年偏光片项目合作计划书 65页

2025年六氟磷酸锂项目合作计划书 59页

2025年加油站设备项目合作计划书 49页

2025年出租汽车客运服务项目合作计划书 60页

2025年包装机项目合作计划书 70页

纳米塑料的尺寸依赖性毒性:基于毒代-毒效动力.. 7页

2025年皖北卫生职业学院单招职业适应性考试模.. 45页

2025年福州科技职业技术学院单招职业技能测试.. 43页

2025年绵阳飞行职业学院单招职业倾向性考试模.. 44页

2025年贵州工贸职业学院单招职业技能考试题库.. 44页

2025年重庆市宜宾市单招职业适应性考试题库附.. 45页

2025年长春汽车职业技术大学单招职业技能考试.. 42页

2025年陕西省汉中市单招职业倾向性测试题库附.. 43页

2025年马鞍山市住房公积金管理中心编外聘用人.. 47页

2025年黑龙江民族职业学院单招职业倾向性考试.. 44页

2025广东肇庆市四会市卫生健康局所属事业单位.. 49页

2025新疆温泉县灵泉文化旅游发展有限责任公司.. 44页

2025浙江温州科兴生命健康产业发展有限公司招.. 50页

2025甘肃定西市消防救援支队招聘战勤保障专职.. 44页

2026年安徽城市管理职业学院单招职业适应性考.. 37页

2025年湖南省建设工程工程量清单计价办法(新).. 51页

2025年江西信息应用职业技术学院单招职业适应.. 127页

2025年江西信息应用职业技术学院单招职业倾向.. 73页

喝酒给老婆的检讨书 6页

vae乳液低温发泡工艺 29页

《口蹄疫》ppt课件 42页

自然条件对城市的影响 48页