文档介绍:西南交通大学
硕士学位论文
基于Web的信息抽取技术研究
姓名:王旭东
申请学位级别:硕士
专业:计算机应用技术
指导教师:朱焱
20080501
摘要西南交通大学硕士学位论文随着互联网的快速发展和普及,人们越来越依赖于网络获取信息。作为值的信息。基于男畔⒊槿〖际蹙褪茄芯咳绾未诱庑¦源中抽取出用户感兴趣的信息,并把这些抽取出的信息表示成更具有语义,更为结构化的形式,以便加以利用。该技术起源于信息抽取技术,但由于畔⒌淖陨特点,该技术已经和传统的基于纯文本的信息抽取技术有了很大的不同。目前,大量畔⒈槐4嬖谕镜暮筇ㄊ菘庵校庑┬畔⒃谕成的显示有一些共同的特征,即通常把数据库中的数据插入到网页的一个模板中,其表现形式就是网页的主体部分有多个局部信息块组成,局部信息块有多个数据项构成。这类网页被称为数据密集型常捎诟美网页富含大量有价值的信息,因此,研究如何对这类网页进行畔⒊槿有重大的意义和实用价值。对于上述数据密集型网页,本文采用基于南喙丶际趵唇饩鯳信息的抽取问题。其解决方案是:首先获得目标网页,并将该文档以文档对象模型V薪椋;晃P问缴系腦文档,然后根据这类网页的特征,通过与系统交互,系统半自动地生成基于行和相关列的恢寐肪侗泶式作为抽取规则,根据抽取规则定位到待抽取的信息,从而实现信息的准确本文开发了一个原型系统,系统能够完成对数据密集型网页和新闻网页的信息抽取,实验表明本文的系统具有一定的实用价值。第海量的信息来源,梢钥闯墒且桓鼍薮蟮氖菘猓鸥髦指餮屑把该网页中信息的布局视为基于行和列的二维表形式,用户根据自身需求,抽取,抽取的结果用幢硎尽关键词:畔⒊槿。籇;籜
西南交通大学硕士学位论文篧第瓵,琣甌琲,琗,甌.,.琣甴.—.,瑃甌‘
学位论文作者签名:珧辱指导老师签名:一一粒日期:脯、汐多.。,孑乃口疊西南交通大学学位论文版权使用授权书槐C茑颍褂帽臼谌ㄊ椤本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权西南交通大学可以将本论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复印手段保存和汇编本学位论文。本学位论文属于C芸冢年解密后适用本授权书;朐谝陨戏娇蚰诖颉啊獭同期:
西南交通大学学位论文创新性声明本人郑重声明:所呈交的学位论文,是在导师指导下独立进行含任何其他个人或集体己经发表或撰写过的研究成果。对本文的研究做出贡献的个人和集体,均己在文中作了明确的说明。本人完全意识到本声明的法律结果由本人承担。视为基于行和列的二维表的形式,采用喙丶际酰谏杓瓶发的原型系统中通过交互的方式生成基于行和相关列的恢路径表达式作为抽取规则,利用该抽取规则能精确地对该类网页进研究工作所得的成果。除文中已经注明引用的内容外,本论文不包本学位论文的主要创新点如下:本论文针对数据密集型网页的特点,把该类网页中信息的布局行畔⒊槿
第滦髀研究背景西南交通大学硕士学位论文自九十年代初互联网开始迅速发展至今,互联网已成为经济、社会、文化、教育以及娱乐等各个方面的重要组成部分,并正在成为我们工作和生活中不可或缺的一员。就我国而言,据中国互联网络信每周上网时长达.∈保⑶艺饬礁鍪莼乖诓欢系卦龀ぁU比嗣窃嚼越依赖互联网来获取信息的时候,信息过载的问题出现了。目前,网络信息的相当一部分是通过万维网腤页面提供的,但据淖钚峦计允荆航鲋泄臼恳延万个,.,C娑匀绱伺哟蟮氖荩绾未雍迫缪毯5畔⒅锌焖佟⒂行У夭檎矣没枰5男畔⒁恢笔腔チM缬τ玫囊桓瞿题。近几年来,出现了多种基于男畔⒓焖鞴ぞ撸绫冉铣雒腉俣鹊人阉饕婀ぞ撸庑┕ぞ叩某鱿旨ù蟮胤奖懔巳嗣嵌孕畔⒌幕取,能够解决部分信息过载的问题,但由于它们都是基于字符串匹配和词义相似原理进行信息查询的,因此使用这些工具得到的查询结果动辄成百上千条,而且有很多返回的查询结果中包含了重复的内容,这就使用户得到了网页,并不等于得到了想要的信息资源。为了更加有效的组织和获取网上数据资料,高效地发现和利用上的资源,研究人员开创了畔⒊槿这个研究领域。畔⒊槿〖际醯娜挝窬褪墙持杏没Ц行巳さ男畔⒆确地抽取出来,以更具有语义、更结构化的形式保存下来,以供用户查询或其他应用程序利用。它与网络信息检索的区别是:目的不同:网络信息检索是从海量的万维网上搜索到所需的档,而畔⒊槿〔唤鲆J紫然袢文档,而且要更进一步地从这部分文档中抽取出有价值的,为后续工作所用的信息。》面向的用户群不同:网络信息检索面向大众,与领域无关,
研究意义诰蛑饕7治H啵篧结构挖掘饕N3唇拥姆治、西南交通大学硕士学位论文信息抽取是面向特定用户群,且是应用领域相关的。砑际醪煌和缧畔⒓焖飨低惩