文档介绍:摘要随着近几年姆伤俜⒄梗淙籛已经发展成为一个巨大的分布和共享信息资源的平台,但如何从锌焖佟⒂行У幕袢⌒畔⑷匀皇抢抛臰用户的一个问题,在这种背景之下,出现了畔⒊槿〖际酰琖信息抽取技术是从已经存在多年的信息抽取技术中繁衍出来的,它继承和发展了信息抽取领域的一些关键技术。同时,际醭鱿种螅杆俪晌;チM畔⒈硎镜氖率当准,本文把传统的信息抽取技术同际踅岷掀鹄矗赪信息抽取过程中起到了事半功倍的作用。本文首先对现有的信息抽取技术和际跫右匝芯浚诖嘶∩咸岢隽耸合慕峁褂纸衔Mㄓ玫氖餍徒峁钩槿」姹碒,它能够把缟系氖莩槿〕来整合到指定模式的牡抵腥ァ信息抽取出来,用户如果不能随心所欲的加以利用,那将是毫无价值的。所以,抽取信息的数据集成也是畔⒊槿过程中不可忽略的一个子过程。那么,如何把抽取出来的数据准确的映射到目标数据库中也是本文需要研究的范畴。同时,为了方便用户对抽取出的数据进行二次利用,本文还提出基于腤查询模式。总之,畔⒊槿〖际踅岷拇娲⒑头梦始际酰畲笙薅鹊氖迪至薟信息的再利用。本文的创新所在是作者提出了一个信息抽取原型系统的设计及实现方案,该系统采用多策略的基于某槿》椒ǎ绰愀鞲隽煊虿煌某槿⌒枨蟆T谖章的最后,作者基于实例对系统的各项抽取系数进行了评价,基本达到了预期的效果。关键词:畔⒊槿。粁;数据集成;映射;原型系统
’甒疭畐位痶甌;籇恤瓸甀籑;.,,,瑃,.甀琲甋琩甇,,..
⋯⋯黧髟膏论文作者签名:石聿知鏊暝耭日大连海事大学学位论文原创性声明和使用授权说明撰写成博士/硕士学位论文苫訪的避畔⒌刎礁慈⒆曹值陌嘁耍海骸3原创性声明学位论文版权使用授权书年≮月本人郑重声明:本论文是在导师的指导下,独立进行研究工作所取得的成果,文中已经注明引用的内容外,对论文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本论文中不包含任何未加明确注明的其他个人或集体己经公开发表或未公开发表的成果。本声明的法律责任由本人承担。本学位论文作者及指导教师完全了解“大连海事大学研究生学位论文提交、版权使用管理办法”,同意大连海事大学保留并向国家有关部门或机构送交学位论文的复印件和电子版,允许论文被查阅和借阅。本人授权大连海事大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,也可采用影印、缩印或扫描等复制手段保存和汇编学位论文。日
第滦髀课题研究背景课题研究现状今天,互联网已经成为最为流行的信息发布媒介。互联网使人们无论是发布还是阅读信息都变得极为方便。然而,随着互联网信息爆炸性的增长,人们想要获取一条留己想要的信息女口交得像大海捞针一般困难。如何有效、抉速的搜索所需信息成为亟待解决的问题。在这种背景下,搜索引擎出现了。它帮助人们通过给定的关键词来获取相关的页厦。然面,搜索引擎只是部分缓解了信息搜索的闻题,结果并不能十分令人满意。不足之处表现在三个方面:隽讼喙匾趁娴牧唇樱没Щ故切枰Mü止げ饫劳巢拍苷业较喙信息。峁蛔既贰4罅康乃阉鹘峁际怯没Р幌胍5摹焖髂J郊虻ァN薹ㄌ峁├嗨芐这样强大的查询语言。由于无法定制精确的查询,想要获取精确的结果是不可能的。最理想的情形是:互联网作为一个信息源能像数据库一样被查询。目前数据大都以形式出现,缺乏对数据本身的描述,不含清晰的语义信息,模式也不太明确。这使缛应用程序无法直接解析著利用系暮A啃畔ⅲA嗽銮莸目捎眯裕鱿諸畔⒊槿〖际酰ü跋钟蠾信息源,将网页上的信惠以更为结构化的方式抽取出来,为应用程序利用械氖萏峁┝丝能。现有的畔⒊槿〖际醪坏ǹ梢灾苯佣ㄎ坏接没璧男畔ⅲ也捎靡欢的方式增加了语义和模式信息,为檠峁┝烁>返姆椒ǎ筗信息的再利用成为可能,因此有蓄明显的优势和广阚的前景,是当今多个领域的研究热信息抽取技术的研究是一个热门课题,在信息获取方面,畔⒊槿『弯器上的信息检索和查询有着本质上的差异,并且处理信息的粒度也不相同。现有的搜索引擎只能根据用户提交的关键词返回一组没П匦胫鹨徊饫繳对应的常捎萌斯さ姆绞蕉ㄎ蛔钪招畔ⅲ钟械乃阉饕姹旧聿荒苤苯佣ㄎ坏所需的数摆,更谈不上为数据增女Ⅱ语义。点。
国外早期就开始了信息抽取的研究,并取得了一些成果,那时比较好的信息抽取系统有低场低车取甏琽赪的流行,研究人员开始把目光转向趁娴某槿」ぷ鳎飧鍪逼谔岢隽撕芏嗾感碌募际酰部7⒘很多工具。南加州大学信息科学研究所研制的一个信息集成系统,其特点是发展和应用了多种人工智能技术,访问各类信息源,构造了一个智能的动态接口。其认为具有严谨的结构,如层次树型结构,它采用元组列表的形式来表达半结构化的信息。元组列表带有明确的分隔符以区分不同的元素。为了描述文档的结构,其设计了一种叫做嵌入式目录的表达形式,用于表达半结构化文档中的信息。其中,树叶代表将被提取的信息,每一个内节点代表一个同构列表缫桓雒值牧斜或一个异构元组缫桓霭彰⒌刂泛托蛄泻怕氲娜W,对待提