文档介绍:东南大学
硕士学位论文
半结构化Web信息抽取技术及其应用研究
姓名:董树明
申请学位级别:硕士
专业:计算机应用技术
指导教师:董逸生
20040301
摘要现,其特点使得应用程序无法直接利用系暮A啃畔ⅰU攵哉庖晃侍猓较至薟信息抽取技术。本文在论述了半结构化畔⒊槿〖际踝芴褰饩龇桨傅幕∩希胖匮芯苛薟信息抽取的实现技术以及疟居镅缘氖迪止獭T赪信息抽取的实现部分,提出了抽取规则执行算法,该算法首将其转换为格式良好的牡担缓罄心执行模块,即抽取器和转换器,这两个模块接收疟荆越疟窘薪馕觥⒅葱校瓿山疟径ㄒ宓某取转换任务。论文工作实现了畔⒊槿〖际鹾虴技术的集成,利用的抽取转换功能,使得从铣槿〉男畔⒏臃嫌没枨螅3浞掷輏系暮A渴萏峁┝艘恢钟屑壑档墓ぞ摺关键词:琀琀琗,珽,畔⒊槿。槿」嬖颍成涔嬖目前丫⒄钩晌R桓鼍奕说摹⒎植己凸蚕淼男畔⒆试矗壳癢数据大多以形式出先获取抽取规则指定的趁妫⑶依肏ǜ脁文档转化为鳎軽表达式获取感兴趣数据,并将其映射到目的模式,这一过程的执行是根据己定义的映射规则来完成的;研究了疟居镅缘氖迪旨际酰瓿闪薊的核..
琀琀琗,珽,琁甦猟,,甌,..,..琣瑃—,;,,.甌.:,
研究生签名私骘日期:东南大学学位论文独创性声明东南大学学位论文使用授权声明研究生签名本人声明所呈交的学位论文是我个人在导师指导下进行的研究上作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得东南大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。东南大学、中困科学技术信息研究所、国家图书馆有权保留本人所送交学位论文的复印件和电子文档,可以采用影印、缩印或其他复制手段保存论文。本人电子文档的内容和纸质论文的内容相一致。除在保密期内的保密论文外,允许论文被查阅和借阅,町以公布刊臀畚牡娜ú炕虿糠帜谌荨B畚牡墓ú包括刊登谌ǘ洗笱а芯可喊炖怼
第滦餮研究背景本文研究内容研究现状犬都阻形式出现,缺乏对数据本身的描述,不含清晰的语义信息,模式也不明确,结构上也不良好。这使得应用程序无法直接解析并利用系暮A啃畔ⅲA嗽銮縒数据的可用性,出现了畔抽取技术,它通过包装现有畔⒃矗成系男畔⒁愿=峁够姆绞匠槿〕雒祝B怯贸绦蚶械氖萏峁┝丝赡堋O钟械腤的信息抽取技术不但可以直接定位到用户所需的信息,而且采用。定的方式增加了语义和模式信息,为檠峁┝烁>返姆椒ǎ筗信息的再利用成为可能,冈此有着明显的优势和广阔的前景,是当今多个领域的研究热点。信息抽取技术已经研究多年,在信息获取的方面,畔⒊槿『弯榔魃系男畔⒓焖骱推嫜凶疟质上的差异,并且处理信息的粒度也不相同。现有的搜索引擎只能根据用户提交的关键词返回一一组,用户必须逐一浏览杂Φ腤页,采用人工的方式定位最终信息,现有的搜索引擎本身不能直接定位到所需的数据,更谈不上为数据增加语义。另外目前很多网站提供对自身所提供的信息的查询功能,允许用户直接提交查询条件或关键词,然后系统在后台根据查询条件或关键词的“,狈妒叫问皆诤台数据库执行查询,最后可以直接返回给用户所需的信息,但是为了显示仍以形式出现,缺乏模式信息,应崩程序仍旧无法直接利用这些信息,于是语言的局限性就表现出来。另户没有直接访问网站后台数据库的权限,如果网站根本不提供查询功能或者查询的信息不是用户需要的信息,崩户对此无能为力。于是对于畔⒌某槿〕晌R患惹行枰Q芯康囊桓鋈鹊憧翁狻随着需求的增加,进米涌现出了多种信息抽取工具,采用的技术也各不相同,涉及多个研究领域,如:数据库、人工智能、信息检索等。本文研究的主要内容是如何将基于文档的半结构化畔⒊槿〕隼矗亲;晃=峁够数据,并且保存到关系数据库中。提出了一种基于样例学习的半结构化畔⒊槿》椒ǎ⑶以谝丫现的原型系统中,完成的抽取效果良好,。部梢杂糜谄渌τ玫氖据准备阶段。本文的最后指出了畔⒊槿〖际踉贓系统中的应用,该原犁系统可以运行丁已经实现的蚣苤衃O旅娼ū疚难芯磕谌莞攀鋈缦隆月謒————随着姆伤俜⒄梗琖已经发展成为一个巨大的、分布和共享的信息资源,但目前畔⒊槿ר、
查直厶堂塑±堂笪堡兰————本文组织结构、峁够疻信息抽取方法主要包括数据获取、,这里所指的、峁够葜赴虢峁够腍趁妗数据获取:下载指定的扯荩=觬来的网负数据抽取作好准备。其中涉及到网站的就要求用户指定登录该ㄓ没兔苈,以成功访问目的网页。本原型系统采抽取规则定义:抽取规则定义由用户根据自己的需求米进行。在这一阶段,要求崩户能够根据样例趁嫱瓿沙槿」嬖虻亩ㄒ迦挝瘢矗和瓿赡康谋砟J缴杓坪褪菰吹侥康谋斫峁沟哪J映射设计两部分。完成的