1 / 74
文档名称:

面向Deep Web数据集成的数据抽取研究.pdf

格式:pdf   页数:74
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

面向Deep Web数据集成的数据抽取研究.pdf

上传人:peach1 2014/4/1 文件大小:0 KB

下载得到文件列表

面向Deep Web数据集成的数据抽取研究.pdf

文档介绍

文档介绍:江荨大擎编号—硕士学位论文面向菁傻氖莩槿⊙芯亟±§且生鱼旦江苏太堂生鱼县申请学位级别论文答辩日期学位授予单位和日期评阅人分类号卫三密级公珏垒
孔惠惠独创性声明本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立进行研究工作所取得的成果。除文中已注明引用的内容以外,本论文不包含任何其他个人或集体己经发表或撰写过的作品成果,也不包含为获得江苏大学或其他教育机构的学位或证书而使用过的材料。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。学位论文作者签名:趂/年聇弓目
指导教师签名:渺学位论文作者签名:孑嘌学位论文版权使用授权书本学位论文属于不保密∥。趂/年莎月,弓日江苏大学、中国科学技术信息研究所、国家图书馆、中国学术期刊馀贪电子杂志社有权保留本人所送交学位论文的复印件和电子文档,可以采用影印、缩印或其他复制手段保存论文。本人电子文档的内容和纸质论文的内容相一致,允许论文被查阅和借阅,同时授权中国科学技术信息研究所将本论文编入《中国学位论文全文数据库》并向社会提供查询,授权中国学术期刊馀贪电子杂志社将本论文编入《中国优秀博硕士学位论文全文数据库》并向社会提供查询。论文的公布ǹ授权江苏大学研究生处办理。齠年‘月
摘要随着难该头⒄梗琖曲上网页的数量已经超过万亿级,并且其中大部分都是深层网络的数据。这些数据呈现出规模巨大、结构化程度高、动态性与异质性并且按领域分布的特征。为了以尽可能自动的方式获取和利用这些数据,近年来菁杉际跏艿皆嚼丛蕉嘌芯空叩墓刈ⅰ数据抽取是数据集成中的关键问题,研究如何从持谐槿〕霭虢峁购臀藿构的数据以供后续处理及使用,是实现数据集成的基础和保证。本文分析了已有的莩槿〖际酰苯岷螪檠峁页的特点,提出一种莩槿》椒ā8梅椒ㄊ紫榷酝辰蟹挚椋着在分块的基础上进行数据区域识别,最后对数据区域进行数据记录抽取。文最后设计并实现了一个数据抽取原型系统。本文的研究内容包括:撤挚椤4车氖莩槿》椒ń玏页视为整体处理,导致网页中无关的部分直接干扰数据抽取,为此提出基于网页重复结构和相似慕峁分块算法,其核心思想是:将莩槿〉亩韵笥芍苯拥腤页面转化成趁嫠奶囟ㄓ镆蹇椤M撤挚樵诘撞闵舷艘趁嬖胍粜畔⒍允莩取的干扰,降低了数据抽取问题的复杂度,为后续工作提供了重要的基础和支持。萸蚴侗稹T谕撤挚榈幕∩希岷螪檠峁车奶氐悖提出基于嗨菩员浠腄萸蚴侗鹚惴ā8盟惴茏既肥侗出数据区域,为下一步的数据抽取奠定了可靠的基础。菁锹汲槿 NJ迪侄酝荒0迳梢趁娴淖远槿。ù槿∫趁数据记录的抽取转变为待抽取页面中数据区域的定位和数据记录之间边界的查找。该算法可以准确分割数据记录,实现了数据记录的完整和准确抽取。拖低逞蟹ⅰI杓撇⑹迪忠桓鍪莩槿≡拖低常低车脑诵行Ч实验结果表明本文所提方法是可行和有效的。关键词:菁桑莩槿。持馗唇峁梗嗨芔,数据区域江苏大学硕士学位论文
.琣琣,,,瑃甀,瓾,..,,..瑃甇
.琩江苏大学硕士学位论文..痚,.,
录目第一章绪论⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯。研究背景⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..国内外研究现状⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯本文研究内容⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯本文内容安排⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.第二章研究基础⋯⋯⋯⋯⋯⋯⋯??椤莩槿〖际酢莩槿〖际醯姆⒄估獭莩槿〖⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..莩槿〉钠兰郾曜肌相关技术介绍⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯本章小结⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯第三章基于网页重复结构和相似牟檠峁撤挚椤引言⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯相关研究工作⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯檠峁趁嫣氐惴治觥算法基本思路⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯索引路径⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯一算法实现⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯江苏大学硕士学位论文.
相关研究工作⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯数据区域识别⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯。⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯数据记录抽取维护方法⋯⋯⋯⋯