文档介绍:厶茹只孥硕士学位论文论文题目:菁芍邪捌髯允视Ψ椒ㄑ芯级:单位代码:作罗伟计算机软件与理论导李庆忠教授合作导师分类号:密学号:者专业师年嘧毕气
●
论文作者签名:涞际η论文作者签名:∑№论文作者签名:里缒Ⅲ卅『骸篺『『『篺『骸篺『篺『『『篺『日期:翟原创性声明关于学位论文使用授权的声明原创性声明和关于论文使用授权的说明本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立进行研究所取得的成果。除文中已经注明引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写过的科研成果。对本文的研究作出重要贡献的个人和集体,均己在文中以明确方式标明。本声明的法律责任由本人承担。本人完全了解山东大学有关保留、使用学位论文的规定,同意学校保留或向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅;本人授权山东大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或其他复制手段保存论文和汇编本学位论文。C苈畚脑诮饷芎笥ψ袷卮斯娑导师签
山东大学硕士学位论文录目第滦髀邸研究背景⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯研究现状⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯研究内容⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯论文组织结构⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.第聎曲数据抽取相关研究⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯莩槿」獭半结构化数据⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..⒊槿〉亩ㄒ濉莩槿∮雡信息检索⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..莩槿》⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.半自动数据抽取方法⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.全自动的数据抽取方法⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯面临的问题⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯第掳捌餍Q椤研究现状⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..包装器校验⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.引言⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..小结⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..引言⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.
山东大学硕士学位论文第掳捌髯允视Ψ椒‥—⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯...⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯小结⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯总结⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯未来工作展望⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..参考文献⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..攻读学位期间发表的学术论文目录⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯引言⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯一第伦芙嵊胝雇致谢⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..猇●
\山东大学硕士学位论文摘要随着互联网的快速发展,喜舜罅坑肓煊蛳喙氐男畔ⅲ庑┬台,大量的信息嵌入在趁嬷小页面是一种半结构化的数据,数据抽取可以将这种半结构化数据抽取并转化为结构化数据,从而为进一步包装器的工作依赖于页面的结构信息,然而由于互联网的动态特征,站点可能会经常更新其展现形,导致了趁娼峁狗⑸浠庖槐浠钪盏贾包装器白适应针对这一问题开展相关的研究。包装器的自适应研究可以器返回数据进行有效性校验,确保包装器处于正常工作的状态。当站点结构完全错误的,当系统检测出这一情况发生时,对设计者进行提醒,或自动执时结合趁孀陨硖逑指髦痔卣鳎訵曲数据页面中的属性标签和数据关键词:、Ⅳ数据集成;莩槿。话捌鳎话捌髯允视Γ息也成了人类获取知识的重要来源。互联网已经成为一个巨大的信息交流平的知识获取做准备,这一过程通常采用一个称之为包装器的应用程序来实现。包装器停止工作。分为两个子问题:包装器校验和包装器重归纳。第一个子问题是如何对包装发生变动时,旧的包装器可能无法继续抽取到数据,或者抽取出来的数据是行包装器修复过程进行修复。包装器重归纳系统对抽取规则进行修复从而使包装器能够在结构变化后的新页面上正常工作。本文充分利用菁上低持幸延惺萏峁┑男畔ⅲ闷湔瓜殖来的数据特征对新抽取的数据记录进行校验,检测包装器是否正常工作。同元素进行准确的标记,生成良好的训练样例,辅助生成新的包装器。