文档介绍:⑧基于蚆的莩槿⊙芯重庆大学硕士学位论文重庆大学计算机学院跹学生姓名:军指导教师:邢永康副教授专业:计算机软件与理论学科门类:工学二欢晡逶
’:甈甔,—
摘要域的最优匹配模式——目标模式。运用目标模式,将网页中所有匹配的数据区域随着互联网及其应用的快速发展,互联网上的数据量急剧增长,网页上的数据已经成为一个巨大的数据库,其中包含着大量潜在的有用信息,如何从中抽取出用户感兴趣的数据已经成为人们关注的焦点。莩槿〉闹饕H挝窬褪谴诱些半结构化的网页中抽取出用户感兴趣的数据,并将其转换成结构化形式,为后续应用提供数据基础。莩槿∥酥诙嘌芯空撸⒖7⒊隽烁髦指餮膚数据抽取系统。这些系统采用的方法和技术种类繁多,其采用的主要方法有:自定义开发语言、自然语言处理、机器学习、模式挖掘和本体技术等。这些系统各有所长,但是往往只能针对某些特定类型的网页进行抽取,具有很大的局限性。比如,一些基于模式挖掘的方法只能从结构清晰的网页中抽取标签之间内容,不能从标签之间的文本中抽取数据。通常目标网页中包含有大量目标数据信息,因此在形式上存在连续出现的模式,并且该模式整体上的形式变化很小。根据这一特点,本文提出了一个基于和马尔科夫逻辑网的数据抽取方法。其主要思想是,利用惴ǚ⑾制捣蹦J的能力得到潜在模式,并选出最优的抽取模式;利用这些模式将目标数据所在的数据块抽取出来,在此基础上运用马尔科夫逻辑网进行更加精细的抽取。本文所提出的方法的具体过程是,首先忽略网页中所有的文本修饰标签,只保留定义文档结构的块标签,并将整个网页转换成C扛鰐都有一个相同长度的二进制编码,按照这个对应关系将之前的;怀梢桓龆谱符串,得到该网页的半无限长字符串。此时利用惴ǎ菇ǔ龈猛车腜树,从中发掘出频率较高的潜在模式,并按照一定的筛选规则,筛选出候选模式。在用户标注训练样例的同时,从候选模式中确定出用户感兴趣的数据信息所在区抽取出来,得到目标数据块。在数据块的基础上,运用马尔科夫逻辑网对数据进行抽取。即根据数据块中目标数据的结构特征,通过构建原子谓词及一阶逻辑公式,构建出马尔科夫逻辑网,并在大量的实例中进行权重学习和推理,最终得到各个公式的权重,通过查询谓词从数据块中抽取目标数据信息。本文方法克服了传统方法的缺点,不仅能够有效地处理结构清晰的网页,而且能够处理包含有大量文本信息的网页。并通过两种不同的数据集上的实验,证明了本文方法无论是哪种情况下,其效果均好于传统的数据抽取方法。关键词:莩槿。琍树,马尔科夫逻辑网,模式发掘重庆大学硕士学位论文中文摘要
,,琣琣,甀.·甌,,,.瓵,甌甌,瓵瑃瓼..,.,’
,,綽觚啪篧,。·,唱,ⅱ鬿.、”.甀,瑆。琍.’
目录中文摘要⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..英文摘要⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.髀邸畔⒊槿≈J陡攀觥喙乩砺壑J都蚪椤璴赑和膚数据抽取方法⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.重庆大学硕士学位论文课题研究背景及意义⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯国内外研究现状⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯本文主要工作⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯论文组织结构⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯信息抽取简介⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯莩槿〖际醺攀觥莩槿〖际醴掷唷本章小结⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯马尔科夫逻辑网简介⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.页面预处理⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..趁嫘蛄谢基于钠捣蹦J椒⑾帧树⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.树的应用⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..
笛椤芙嵊胝雇致谢⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯参考文献⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯附录⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯本章小练⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..≒树⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯...J椒⒕∕⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯数据存储⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯