1 / 67
文档名称:

基于PAT和MLN的Web数据抽取研究.pdf

格式:pdf   页数:67
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

基于PAT和MLN的Web数据抽取研究.pdf

上传人:quality 2014/1/14 文件大小:0 KB

下载得到文件列表

基于PAT和MLN的Web数据抽取研究.pdf

文档介绍

文档介绍:⑧基于蚆的莩槿⊙芯重庆大学硕士学位论文重庆大学计算机学院跹学生姓名:军指导教师:邢永康副教授专业:计算机软件与理论学科门类:工学二欢晡逶
’:甈甔,—
摘要域的最优匹配模式——目标模式。运用目标模式,将网页中所有匹配的数据区域随着互联网及其应用的快速发展,互联网上的数据量急剧增长,网页上的数据已经成为一个巨大的数据库,其中包含着大量潜在的有用信息,如何从中抽取出用户感兴趣的数据已经成为人们关注的焦点。莩槿〉闹饕H挝窬褪谴诱些半结构化的网页中抽取出用户感兴趣的数据,并将其转换成结构化形式,为后续应用提供数据基础。莩槿∥酥诙嘌芯空撸⒖7⒊隽烁髦指餮膚数据抽取系统。这些系统采用的方法和技术种类繁多,其采用的主要方法有:自定义开发语言、自然语言处理、机器学习、模式挖掘和本体技术等。这些系统各有所长,但是往往只能针对某些特定类型的网页进行抽取,具有很大的局限性。比如,一些基于模式挖掘的方法只能从结构清晰的网页中抽取标签之间内容,不能从标签之间的文本中抽取数据。通常目标网页中包含有大量目标数据信息,因此在形式上存在连续出现的模式,并且该模式整体上的形式变化很小。根据这一特点,本文提出了一个基于和马尔科夫逻辑网的数据抽取方法。其主要思想是,利用惴ǚ⑾制捣蹦J的能力得到潜在模式,并选出最优的抽取模式;利用这些模式将目标数据所在的数据块抽取出来,在此基础上运用马尔科夫逻辑网进行更加精细的抽取。本文所提出的方法的具体过程是,首先忽略网页中所有的文本修饰标签,只保留定义文档结构的块标签,并将整个网页转换成C扛鰐都有一个相同长度的二进制编码,按照这个对应关系将之前的;怀梢桓龆谱符串,得到该网页的半无限长字符串。此时利用惴ǎ菇ǔ龈猛车腜树,从中发掘出频率较高的潜在模式,并按照一定的筛选规则,筛选出候选模式。在用户标注训练样例的同时,从候选模式中确定出用户感兴趣的数据信息所在区抽取出来,得到目标数据块。在数据块的基础上,运用马尔科夫逻辑网对数据进行抽取。即根据数据块中目标数据的结构特征,通过构建原子谓词及一阶逻辑公式,构建出马尔科夫逻辑网,并在大量的实例中进行权重学习和推理,最终得到各个公式的权重,通过查询谓词从数据块中抽取目标数据信息。本文方法克服了传统方法的缺点,不仅能够有效地处理结构清晰的网页,而且能够处理包含有大量文本信息的网页。并通过两种不同的数据集上的实验,证明了本文方法无论是哪种情况下,其效果均好于传统的数据抽取方法。关键词:莩槿。琍树,马尔科夫逻辑网,模式发掘重庆大学硕士学位论文中文摘要
,,琣琣,甀.·甌,,,.瓵,甌甌,瓵瑃瓼..,.,’
,,綽觚啪篧,。·,唱,ⅱ鬿.、”.甀,瑆。琍.’
目录中文摘要⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..英文摘要⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.髀邸畔⒊槿≈J陡攀觥喙乩砺壑J都蚪椤璴赑和膚数据抽取方法⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.重庆大学硕士学位论文课题研究背景及意义⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯国内外研究现状⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯本文主要工作⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯论文组织结构⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯信息抽取简介⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯莩槿〖际醺攀觥莩槿〖际醴掷唷本章小结⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯马尔科夫逻辑网简介⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.页面预处理⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..趁嫘蛄谢基于钠捣蹦J椒⑾帧树⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.树的应用⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..
笛椤芙嵊胝雇致谢⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯参考文献⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯附录⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯本章小练⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..≒树⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯...J椒⒕∕⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯数据存储⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯

最近更新

2024年长春开放大学马克思主义基本原理概论期.. 12页

2024年长阳土家族自治县招教考试备考题库含答.. 30页

2024年阳西县幼儿园教师招教考试备考题库带答.. 30页

2024年陕西科技大学镐京学院马克思主义基本原.. 13页

2024年霞浦县招教考试备考题库含答案解析(夺.. 31页

2024年靖西县招教考试备考题库带答案解析(夺.. 30页

2024年马边彝族自治县幼儿园教师招教考试备考.. 31页

2024年麻栗坡县招教考试备考题库带答案解析(.. 31页

2024年黑龙江旅游职业技术学院马克思主义基本.. 13页

风电机组可靠性提升策略 35页

2025年三明医学科技职业学院单招职业适应性考.. 44页

2025年上海商学院单招职业适应性考试题库带答.. 44页

2025年上海旅游高等专科学校马克思主义基本原.. 12页

2025年上海闵行职业技术学院马克思主义基本原.. 12页

2025年中国传媒大学马克思主义基本原理概论期.. 12页

鼓胀病干细胞治疗 35页

2025年临洮县招教考试备考题库及答案解析(必.. 30页

2025年乌海职业技术学院单招职业技能考试题库.. 44页

2025年云南交通职业技术学院单招职业倾向性测.. 43页

高考数学试题难度与国家教育政策的关系 20页

2025年保靖县幼儿园教师招教考试备考题库含答.. 30页

2025年六盘水师范学院马克思主义基本原理概论.. 12页

2025年兴国县招教考试备考题库及答案解析(必.. 30页

2025年内蒙古民族大学马克思主义基本原理概论.. 13页

2025年南昌影视传播职业学院单招职业倾向性测.. 46页

2025年印江土家族苗族自治县招教考试备考题库.. 30页

高温稳定性提升方法 35页

网络延迟对预测模型影响分析 35页

2025年吉首大学马克思主义基本原理概论期末考.. 12页

2025年咸丰县幼儿园教师招教考试备考题库含答.. 30页