文档介绍:主题型网页的信息抽取技术研究广西大学硕士学位论文婴欧杰学位授予日期生鱼旦旦王选速塾拯刻俊副教援巫瞳笾副熬援分类号论文答辩日期生§厘旦答辩委员会主席论文评阅人
论文作者签名:妊导师签名—细Ⅻ蜂‘月劲日/嗍螋煅论文作者签名::所呈交的学位论文是在导师指导下完成的,研究工作所取得的成果和相关知识产权属广西大学所有,本人保证不以其它单位为第一署名单位发表或使用本论文的研究内容。除已注明部分外,论文中不包含其他人已经发表过的研究成果,也不包含本人为获得其它学位而使用过的内容。对本文的研究工作提供过重要帮助的个人和集体,均已在论文中明确说明并致谢。本人完全了解广西大学关于收集、保存、使用学位论文的规定,即:按照学校要求提交学位论文的印刷本和电子版本:学校有权保存学位论文的印刷本和电子版,并提供目录检索与阅览服务;学校可以采用影印、缩印、数字化或其它复制手段保存论文;在不以赢利为目的的前提下,学校可以公布论文的部分或全部内容。请选择发布时间:口即时发布口解密后发布C苈畚男枳⒚鳎⒃诮饷芎笞袷卮斯娑
主题型网页的信息抽取技术研究摘要随着互联网络技术的发展,万维网作为一种新兴的信息媒介已经越来越多的渗入到社会的经济、文化、教育以及娱乐等各个领域,并作为其中的重要组成部分,改变着我们的工作和生活。主题型网页作为万维网中最主要的网页类型之一,主要包括了新闻网页、论坛⒉┛腿掷嘈偷网页,其中的论坛和博客网页,由于它们包含了丰富的社会舆论信息和各个领域的知识,如同一个巨大的信息库,而受到了人们广泛的关注。因此,研究针对主题型网页的信息抽取技术将有助于人们更充分的利用这个信息库,无论是对社会学的研究、或是对网络舆情收集还是进行数据挖掘、知识发现都具有重要的贡献意义。本文在主题型网页信息提取方面做了以下研究:疚奶岢隽艘恢止浪阃惩计畔⒘亢屯计行畔⒘康姆椒ǎ以此为基础提出了一个基于图文信息量的网页正文定位算法。通过对网页中最小正文子树的定位,以达到去除网页中的噪音的目的,并且通过实验验证了该算法具有较好的去除网页噪音的效果。攵砸酝持衅缆鄯⑾址椒ㄖ械牟蛔悖岢隽艘恢中碌幕诤笞菏的网页评论算法,该算法综合考虑了网页标签的视觉信息与的层次信息,在不需要进行网页人工标注、比较邮鞯南嗨贫和人为设置阈值的情况下,也能够对网页中的评论信息进行自动抽取。经.
过试验验证,该方法能够达到一个较好的准确率和查全率。关键词:信息抽取主题型网页图文有效信息量重复模式评论发现
睑瓸甌..猙珺,甌; 琧,’瓵
篿;猵’,—甌.;籭猵’
第一章绪论⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..录摘要⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.螩甀研究背景⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.主题型网页信息抽取算法的研究现状⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯...谧匀挥镅缘男畔⒊槿∷⒊槿∷惴ā目第二章基础知识和相关
.⒘⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.本章小结⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.第四章基于后缀树的主题型网页数据区域发现与抽取⋯⋯⋯⋯⋯⋯⋯⋯引言⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..相关算法研究⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯主题型网页结构的特点⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..昵┯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..总结⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..展望⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..参考文献⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯致谢⋯一.⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯攻读硕士学位期间参加的科研项目⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..攻读硕士学位期间发表/录用的学术论文⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯
第一章绪论研究背景在当前,万维网作为一种新兴的信息媒介已经越来越多的渗入到社会的经济、文化、教育以及娱乐等各个领域,并作为其中的重要组成部分,改变着我们的工作和生活。根据文献『统计显示,截止至年月底,我国网民规模达到冢缰写嬖诘网页数量更是急剧增长,,如何从浩瀚的网络中迅速的找到人们所需的内容成为了一个迫切需要解决的问题,因此,网络中出现了很’多搜索引擎用以帮助人们实现快速的从网络中检索出所需内容的目的。虽然目前人们通过搜索引擎可以较为方便的查询网络当中的信息