文档介绍:南昌大学
硕士学位论文
Web网页正文抽取方法研究
姓名:万晶
申请学位级别:硕士
专业:计算机应用技术
指导教师:白似雪
20100103
摘要提取出网页正文,避开不相关的信息干扰,对于萸逑础⑽,使用得到的网页模板去除大部分噪音信息后,结合语义,准确随着难杆俜⒄梗琖已发展为一个庞大的信息空间,为人们供了极其丰富的信息资源。然而一个网页的正文四周,通常会夹杂着许多与正文不相关的“噪音信息”,这些内容往往对人们浏览网页造成干扰。如何帮助人们的形成以及文档分类等诸多领域的应用都是非常有意义的。惴ń蟹治觯岢隽艘恢指慕杓撇⑹迪至艘桓鐾痴某槿≡拖低常⒔ǜ盟惴ㄓτ玫狡渲小惴植沽诵矶嘁延兴惴ㄖ还刈⑼辰峁够蛑还刈⑼衬谌莸牟蛔悖考虑网页的结构和内容。惴ㄔ诎淹辰馕龀蒁树的基础上,通过对鞯慕诘惚冉虾匹配,确定网页的噪音信息节点和正文信息节点,从而精确获取网页模板。当抽取正文信息。文中采用了一定的算法,定位出网页的评论、采用语义去除无关图片,能使保证正文图片和表格的完整性。实验表明,该方法可取得较高的准确率和完整性,能有效地抽取网页正文信息。关键词:网页正文;信息抽取;;
甌簍籭,.;;瓾,瑀誥,..,,
:厂刁学位论文独创性声明学位论文版权使用授权书签字日期:加弦年币晶。见融其他人已经发表或撰写过的研究成果,也不包含为获得南昌大学或其他教育学位论文作者签名中:权中国科学技术信息研究所将本学位论文收录到《中国学位论文全文数据库》,签字日期:本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。签字期:年月本学位论文作者完全了解南昌大学有关保留、使用学位论文的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人授权南昌大学可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编本学位论文。同时授并通过网络向社会公众提供信息服务。C艿难宦畚脑诮饷芎笫视帽臼谌ㄊ,唬
第滦髀问题的提出及意义重要组成部分,可以说,人类的社会活动已经离不开网络。、美观,常常会加上许多的修饰,使得网页多的灸谌菘梢灾苯永丛从趙网页。而信息正文抽取技术使得随着网络全球化的发展和个人计算机的普及,网络已经发展成为经贸、金融、教育、政府服务、医疗卫生、文化传播、大众娱乐乃至工业生产等领域的的因特网,更成为了一个全球创作的平台,任何人都可以在网络上发布信息,网页的数量也在以惊人的速度增长。根据中国互联网络信息中,淖钚报告显示,截至年底,中国网页总数超过诟觯暝龀ァ而截至年冢┛屯臼恳汛万。人们可以在因特网上寻找任何自己想要的信息。然而,因特网上虽然信息丰富,但同时又是非常杂乱的。因此出现了许多因特网信息采集辅助工具,包括搜索引擎:如,珹,萳】;离线浏览工具:如,等、信息过滤系统如拖低场系统等,。越来越多的信息以网页的形式呈现,而网页的设计也越来越复杂、多元化。更易于用户观看,或是用来帮助人们在浏览的过程中更加方便。同时,也有很多的广告链接,导航链接等也被放到网页中。这些信息却给用户带来了一定程度的干扰。随着手机等移动上网设备的普及,越来越多的人在用小屏幕进行网页浏览。不像普通的电脑显示器那么看起来舒适,有限的屏幕对网页显示的内容有着更加苛刻的要求。人们希望看到的是他们感兴趣的网页正文内容,而不是铺天盖地的广告使小小的显示设备显得更加拥挤,甚至严重影响浏览。网页正文的抽取技术对移动上网发展的推动起着不可小觑的作用。面向耐拘枰M有清晰的主题内容,而不需要太多的广告和无关链接,为了实现信息共享,很网站中来自静糠值男畔⒎⒉几泳哂蟹奖阈浴⒄攵孕院妥既沸浴很多搜索引擎有生成自动摘要的功能,在返回搜索结果的同时,标题下面一般会有一个自动生成的摘要信息。就目前的情况来看,网页自动摘要生成的
研究内容称缆鄄皇粲谡模虼嗽诔槿≌氖毙枰HコMü酝称缆厶效果不容乐观。主要原因是形成的摘要不是基于正文内容的,往往含有其它噪音信息,而使用户不能够通过判断摘要来确定是否一个网页是自己要找的而节省时间。正文内容抽取技术是自动摘要生成的前提。比如,用户在某个搜索引擎如按输入的关键字进行信息搜索时,返回结果往往成千上万。仅仅通过观察标题,有的时候还不能够确定一个网页是否是用户要找的。网页文档自动分类是诰虻霓σH挝瘛S捎诖嬖诖罅縒文档,自动对这些文档分类组织以便于文档检索和分析,是至关蕈要的。由于网络文