文档介绍：中国科学技术大学
硕士学位论文
基于DOM树的web新闻正文抽取技术的研究与实现
姓名:王选
申请学位级别:硕士
专业:管理科学与工程
指导教师:王卫平
20100401
摘要随着的发展,目前的网络已经是一个巨大的数据存储仓库。闻是现代人们获取信息的重要源泉。但是互联网中的信息与噪音几乎是并存的。为了从这个巨大的数据存储仓库中获得相关的信息,国内外已经做了很多研究。一种是直接定位网页正文内容。在这篇文章中综合使用这两种方法来抽取网页新由于网页自身的特征,每个网页都可以转化为一棵树。所以对网页的操作可以转化为对树的操作。算法是计算两个树相似度的传统方法,这里对惴ń懈慕蛊淇梢远怨享公共抽取路径的网页进行自动聚类。本文通过网页分块和网页信息化的度量来法开发了一个基于在线新闻的正文抽取系统。本文的实验是基于在线的新闻网关键词:网页简单树匹配鞴ü渤槿÷肪目前通用的抽取网页新闻正文的方法主要有两种:一种是过滤网页中的噪音,另闻的正文。定位主文本信息的位置。本文的方法可应用在结构化的网页。本文使用自己的算站,结果也证实这个算法比算法有效。狣‘
.,..,,.’..’¨
皂之季中国科学技术大学学位论文原创性声明中国科学技术大学学位论文授权使用声明口保密!D本人声明所呈交的学位论文,是本人在导师指导下进行研究工作所取得的成果。除已特别加以标注和致谢的地方外,论文中不包含任何他人已经发表或撰写过的研究成果。与我一同工作的同志对本研究所做的贡献均已在论文中作了明确作者签名:作为申请学位的条件之一,学位论文著作权拥有者授权中国科学技术大学拥有学位论文的部分使用权,即:学校有权按有关规定向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅,可以将学位论文编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。本人提交的电子文档的内容和纸质论文的内容相一致。保密的学位论文在解密后也遵守此规定。签字日期:导师签名:的说明。口公开
第滦髀本文的选题背景国内外研究现状及存在问题随着互联网的发展,互联网的信息量成几何级数增长。人们获取新闻的主要方式自然也由传统报纸转变为网络或者手机等工具。只要打开相关网站的相关网页就可以阅读相关的内容。但是网页上展示给人们的信息十分的繁杂。除了人们想阅览到的信息外还有很多如导航信息,广告和其它与主内容不相关的信息。许多读者并不希望看到这些不相关的信息。特别在按流量计费的时候,读者更不希望任何不相关的信息被加载进来。因此如何抽取网页新闻正文成为一个国内外研目前许多新闻网站都是预先设计一个显示模板,然后从后台数据库取相关数据来填充模板。因为有相同的模板,所以来自同一个新闻网站的网页结构几乎完全相同。因此很多研究试图去检测和发现模板,通过分析模板来得到要抽取的信息。检测模板的方法也多种多样。而另一些研究试图不去考虑模板使用其它的方法来抽取信息。但是在实际工作中各种各样的噪声如:导航信息、广告信息、版权信息、关于我们信息等等,严重影响了网页新闻正文的抽取。本文就是通过研究新闻网站的模板结构,来抽取相关的正文信息。如何从网页中抽取出相关信息国内外已经做了很多研究工作。蚐分别提出了基于自然语言的抽取方法,此方法是把传统的信息抽取技术直接应用在网页上。它主要是通过语句之间的关系来建立抽取规则,然后根据语法和语义来确定目标信息的位置。这种方法的主要缺点是没有考虑网页的结构特征,不能抽取复杂对象。、和使用闯槿⊥承息内容。这种方法可以通过归纳的方法对文档信息进行自动抽取,但是它只能针对特定的标签进行抽取,所以扩展性比较差。、、蚐褂没贠椒ǎ揽渴荼旧淼拿述来实现抽取工作。这种方法的主要缺点是需要领域专家参与,扩展性也比较差。由于每个网页可以通过网页解析工具解析成一棵树,所以提出了使用算法来计算两个究的热点。、
树之间的距离来对网页进行聚类分析。算法是建立在树编辑距离基础之上。由于它把树的编但可以从一个给定的网站中抽取相关的正文,而且可以获得整个网站内容和过滤骼椿袢≌惴ǎ褂眯畔⒅滴C扛鼋诘阍黾恿巳ㄖ亍H界。它使用了可视化信息与有效文本信息来定位正文。但是在实验中发现由于空本论文的主要工作和内容安排辑操作都限定在叶子部分,所以在一定程度上比树编辑距离简单。算法不无用的信息。甕介绍了一种叫做文。但是使用这种方法获取的正文中也可能包含噪音。.薷而本文认为当相似度为ナ闭庵址椒ú荒芗觳馊魏瓮场甋瓾琘褂猛臣疲峁梗墒硬季值确椒ɡ醇觳饽0濉:芏嘌芯空咭彩酝通过对网页进行分块或者通过模仿人类的视觉来抽取信息。畓,...磍岢鲆恢帜D馊死嘈形5姆绞嚼闯槿≌模皇且揽磕0濉瓹使用信息量来检测一个论坛中提交内容与评论内容之间的边白区域或者其它标记可能影响文本的抽取结果。.岢鯲惴ǎ饕J窃谑泳