文档介绍:北京化工大学
硕士学位论文
基于向量空间模型的网页过滤研究
姓名:李中原
申请学位级别:硕士
专业:计算机应用技术
指导教师:杨守文
20100525
基于向量空间模型的网页过滤研究摘要随着网络信息技术的飞速发展,用户可以通过网络方便快捷地利用海量的共享信息,同时“信息爆炸”、“信息过载”、“信息垃圾”等很多问题日趋严重。而且那些无用或者有害信息的信息量远远超过了我们所需要的信息量,这给人们带来了很多不便。如何准确地表达用户需求,进而在大规模的信息流中自动地筛选出满足用户需求的信息并过滤掉无用信息和不良信息,使人们更有效地利用信息资源,已经使我们亟待解决的问题。基于以上存在的问题,本文提出了一个基于局域网中的信息过滤研究的课题。它不仅可以实现不良网页的过滤,也可以实现基于兴趣主题的网页过滤。本文介绍了网页文本过滤的发展现状、信息过滤的方法,并详细讨论了在网页文本过滤中所用到的关键技术及其实现的过程。基于网页的过滤研究,本文是采用了分级过滤的策略,首先是对流经网关的数据包实行基于和关键字的过滤技术,然后重点论述了基于鞯耐痴某取的实现过程和基于内容的过滤技术。对于网页正文的提取部分本文实现了基于鞯恼奶崛》椒āK褂没芄桓葑约旱男枰I瓒ú问并得到想要的结果,这样网页内容的提取结果不随网页结构的变化而变化。基于内容的过滤技术包含两个重要部分,即对网络数据信息的处理部
分和对网页文本的信息处理部分。对网络数据信息的处理部分,本文主要论述了基于腤下数据包的捕获,通过对椤协议、消息的分析,过滤掉不包含№氖莅缓笫迪忠种链表重装的数据包还原算法把网页还原出来,同时在基于关键字过滤的过程中,本文采用了改进后的多关键字匹配算法,即基于协议分析的多关键字匹配算法,可以提高匹配效率。在网页文本的处理部分,主要对网页正文的提取进行了实现和文本表示进行了改进。针对网页这种特殊的文档,本文用改进的向量空间模型来表示文本。本文就是通过依次提取模板中的特征词,在网页文本出现的位置进行精确处理,避免了对整篇文档进行处理,尤其是当信息流中非相关文档多于相关文档以及大文本数据的处理,可以大大提高网页处理时间和精确度。最后,本文论述了对用户模板的学习,采用了改进了惴ɡ锤履0澹岣吡送彻说木率。关键词:向量空间模型,网页正文内容抽取,谋颈硎北京化工大学硕士学位论文
”瑃¨¨,¨瓵,.猻甀.
.,.琻,,猭,瑃,瑃瓹甌,,.,北京化工大学硕士学位论文
,琩;瑆.,簐’
雄保密论文注释:本学位论文属于保密范围,在土年解密后适用本授垄幺::所呈交的学位论文,是本人在导师的指导下,独立进行研究工作所取得的成果。除文中已经注明引用的内容外,本论文不含任何其他个人或集体已经发表或撰写过的作品成果。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。作者签名:关于论文使用授权的说明学位论文作者完全了解北京化工大学有关保留和使用学位论文的规定,即:研究生在校攻读学位期间论文工作的知识产权单位属北京化工大学。学校有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许学位论文被查阅和借阅;学校可以公布学位论文的全部或部分内容,可以允许采用影印、缩印或其它复制手段保存、汇编学位论文。权书。非保密作者签名导师签名论文不属于保密范围,适用本授权书。日期:
第一章绪论网页文本过滤的发展与现状研究随着难杆俜⒄梗绺嗣谴戳撕芏啾憷5侨嗣窃谙硎芩的方便快捷的同时,会被其中的海量的信息所淹没,要在浩瀚的信息中找到我们所要的资源变得非常困难。一方面是在这种海量信息中甚至还包含了一些不健康的信息泄乇┝Α⒎缸锖蜕榈,这些都威胁到人们的信息安全。屏蔽这些非法的不良信息,保护用户的信息安全和合法权益,成为当前信息时代的重要任络信息过滤的当务之急,采用信息过滤的方法有选择性地传播和利用信息变得越来越重要。与此同时,随着计算机科学技术的日益进步,人们对信息处理技术提出了更高的要求,需要智能化的信息处理工具,来处理出现的“信息垃圾“信息过剩”现象。信息过滤技术作为上述问题的有效解决方法:没Э梢灾反动信息等4车墓思际醪煌夂蹙褪且韵铝街郑赨的过滤和基于关的网站有可能被误判为色情网站。但它们又是必不可少的过滤方式,可以作为现有过滤方式有益的补充。相比这些传统的过滤技术,更加智能化的信息过滤系统是我们拭目以待的。课题目标是研究网关上的实时内容过滤和文本过滤等相关技术,设计实现一个基于控制网关的谋拘畔⒐讼低场U庵中碌淖允视度,因此更适应于肪车墓艘G蟆随着计算机技术的快速发展,网络过滤由最初的设想变成了现实,并且在不断地发展和完善。年,提出了“商业智能机器”的设想,在这个概念框架中,图书