文档介绍:硕士学位论文基于概念集合的网页内容过滤方法的研究北京交通大学作者:王阿婷导师:毕红军年月
⋯名:半首’学位论文作者签名:主┗学位论文版权使用授权书签字日期:年以耤日签字日期:躱年月日本学位论文作者完全了解北京交通大学有关保留、使用学位论文的规定。特授权北京交通大学可以将学位论文的全部或部分内容编入有关数据库进行检索,提供阅览服务,并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅。同意学校向国家有关部门或机构送交论文的复印件和磁盘。C艿难宦畚脑诮饷芎笫视帽臼谌ㄋ得琹●
北京交通大学硕士学位论文基于概念集合的网页内容过滤方法的研究学位类别:工学硕士学科专业:信息网络与安全副教授硕士作者姓名:王阿婷导师姓名:毕红军学号:职称:学位级别:研究方向:网络内容安全中图分类号:学校代码:密级:公开
致谢本论文的工作是在我的导师毕红军副教授的悉心指导和帮助下完成的,毕红军副教授治学严谨、知识和教学经验丰富、友善热情。在确定课题方向和研究方法方面,毕红军老师给予了我细心的指导和帮助,使我获益良多。此外,在研究生期间毕老师还在生活上、思想上给予我无微不至的关怀与照顾,在此向毕红军老师表示衷心的感谢和崇高的敬意。北京交通大学网络舆论安全研究中心主任刘云教授深厚的理论功底、渊博的学识、和蔼可亲的待人方式深深地影响和教育着我,让我不仅学到了知识和科学的研究方法,还学到了很多做人的道理:特别是对学术研究执着的追求精神,对生活的热爱永远值得我学习。同时在论文撰写阶段,感谢刘云老师对我的研究工作提出了宝贵的意见、学术的指导,同时还在生活上也给予了我极大地关心和帮助。在此对刘云老师致以最诚挚的谢意。北京交通大学网络舆论安全研究中心副主任张振江副教授在整个硕士研究生攻读期间给及了我认真的指导和无私的教诲,帮助并督促我完成实验室的科研工作,在学习上和生活上也给予了我很大的关心。除此之外,从论文的选题到撰写,每一步都倾注了张振江老师的很多心血,在此表示衷心的感谢。另外感谢实验室的同学们,无论是在学习上、生活上都曾经给予我许多有益的指导和建议,在我困难的时候给予我鼓励和支持,能够生活在这样一个集体中我感到十分荣幸,这段时光将是我终身难忘的美好回忆。最后,感谢我的家人,他们的理解、支持、关心和鼓励使我能够在学校专心完成我的学业,感谢他们的无私付出,这也是我努力奋斗的强大动力。
满。中文摘要∥摘要:由于钠占昂头⒄梗死嗌缁峤肓诵畔⑸缁帷;チM谌嗣堑娜常信息交流中占据着越来越重要的地位。网页的内容逐渐丰富,涉及的领域越来越广泛,同时网页的内容形式也更加多样化,比如文字、图像、视频、音频等。而最为普遍的形式当属文字内容,是网页内容的主要载体,因此随着计算机和互联网的推广和应用,由数据处理、信息处理到知识处理,对语言文字处理要求的深度和广度越来越高。正因为文字信息如此重要,所以网页文字信息中很有可能会加入一些敏感信息,给人们的生活、甚至社会带来危害。本文主要针对网页文字信息中的不良信息进行分析,深入研究过滤方法,达到对网络信息的安全过滤。以往的网页过滤算法大多是以基于统计过滤或关键词过滤,这些过滤算法实现比较简单而且快速,但是也存在着不足,那就是:只是在字面意义上机械的理解网页内容,往往不能深入的了解,忽略了文本中的语义约束,无法有效识别带有语义倾向性的信息,最终导致过滤的效果并不理想。所以结果表明,如果要提高过滤算法的准确度,应该加入语义倾向性的判断,试图真正了解作者要表达的内容。本文利用知网和分类算法提出了一种基于概念集合的网页过滤方法。针对互联网资源的丰富性和开放性的特点,首先对网络中收集的文本进行预处理工作,即分词以及词性的标注,为过滤做准备。然后按照本文提出的概念集合算法的步骤进行各个集合的相似度匹配。由于最能表达作者观点或意图的信息往往来自于动词或者形容词,同时否定词和副词也尤其重要,所以根据本文构造的情感词典对这些词再进行匹配和分类比较,最后判断是否为敏感信息,是否需要过滤。最后对改进后的算法进行了验证,收集到政治、军事、娱乐等三个方面的信息进行计算和模板的匹配,实验的结果验证了改进后算法的可行性,证明了能够有效改善网页过滤的效果,对于敏感信息能起到一定程度上的检测效果,并对检测结果进行了分析。由于信息类别的不同,通常计算结果的查准率和召回率会有关键词:网页过滤;知网;语义相似度;情感倾向性;掷喾椒ǎ概念集合分类号:所不同。’
.瑅,甌吒,珻鷐甀,,瓸,.痗瑆,,,琫甌,,甋瑃,琺琺甌,.:’甀,獁瓵瓵.、.
鷉:.;;;篢、≈
目录中文摘要⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..引言⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.研究背景及意义⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯