文档介绍:研究生签名:室墨壁垒研究生签名:牢妹旯隆奕琭年塞学位论文使用授权声明声明本学位论文是我在导师的指导下取得的研究成果,尽我所知,在本学位论文中,除了加以标注和致谢的部分外,不包含其他人已经发表或公布过的研究成果,也不包含我为获得任何教育机构的学位或学历而使用过的材料。与我一同工作的同事对本学位论文做出的贡献均已在论文中作了明确的说明。汐南京理工大学有权保存本学位论文的电子和纸质文档,可以借阅或上网公布本学位论文的部分或全部内容,可以向有关部门或机构送交并授权其保存、借阅或上网公布本学位论文的部分或全部内容。对于保密论文,按保密的有关规定和程序处理。
摘要关键词:信息过滤,模糊分词,同属性约简,粗糙集,特征矩阵随着社会的发展,互联网已成为信息传播和获取的重要平台,为我们进行信息交流提供了极大的便利。与此同时,互联网也成为发布虚假信息、滥发商业广告、随意侮辱他人、滥用信息技术、进行网络欺诈等犯罪行为滋生的载体,因此畔⒐顺晌5前网络安全领域匾待解决的问题之一。考虑到畔⒕哂幸趁婕妒蟆⑿畔⒁蔚忍点,本文采用粗糙集相关知识来解决畔⒐说奈侍狻按照信息过滤的流程,畔⒐税ㄐ畔⒉杉⒐菇ㄓ没枨竽0濉⑹粜栽技颉规则提取、信息过滤以及主动学习等过程,本文对构建用户需求模板、属性约简及规则提取三个部分进行了重点研究。在样本选择过程中,传统的约简算法采用的样本实例数和维数通常较低,缺乏真实性,因此本文利用网络爬虫从互联网采集真实的页面作为算法的样本。在构造用户需求模板阶段,本文首先提出模糊分词思想并与过去的扫描分词法结合形成二次分词,从而更好地挖掘隐蔽的非法信息;其次为了缓解二次分词的较大系统压力,本文给出主从式分词系统,利用痳枷虢ǚ执嗜挝穹纸獾蕉喔鲎咏岬阃处理;最后整理驶阄谋竟乖煜蛄靠占淠P汀T谑粜栽技蚪锥危攵匝拘畔⒘大且不同类别样本间特征离散严重等特点,本文提出了一种同属性约简算法;该算法构造特征矩阵,利用重叠率有效地达到降维目的。在规则提取阶段,分析前人算法并结合同属性约简算法得到的约简结果特点本文提出同值约简算法,该算法去除决策表中冗余属性值,并且去除其中的重复和蕴含关系得到最终的过滤规则。对于规则匹配,本文深化扩展传统的布尔逻辑模型/泶铮攵莆辉算思想,大大提高了匹配效率同时又不会丢失关键特征幢昙俏猯的二进制位W后本文将上述流程封装成过滤层嵌入到开源框架校略龉斯δ芡晟破湓单纯的搜索功能。另外由于过滤规则库较大,本文提出对二进制规则串切割并建立索引,提高了查找和匹配的效率。硕畚基于粗糙集理论臼
甌琲,,琹,.瓼,..基于粗糙集理论的畔⒐思际跹芯瑆’,,..,猼,猻,,琲琣瑃疭硕畚
,:
录目摘要...............................................................................................................录.......................................................⋯......................................................,,璮言......................................................⋯..........................................................植诩砺鄹攀鲇肜┱埂趁娌杉胫形姆执省畔⒐说谋尘坝胍庖濉畔⒐⒐顺S眉际醣冉稀论文的主要工作和组织结构⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..基本概念与定理⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.难芯恐氐阌胗τ昧煊颉本章小结⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯趁娌杉中文分词⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..执仕惴ǚ治觥.:执仕枷搿中文分词系统⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯:⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..壳暗姆执氏低场结构分析⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯................................................⋯.............................................................硕£论文基于粗糙集理论的畔⒐思际跹芯
植诩粜栽技颉嬖蛱崛∮胂低成伞崧郏#####!#!!