文档介绍:山东师范大学
硕士学位论文
基于遗传算法的网络信息过滤模型研究
姓名:刘玉国
申请学位级别:硕士
专业:计算机软件与理论
指导教师:刘培玉
20060420
摘要据库,我们已经进入了一个“信息爆炸”的时代。信息增长带来了双面的效应。一方面,用户另一方面,由于因特网信息的开放性、个人化,一些不法分子利用计算机网络复制、传播和过滤模型的查全率和查准率两个主要技术指标,在如下几个方面进行了研究和探讨:⒍酝缧畔⒐说难芯勘尘昂脱芯肯肿醋隽朔治觯髁诵畔⒐送畔⒓焖鞯墓叵担滤的研究目前以核心算法为主,算法研究集中在特征抽取与过滤算法。特征抽取的目的在于使用最少的特征表示出文档的含义。算法研究主要有两个趋势:第一个趋势是传统的关⒍酝缧畔⒐说墓丶际踅辛朔治霰冉稀介绍,研究发现基于词典的分词算法的分词效果优于无词典的分词算法。对常用的特征提方法才能得到较好的提取效果。对常用的文本表示模型布尔逻辑模型、向量空间模型、概率推理模型进行了分析,并阐明上述模型的优缺点。对常用的文本分类算法椒ā⑻岢隽嘶谝糯惴ǖ耐缧畔⒐四P汀基于遗传算法的网络信息过滤模型与传统的信息过滤模型相比较,主要有以下创新点:第一,提出了用户兴趣模型的遗传校正算法。第二,对传统的用户兴趣模型与待过滤文档的修改用户兴趣文件的迭代算法。最后对四种网络信息过滤模型布尔逻辑模型、向量空间模型、概率推理模型和基于遗传算法的模型进行了实验模拟,实验结果说明基于遗传算法的信息过该系统主要由纳赡?椤的重建模块、数据包捕获模块、网络协议分析模块、过滤模块五个模块组成。从适当的减小分类特征向量的长度、减少系统捕获的原始数近年来,随着以因特网为主体的信息高速公路不断普及和发展,信息技术已经渗透到我们社会生活的每个角落,它正在以前所未有的速度和能力改变着我们的生活和工作方式,因特网上的数据与信息也以前所未有的速度剧烈膨胀,成为当今世界上最大的分布式数可以从因特网上获取丰富的、最新的信息,从而在学习、消遣的过程中充实自己、提升自己;查阅一些色情的、种族主义的、暴力的、封建迷信或有明显意识形态倾向的信息,这些信息对社会的危害极大。如何过滤掉与自己需求无关的信息,快速准确的获得所需信息并免受非法信息侵扰,已经成为当前互联网发展研究的一个重点。本文主要研究网络信息过滤问题,内容涵盖了网络信息过滤的各个处理阶段,围绕信息出了信息过滤效果的评价指标。本文首先对网络信息过滤的研究背景和研究现状进行了分析,指出国内外有关信息过键词匹配方法逐渐的被较复杂地自然语言处理技术所取代。第二个趋势是用户模型的手动输入逐渐的被自动的机器学习所取代。其次指出信息过滤与信息检索如同硬币的正反面一样,既有区别,又有联系。最后对信息过滤效果的两个评价指标查全率和查准率做了研究,并指出了二者的相互关系。对中文自动分词进行了研究探讨,对基于词典的分词算法和无词典的分词算法进行了取方法文档频率、信息收益、互信息、开方拟合检验⑹跤锴慷行了研究,指出其提取效率的高低为⒉髯酆显擞枚嘀痔卣魈崛辉W罱诰臃椒ㄒ约癗方法进行了研究,通过实验发现在采用向量空间的文本表示模型中,椒ň哂薪虾玫姆掷嘈Ч匹配算法了进行了研究改进,提出了一种新的匹配算法。第三,提出了利用相关度反馈技术滤模型和传统的信息过滤模型相比在查准率和查全率方面都有了明显的提高。⑸杓剖迪至嘶谝糯惴ǖ耐缧畔⒐讼低场山东师范大学硕士学位论文
据包的数量、减小进行文本匹配的文本信息的长度三个方面对其进行了性能优化。网络信息过滤系统作为一个单独的监视节点或者作为网关软件的一部分,具有较高较好的处理性能,该系统采用了三级过滤机制:内核过滤、特定信息域过滤、文本特征向量过滤。经测试,该系统运行可靠、稳定、高效,使用方便,能够对网络信息进行有效的过滤。分类号:关键词:网络信息过滤,信息过滤模型,遗传算法,相关度反馈,用户兴趣文件山东师范大学硕士学位论文
.,:,瑃篋,琋..,.琧琾痵,琇琾,.
瑀,琲瑂,山东师范大学硕士学位论文:琾..琾’,疭,.琾瑀甆甌,瑂瑃瓵瑃簄琯,:
烈对膨学位论文作者繇卅学位论文作者繇叫王闺关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人授权』塞墼可以将学签字日期:、使用学位论文的规定,有权保留并向国家有本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。掘我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得ⅲ喝缑挥衅渌枰L乇鹕鞯模纠缚煽或其他教育机构的学位或证书使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论