文档介绍::.
学位论文作者::年万月弓/日日期:畂晁暝鹿学位论文作者:.,均已在文中以明确方式标明。本声明的法律责任由本人承担。本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立进行研究所取得的成果。除文中已经注明引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写过的科研成果。对本文的研究作出重要贡献的个人和集本人在导师指导下完成的论文及相关的职务作品,知识产权归属郑州大学。根据郑州大学有关保留、使用学位论文的规定,同意学校保留或向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅;本人授权郑州大学可以将本学位论文的全部或部分编入有关数据库进行检索,可以采用影印、缩印或者其他复制手段保存论文和汇编本学位论文。本人离校后发表、使用学位论文或与该学位论文直接相关的学术论文或成果时,第一署名单位仍然为郑州大学。保密论文在解密后应遵守此规定。。
摘要方法是一种基于信息论的数据分析方法,其将数据模式分析视为一个数据压缩的过程。若给定源变量与相关变量的联合概率分布,方法在对源变量进行压缩的同时,可使得压缩变量最大化地保存相关变量的信息,进而有效的发现数据集内所隐含的内在模式。方法被广泛应用于需进行特征提取和信息压缩的领域,且均得到了较好的结果。垃圾邮件问题是困扰人们同常生活和学习的严重网络问题,给人们带来了很多不便。目前常用的垃圾邮件过滤方法由于没有充分考虑到不平衡类特征描述特殊化的问题,不能很好的对作为稀有类的垃圾邮件进行特征提取,因此难以得到优秀的过滤效果。如果使用已有算法提高垃圾邮件类的分类准确率,就要以牺牲召回率为代价,反之亦然,因此构建一个最大化准确率和召回率的模型是垃圾邮件过滤算法的一个主要挑战。针对垃圾邮件过滤过程中召回率、准确率不能同时提升的问题,本文提出了基于方法的单类垃圾邮件过滤算法。该算法将垃圾邮件过滤问题转化为单类分类问题进行求解,并使用基于方法的信息损失函数对单类进行特征提取。将垃圾邮件过滤问题转化为单类分类分类问题,使训练数据来源于单一数据源,能够有效地避免噪声对训练过程的影响;使用方法对垃圾邮件类进行特征提取,利用互信息可以提取与垃圾邮件相关性最高的一些属性特征,并为垃圾邮件类构造高效的压缩代表,解决了稀有类描述高度特殊化的难题。为了验证基于椒ǖ牡ダ嗬始朔椒ǖ挠行裕疚慕溆肫铀乇匆端狗掷嗥饕及椒ㄔ贚数据集上作对比。实验结果表明,本文的方法不仅能够实现召回率、准确率的同时提升,而且显著降低了垃圾邮件错判和漏网的比例。关键词方法单类分类问题垃圾邮件过滤摘要
瑃,.,甀琣瑃,,.瑃瓽琁’甌甌瑂
背景知识......⋯.⋯...⋯.........⋯⋯......绪论⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.基于方法的单类分类算法⋯⋯⋯⋯..⋯⋯⋯⋯.实验与性能分析⋯⋯⋯⋯..‘⋯⋯⋯⋯⋯⋯⋯...目录研究背景和现状⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯本文工作概述⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..本文内容与结构⋯⋯⋯⋯.:⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.相关定义⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯方法⋯⋯.;⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.单类分类问题⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.垃圾邮件过滤问题现状⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.....垃圾邮件过滤问题与单类分类问题的联系⋯⋯⋯⋯⋯⋯⋯.基于方法的单类垃圾邮件过滤算法⋯⋯⋯⋯⋯⋯⋯⋯.实验数据集⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.ⅰ⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..
芙峒拔蠢垂ぷ髡雇参考文献⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..致谢⋯⋯.⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯个人简历、在学期间发表的学术论文与研究成果⋯⋯⋯⋯..特征选择方法⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.实验评估方法⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.实验设计⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..实验结果分析⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.四种形式语料对实验结果的影响⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..
绪论研究背景和现状方法用源变量和相关变量的联合概率分布对源变量进行压缩,使压缩变量最大化地保存了相关变量的信息,因而其被广泛应用于需进行特征提取和信息压缩的领域,且均得到了较好的结果。本文将方法应用于对垃圾邮件类的特征提取过程中,针对垃圾邮件过滤过程中召回率、准确率不能同时提升的问题,提出基于方法的单类垃圾邮件过滤算法。该算法将垃圾邮件过滤问题转化为单类分类问题,并基于方法为垃圾邮件