文档介绍:苏州大学
硕士学位论文
基于朴素贝叶斯算法的垃圾邮件过滤系统研究
姓名:魏晓宁
申请学位级别:硕士
专业:计算机应用技术
指导教师:朱巧明
20071001
基于朴素贝叶斯算法的垃圾邮件过滤系统研究中文摘要随着因特网的普及,电子邮件在人们的日常生活中扮演着重要的角色,它以快捷、方便、低成本的特性吸引了众多用户,也因此成为了互联网上最重要、,随之诞生的垃圾邮件也越来越泛滥,给用户、网络管理员和网络服务提供商带来了无尽的烦恼,收件人的时间、带宽和存储资源也被无效占用,网络链路因此造成拥塞,还被作为不良信息的载体到处散发。如何有效地抵御垃圾邮件是全世界共同面临的一道难题,也是互联网上目前急待解决的问题。现有的反垃圾邮件技术虽从邮件传输的各个阶段都进行过滤或拦截,但由于垃圾制造者在不断地采取新的方法,从而使得过滤系统过滤垃圾邮件就显得力不从心。因此,研究更为有效的垃圾邮件过滤防范系统,是具有重要现实意义的课题。针对邮件传输的不同阶段和方式,本文提出了基于多种过滤技术相结合的过滤方案,建立了一套多层次的反垃圾邮件系统。邮件过滤主要从两个方面加于设计,首先是邮件外部特征的显式过滤,分别从黑白名单、发送者邮件地址、邮件接收者地址、邮件传送途径、邮件主题等的相关信息来给予邮件的第一级过滤,如果规则过滤对邮件的判别没有起到有效作用时,则进入本系统的第二级过滤,在这级过滤中,先使用信息增益法选取特征词,建立特征库,然后将改写后的朴素贝叶斯算法用于邮件的分类,在分类过程中,采取两种类型的测度,构成二维文本空间,将文本映射为二维空间中的一个点,将分类算法看作是在一个二维空间中寻找一条分割直线,根据文本点到这条分割直线的距离来判断该邮件为何类邮件。为了能更好地实现过滤效果,在二级过滤分类后的结果中,找出分错类的邮件,将它们进行再学习,重新调整特征库,然后再次测试,经由多次反复的学习、测试,最终精确邮件的分类。本文实验中采用次交叉验证的方法,以收集的一些邮件为语料,应用朴素贝叶斯分类算法,通过训练集计算得到类别的先验概率和特征项的类条件概率,并以此为基础对测试集中的邮件进行归类判断,以准确率和查全率为指标给出了实验结
果,最终产生了一个较其它单种邮件过滤方法更为高效的实验数据。关键词:垃圾邮件过滤;朴素贝叶斯;文本分类;特征提取作者:魏晓宁指导老师:朱巧明中文摘要基于朴素贝叶斯算法的垃圾邮件过滤系统研究Ⅱ
懈瓺”.—甌痶—甀.—甌,瓺,.Ⅲ
::甀瓵,.猟甴..,;
研究生签名:..越研究生签名:』竺£学位论文使用授权声明行研究工作所取得的成果。除文中已经注明引用的内容外,本论文不含其他个人或集体已经发表或撰写过的研究成果,也不含为获得苏州大学责任。内容。论文的公布ǹ授权苏州大学学位办办理。本人郑重声明:所提交的学位论文是本人在导师的指导下,独立进或其它教育机构的学位证书而使用过的材料。对本文的研究作出重要贡献的个人和集体,均已在文中以明确方式标明。本人承担本声明的法律期:苏州大学、中国科学技术信息研究所、国家图书馆、清华大学论文合作部、中国社科院文献信息情报中心有权保留本人所送交学位论文的复印件和电子文档,可以采用影印、缩印或其他复制手段保存论文。本人电子文档的内容和纸质论文的内容相一致。除在保密期内的保密论文外,允许论文被查阅和借阅,可以公布ǹ论文的全部或部分导师签名:日
,使计算机与网络在人们的工作、学习、生活中带来了极大的方便,其中电子邮件由其快捷、方便、高效的特点已成为现代人们通信方式的重要组成部分。然而随着电子邮件的广泛普及,带来的不仅只是便利,亦带来令人担忧的网络安全问题。目前全世界每天发布的网上垃圾邮件就高达近千亿之多,这些垃圾邮件不仅占据了邮件服务器的大量存储空间,同时也侵犯了收件人的隐私,浪费了收件人大量的时间和精力,垃圾邮件已经成为当今互联网上一个颇令人头痛的问题。因此,为了保证邮件系统的正常运行和邮箱用户的利益,研究有效的邮件过滤方法势在必行。垃圾邮件是技术发展的产物,与其它先进技术一样,在为人类服务的并且你也没有订阅过,但却被人利用电子邮件的特点强行塞入你的邮箱的商业广告、产品介绍、发财之道等内容的电子邮件。通常包括下述属性的电子邮件称为垃圾邮件【浚占耸孪让挥刑岢鲆G蠡蛘咄饨邮盏墓愀妗⒌缱涌铩⒏髦中问降宣传品等宣传性的电子邮件;占宋薹ň苁盏牡缱佑始胤⒓松矸荨⒌刂贰⒈晏獾刃畔⒌牡缱佑始行榧俚男畔⒃础⒎⒓恕⒙酚傻刃畔⒌牡缱佑始胁《尽⒍褚獯搿⑸椤⒎炊炔涣夹畔⒒蛴泻π畔⒌挠始同时,不可避免的被另外一些人用作相反目的。垃圾邮件就是那