1 / 68
文档名称:

基于改进SVM模型的中文邮件过滤系统的设计与实现.pdf

格式:pdf   页数:68页
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

基于改进SVM模型的中文邮件过滤系统的设计与实现.pdf

上传人:peach1 2014/2/13 文件大小:0 KB

下载得到文件列表

基于改进SVM模型的中文邮件过滤系统的设计与实现.pdf

文档介绍

文档介绍:南开大学
硕士学位论文
基于改进SVM模型的中文邮件过滤系统的设计与实现
姓名:孙文彬
申请学位级别:硕士
专业:计算机应用技术
指导教师:吴功宜
20070501
摘要我国已经成为第二大垃圾邮件受害国,垃圾邮件的泛滥对网络安全、个人生活以及整个社会带来严重危害,因此研究垃圾邮件问题具有重大意义。邮件过滤技术是反垃圾邮件的重要手段,目前流行的垃圾邮件过滤技术包括黑白名单技术、基于规则的过滤以及基于内容的过滤技术等。由于垃圾邮件的特征不断变换,黑白名单和规则过滤方法都有一定局限性。基于内容的过滤方法从邮件正文出发,通过对邮件正文的特征分析来判别垃圾邮件。内容过滤方法往往是利用文本分类技术,主要有朴素贝叶斯算法、谒惴ā⒅С窒蛄机算法等。然而谒惴ǖ毖盗芳婺=洗笫逼湫誓岩员Vぃ铀乇匆斯算法建立在独立性假设基础之上,因此贝叶斯算法的准确率也受到限制。本文重点讨论了支持向量机算法的优点,指出支持向量机在邮件过滤方面所存在的不足,即训练阶段不同类别样本交叠所带来的分类面过于复杂的问题,以及分类阶段处于分类面之内的样本分类结果可靠性较低的问题。通过在训练阶段对样本集使用最近邻算法进行裁减,以及在实时分类阶段采用支持向量机和谒惴ㄏ嘟岷系姆掷喾椒ǎ沟弥С窒蛄炕谟始朔矫嬗懈玫淖确率。实验表明,改进后的模型对垃圾邮件有较高的识别率。利用改进的支持向量机算法模型,本文设计并实现了一个中文垃圾邮件过滤系统。该系统结合了一种较好的中文分词技术,使用作为支持向量机开发工具,在训练阶段对样本集进行最近邻裁减,降低支持向量机分类面的划分难度;在测试和实时分类阶段,使用支持向量机和谒惴ㄏ嘟岷系姆法进行分类,提高支持向量机的分类准确率。该系统对中文邮件有广泛适用性,并且有较高的实时性和良好的分类性能。关键字:垃圾邮件中文邮件分类最近邻分类支持向量机
.,,,.琖甌琣,
.琇恤餹盯’’.,
南开大学学位论文版权使用授权书彬阥月堪日学位论文作者签名:孤、文喇本人完全了解南开大学关于收集、保存、使用学位论文的规定,同意如下各项内容:按照学校要求提交学位论文的印刷本和电子版本;学校有权保存学位论文的印刷本和电子版,并采用影印、缩印、扫描、数字化或其它手段保存论文;学校有权提供目录检索以及提供关部门或者机构送交论文的复印件和电子版;在不以赢利为目的的前提下,学校可以适当复制论文的部分或全部内容用于学术活动。指导教师签名:学位论文作者签名:解密时间:本学位论文全文或者部分的阅览服务;学校有权按有关规定向国家有经指导教师同意,本学位论文属于保密,在年解密后适用本授权书。年月日各密级的最长保密年限及书写格式规定如下内部最长辏缮儆年秘密★年畛辏缮儆机密★年畛辏缮儆。一
川年虏嗜南开大学学位论文原创性声明学位论文作者签名:飘、良蛾本人郑重声明:所呈交的学位论文,是本人在导师指导下,进行研究工作所取得的成果。除文中已经注明引用的内容外,本学位论文的研究成果不包含任何他人创作的、已公开发表或者没有公开发表的作品的内容。对本论文所涉及的研究工作做出贡献的其他个人和集体,均已在文中以明确方式标明。本学位论文原创性声明的法律责任由本人承担。
第一章引言第一节研究背景第二节什么是垃圾邮件网络技术和个人计算机的发展,使得谌嗣堑娜粘I钪姓季葑旁来越重要的地位。电子邮件系统作为献钗V匾5挠τ枚晌5鼻上最繁忙的业务之一。电子邮件因其快捷、经济等特点逐渐成为人们互相联系的重要手段之一。然而,随着垃圾邮件的出现,电子邮件在给人们带来极大便利的同时,也带来了另外一个问题,这就是垃圾邮件问题。垃圾邮件的防治和过滤问题,目前已经成为互联网上仅次于病毒的第二大问题。反垃圾邮件技术因而成为近年的研究热点。年,美国的和同时在个新闻组中发布了“绿卡抽奖”的广告邮件,这一事件拉开了垃圾邮件的序幕“目前看来,垃圾邮件有如下几个特征:·未经授权即未经接收用户同意垃圾邮件一般根据自己获取的邮件地址列表,将邮件本身复制之后大量分。商业目的大部分的垃圾邮件都和商业有所联系,因此其主要目的就是营销、广告。此外,还有一部分邮件包含病毒或者非法、反动信息,这些同样是垃圾邮件。《中国互联网协会反垃圾邮件规范》中给垃圾邮件做了如下定义嘲棚:占耸孪让挥刑岢鲆G蠡蛘卟煌饨邮盏墓愀妗⒌缱涌铩⒏髦中式的宣传品等宣传性的电子邮件烤薮发
第三节垃圾邮件问题的现状及危害占宋薹ň苁盏牡缱佑始胤⒓松矸荩刂罚晏獾刃畔⒌牡缱佑始行榧俚男畔⒃础⒎⒓恕⒙酚傻刃畔⒌牡缱佑始对于个人用户,通常来说的垃圾邮件一般指未经同意接收的广告、电子期刊等宣传品。而广告类型的电子邮件是否判断为垃圾邮件又因人而异,不同的用户对于同一邮件的判定结果可能存在误差。因此我们所讨论的垃圾邮件过滤方法仅过滤那些具有大家