文档介绍:分类号 TP3 密级
UDC 编号
中国科学院研究生院
硕士学位论文
基于内容的垃圾邮件过滤研究
潘文锋
指导教师王斌副研究员
中国科学院计算技术研究所
申请学位级别工学硕士学科专业名称计算机软件与理论
论文提交日期 2004 年 5 月论文答辩日期 2004 年 7 月
培养单位中国科学院计算技术研究所
学位授予单位中国科学院研究生院
答辩委员会主席
声明
本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得
的研究成果。就我所知,除了文中特别加以标注和致谢的地方外,论文中
不包含其他人已经发表或撰写过的研究成果。与我一同工作的同志对本研
究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。
作者签名: 日期:
关于论文使用授权的说明
中国科学院计算技术研究所有权处理、保留送交论文的复印件,允许
论文被查阅和借阅;并可以公布论文的全部或部分内容,可以采用影印、
缩印或其它复制手段保存该论文。
作者签名: 导师签名: 日期:
摘要
电子邮件已经成为人们日常生活中通信、交流的重要手段之一,但垃圾邮件问题也
日益严峻,网民平均每天收到的垃圾邮件数量已超过了正常邮件。目前经常采用的垃圾
邮件过滤技术一般包括白名单与黑名单技术、规则过滤以及基于关键词匹配的内容扫描
等。
另外一条路线就是从电子邮件的文本内容入手,使用文本分类、信息过滤的算法,
在训练邮件集合上学习垃圾邮件分类器。垃圾邮件过滤中常用的文本分类方法有简单贝
叶斯、k-近邻、决策树、boosting 等。简单贝叶斯方法计算简便,但召回率和正确率难
以提到一个更高的层次,而且不适合于增量式的反馈学习。其他的几种方法有的效果比
简单贝叶斯好一些,但计算较复杂。本文在分析简单贝叶斯方法的基础上,试图寻找一
种速度快、计算简便、性能好、反馈学习方便的垃圾邮件过滤器。Winnow 是一种错误
驱动的在线学习线性分类算法,其在线学习的特性非常适合“一例一学”的增量式反馈,
作者将 Winnow 算法应用于垃圾邮件过滤,在公用的邮件语料上的实验表明,Winnow
的效果比简单贝叶斯方法要好,接近于 Boosting 方法。
具体的说,本文的工作主要包含下列内容:
1) 概述垃圾邮件过滤问题的研究现状。包括垃圾邮件的定义、危害以及常用的过
滤技术。
2) 介绍文本分类算法在邮件过滤上的应用,总结了常用的特征选择方法、分类算
法以及通用的邮件语料库。
3) 详细分析邮件过滤中的简单贝叶斯算法。使用 PU1 邮件语料实验贝叶斯算法的
性能,并比较特征数量、分类阈值以及语料的预处理层次对结果的影响。
4) 将 Winnow 线性分类算法引入到邮件过滤中,在 PU1 语料和 Ling-Spam 语料上
实验 Winnow 分类器,得到了较好的效果。
5) 结合简单贝叶斯算法和 Winnow 分类器,分析垃圾邮件过滤的反馈学习技术。
6) 设计了一个客户端邮件过滤系统的基本框架。
关键词:垃圾邮件过滤;文本分类;简单贝叶斯;Winnow;反馈学习;信息过滤
i
Research on Content-Based Spam Filtering
Wenfeng Pan (Computer Software and Theory)
Directed by Bin Wang
Electronic mail (e-mail) is ing one of the fastest and most economical ways of
communication available. At the same time, the growing problem of junk mail (also referred to
as “spam”) has generated a need for e-mail filtering. Nowadays, anti-spam measures
commonly include black or white list technology, manual rules and keyword based content
filtering.
Another approach is using automated text categorization and information filtering to
filt