1 / 42
文档名称:

基于贝叶斯算法的垃圾邮件过滤系统的研究与设计.pdf

格式:pdf   页数:42
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

基于贝叶斯算法的垃圾邮件过滤系统的研究与设计.pdf

上传人:minzo 2014/2/26 文件大小:0 KB

下载得到文件列表

基于贝叶斯算法的垃圾邮件过滤系统的研究与设计.pdf

文档介绍

文档介绍:曲阜师范大学
硕士学位论文
基于贝叶斯算法的垃圾邮件过滤系统的研究与设计
姓名:张启宇
申请学位级别:硕士
专业:计算机应用技术
指导教师:高仲合
20060401
摘要关键词:贝叶斯,垃圾邮件,过滤,邮件解析,中文分词随着难该头⒄梗缱佑始允褂梅奖恪⒖旖荨⒘邸⒖煽康特点很快被广大网民所接受,已成为当前最流行的信息交流方式。电子邮件给我们带来便利的同时,垃圾邮件应运而生,带来了巨大的危害,因此研究和设计高效率的垃圾邮件过滤系统有着重大的现实意义。贝叶斯算法广泛应用于文本分类等领域,垃圾邮件过滤本质上是文本分类问题,因此贝叶斯算法在垃圾邮件过滤领域有着很好的应用。基于贝叶斯算法的英文垃圾邮件的过滤达到了比较理想的效果,但对中文的支持还有一定的难度。本文在对贝叶斯算法进行了比较深入的研究的基础上,。本文首先对垃圾邮件进行了的概述,并对当前垃圾邮件过滤技术进行了综合介绍。其次,对贝叶斯算法及国内外关于贝叶斯算法在垃圾邮件过滤中的应用情况进行了深入的分析与研究,设计了基于贝叶斯算法的垃圾邮件过滤模型。基于贝叶斯算法的垃圾邮件过滤得的实质是基于邮件内容的过滤,在分析了电子邮件的格式标准的基础上,提出了解析电子邮件内容的算法。最后,我们用语言和菘馍杓屏艘桓龌诒匆端顾惴ǖ垃圾邮件过滤系统,。中文分词采用的中国科学院计算技术研究所汉语词法分析系统目T创搿>馐裕低车恼仿饰ィ菷、【和睦始斯δ艿男Ч谩基于贝叶斯算法的垃圾邮件过虑系统的研究与设计
:籗籉;蛐锄啪瓻锄啪咖珼枷锄曲鏲,,甌母瑂猰,蚰锄甀埘基于贝叶斯算法的垃圾邮件过虑系统的研究与设计,猰猰,,甋Ⅱ、:、Ⅳ琤痺琣陀騜,订鴌甌¨
第一章垃圾邮件概述垃圾邮件的定义垃圾邮件的特征随着互联网的迅速发展,电子邮件成了人们相互之间交流的主要方式之一,电子邮件服务已经成为互联网最主要的服务之一。根据中国互联网络信息中心月第次中国互联网络发展状况统计报告的数据显示,.サ挠没ЬJ鞘褂玫缱有畔洹N挥诨チM舜笕让欧裰住电子邮件给大家带来巨大便利的同时,垃圾邮件也在疯狂的袭击着大家的信箱,给大家带来了诸多的不便。垃圾邮件种类繁多,内容千变万化,那什么样的邮件是垃圾邮件呢年拢泄缧胖贫恕独始戆旆ā罚⒔ɡ始义为:向未主动请求的用户发送的电子邮件广告、刊物或其他资料;没有明确的退信方法、发信人、回信地址等的邮件;利用中国电信的网络从事违反其他陌踩ú呗曰蚍裉蹩畹男形#黄渌ぜ苹岬贾峦端叩挠始年泄逃涂蒲屑扑慊ú剂恕豆赜谥浦估件的管理规定》,其中对垃圾邮件的定义为:凡是未经用户请求强行发到用户信箱中的任何广告、宣传资料、病毒等内容的电子邮件,一般具有批量发送的特征。年眨泄チM岚洳嫉摹吨泄チM岱蠢件规范》对垃圾邮件给出如下定义:占耸孪让挥刑岢鲆G蠡蛘咄接收的广告、电子刊物、各种形式的宣传品等宣传性的电子邮件;占人无法拒收的电子邮件;胤⒓松矸荨⒌刂贰⒈晏獾刃畔⒌牡缬栌件;行榧俚男畔⒃础⒎⒓恕⒙酚傻刃畔⒌牡缱佑始目的地随意性;内容虚假性和恶意性热绾胁《;没有邮件信头或使用特殊的邮件信头;没有发信人地址或使用虚假地址:邮件是经过很多的服务器转发,发信人地址的不可追踪性。基于贝叶斯算法的垃圾邮件过滤系统的研究与设计
、网络盈利为主的垃圾邮件,其内容多为产品广告、商品促销等信息。以宣传为目的的垃圾邮件,邮件的内容多为各式各样、形形色色的带有某种政治倾向或宗教色彩的“灰色”信息。以色情为内容的黄色邮件。以传播病毒为目的的垃圾邮件。越来越多的病毒通过电子邮件迅速传播,这也的确是一条迅速而且有效的传播途径。恶意邮件,恐吓、欺骗性邮件。比如,这是一种假冒网页的电子邮件,完全是一种诡计,来蒙骗用户的个人信息、账号甚至信用卡。电子杂志。很多网站的电子杂志不请自来,有的根本无法退订。垃圾邮件一直以来被认为是最经济有效的广告形式,是开拓迅速增长的直销市场的有力工具。垃圾邮件的制造和散发能够给发送者带来直接或间接的经济利益。由于其经济回报相对于其投入来说,相当可观,所以从事发送垃圾邮件的人大有人在。经济利益的驱使,是垃圾邮件泛滥的重要原因之一一些网站为了提高其知名度和访问量,制作了很多电子杂志,定时的以群发的方式发给成千上万的用户,不管用户是否订阅。这也是垃圾邮件的一个来源。协议的缺陷:简单电子邮件传输协议悄壳因特网电子邮件系统使用的基本传输协议,但缺乏安全性。协议缺乏足够的验证要求,在和命令的后面可以输入任意的参数,接收方的服务器没有足够的验证手段。这导致了假冒他人邮件缱悠燮和基于贝叶斯算法的垃圾邮件