1 / 8
文档名称:

垃圾邮件分类算法的研究和分析.doc

格式:doc   大小:139KB   页数:8页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

垃圾邮件分类算法的研究和分析.doc

上传人:pppccc8 2019/12/15 文件大小:139 KB

下载得到文件列表

垃圾邮件分类算法的研究和分析.doc

文档介绍

文档介绍:垃圾邮件分类算法的研究与分析西北工业大学计算机学院陕西西安710129(puter,NorthwesternPolytechnicUniversityXi'an710129China)摘要:随着互联网的高速发展,电子邮件已经成为人们信息获取和信息交流的一个重要的渠道。与此同时垃圾邮件也成为互联网上的一个日益严重的安全问题,引起了越来越多的社会大众和研究人员的重视和关注。为了冇效的分辨垃圾邮件,木文通过对训练数据进行相应的预处理及特征捉取,分別使用朴素贝叶斯、、支持向量机三种方法來对垃圾邮件进行分类,通过测试结果,比对各个分类算法的优劣,并进行了详细的分析。关键词::,e-mailplaysanimportantrolesinpeople'essandinformationexchange・Atthesametime,,munityandreseiirchers・Inordertoeffectivelydistinguishthespam,thispaperPre-processingsandextractsfeatureofthetrainingdata,andusestheNaiveBayes,,pareandanalysistheadvantagesanddisadvantagesofeachclassificationalgorithm・,网络技术的飞速发展促进了邮件服务的广泛普及及繁荣,电子邮件已经成为生活在信息时代的人们日常生活一个重要部分。电子邮件不仅是一个信息交流的重要渠道,而且也是人们信息获取的重要途径乞一。随着互联网的普及,不仅人们的日常事务可以通过电子邮件来进行处理,而且越來越多正式和重耍的信息也通过电子邮件來进行传达和交流。随着电子邮件越来越普及和重要性的持续增长,一些商家和不法分子开始利用垃圾邮件这种方式来进行广告信息的传播和用户消费行为信息的获取。根据无线服务机构WirelessServicesCorporation公司提供的一份最新调査显示,H前美国移动通信市场上所有的电子邮件服务当屮,43%的都是垃圾信息,而年前垃圾邮件在电子邮件屮的比例为18%.而在国内,据冇关部门统计,国内的电子邮件用户,平均每天发送的短信数量超过了3亿条。邮件甚至被称为继报纸、广播、电视、网络Z后的第五媒体。不过在数量庞大的电子邮件背后,垃圾邮件的问题也愈加严逼。垃圾邮件可以说是因特网带给人类最具争议性的副产品之一,它的泛滥已经使整个因特网不堪重负,人们不得不花费大量时间来对付邮箱里的垃圾邮件。在这样的情势下,的一个重耍课题,而对丁-反垃圾邮件技术的研究也称为一个新的热点领域。木文根据现冇邮件分类的知识,结合训练数据集的特点,选择合适的分类算法,來实现对垃圾邮件的分类。2相关工作本文垃圾邮件的分类工作主要包括以下三个部分:文本数据预处理,数据集特征选择,分类算法的应用及结果分析。,编写程序,提取数据集中所冇单词及对应的频率,并更改数据格式,以矩阵的形式存储。初步处理过后