1 / 68
文档名称:

基于Hadoop云平台的垃圾邮件过滤研究与实现.pdf

格式:pdf   页数:68页
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

基于Hadoop云平台的垃圾邮件过滤研究与实现.pdf

上传人:ijfglzx654 2014/4/7 文件大小:0 KB

下载得到文件列表

基于Hadoop云平台的垃圾邮件过滤研究与实现.pdf

文档介绍

文档介绍:江薛大擎硕士学位论文基于云平台的垃圾邮件过滤研究与实现扬鹤拯董窒壹专业名称让篡扭廑旦撞查论文提交日期至兰生莸论文答辩日期至兰生愕江菱太堂至圣生莸指导教师作者姓名申请学位级别亟±学位授予单位和日期答辩委员会主席评阅人—分类号编号
学位论文作者签名:孝、友童㈣嗍㈣㈣㈣㈣独创性声明强·抄年育机构的学位或证书而使用过的材料。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立进行研究工作所取得的成果。除文中已注明引用的内容以外,本论文不包含任何其他个人或集体已经发表或撰写过的作品成果,也不包含为获得江苏大学或其他教
桫徊学位论文作者签名:雀友隶学位论文版权使用授权书沙觐猓铷晖呷江苏大学、中国科学技术信息研究所、国家图书馆、中国学术期刊馀编入《中国学位论文全文数据库》并向社会提供查询,授权中国学术期刊版缱釉又旧缬腥ūA舯救怂徒谎宦畚牡母从〖偷缱游牡担梢圆捎影印、缩印或其他复制手段保存论文。本人电子文档的内容和纸质论文的内容相一致,允许论文被查阅和借阅,同时授权中国科学技术信息研究所将本论文盘版缱釉又旧缃ū韭畚谋嗳搿吨泄判悴┧妒垦宦畚娜氖菘狻凡⑾社会提供查询。论文的公布ǹ授权江苏大学研究生处办理。本学位论文属于不保密口。指导教师签名:
摘要在信息化时代的今天,电子邮件成为了我们日常生活中最重要的交流手段“黑白名单”、“关键字过滤”等方法在一定程度上实现垃圾邮件的过滤,然而,面对邮件用户群体的膨胀,邮件数量急剧增长,邮件种类也日益庞杂,传统的练时存在的计算与存储瓶颈。本文利用云数据挖掘技术实现垃圾邮件的过滤,立的数据集合并成易于云平台处理的大文件集合;其次,采用设计并开发了垃圾邮件过滤原型系统。系统主体分为预处理模块以及挖掘训练模块。其中预处理模块通过数据整合、数据分词、数据特征选择实现文本明:该方法能利用廉价的计算机集群代替昂贵的高性能机器实现海量邮件数据关键词:邮件过滤;籗算法;;文本分类江苏大学硕士学位论文之一,与其相伴而来的垃圾邮件也在日益增长。传统的垃圾邮件过滤技术,如邮件过滤技术已经捉襟见肘、后继乏力。云数据挖掘是将数据挖掘技术与新兴的云计算技术相结合。借助云平台对大数据的高效处理能力实现针对海量数据的挖掘,很好的解决了在海量数据训不但增强了邮件过滤方法的灵活性、高效性,也使得海量的邮件数据分类成为可能。对此,本文做了以下工作。非结构邮件数据不能作为挖掘分类的原始训练集,如何在云平台上将其转换为结构化描述,本文研究了基于的文本预处理。首先,把相对孤分布式计算方式实现并行化分词与特征选择;最后,通过计算特征词的权值,给出了邮件数据的形式化描述。传统的惴ḿ扑隳P筒皇屎显贖破教ㄉ辖型诰蜓盗罚因此,本文提出基于腟改进算法。其思想:利用绞郊扑阄谋鞠蛄炕⒔渥魑V屑涫菔迪諷算法对文本邮件的训练,得到最优决策平面,以此提高惴ǖ难盗匪俣龋沟枚海量文本邮件的挖掘分类成为可能。数据由非结构化转为结构化描述。训练模块对先求得文本向量乘积,并以此作为中间数据结合惴ㄑ盗返玫阶钣啪霾咂矫妗通过开源数据集验证了本文所提方法的可行性出及运行效率,实验结果表的挖掘过滤;并且,分类效率能随着集群规模的扩增而得以较快地提升。
基于平台的垃圾邮件过滤研究与实现
.,.瓹籺、..猻甌甌,.
曲基于平台的垃圾邮件过滤研究与实现,;籑;.:篍籋籘琩,甌右
并行化文本分词⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.目录研究目标及主要内容⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..第二章关键技术介绍⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯江苏大学硕士学位论文第一章绪论⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯研究背景及意义⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..国内外研究的现状⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯一论文的组织结构⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯。本章小结⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..云计算概述⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯一平台⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..植际轿募低场数据挖掘技概述⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯文本挖掘及预处理技术⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯本章小结⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯第三章平台中文本邮件预处理研究⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯邮件数据合并⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⑿谢卣鞔恃≡瘛并行化结构化描述⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯预处理执行流程⋯⋯