文档介绍:摘要年代以来,随着互联网的普及,电子邮件成为互联网上最大的应用,也成为人们工作生活最重要的交流工具之一。随之出现的垃圾邮件问集了喾庥始⒘擞锪峡狻T僭谡飧鲇锪峡獾幕∩辖醒芯浚将邮件文本特征向量化,利用支持向量机文本分类算法进行二值分类,类算法相比,它较好的解决了局部极小,训练样本过少引起的过学****以及维数灾难等问题,具有坚实的理论基础。论文首先收集了有较好代表力的邮件集合,在进行有效的预处理、特征向量化之后,利用支件,减小了错误代价,具有比较好的实用意义。邮件文本表示成数字化的特征向量的功能,为本文研究提供了可靠的实验平台,并为开发实用的垃圾邮件过滤系统奠定了基础。垃圾邮件文本分类中文分词垃圾邮件过滤是互联网领域内~个重要的研究课题。自上世纪题成为互联网上的第二大公害。各国电子邮件服务商和学者纷纷尝试各种方法进行垃圾邮件过滤。使用的方法从简单的黑、白名单方法,琒等模式识别领域的文本分类技术层出不穷。目前,国内对垃圾邮件的过滤,尤其是中文垃圾邮件的过滤尚处于起步阶段。除了借鉴国外的垃圾邮件过滤技术之外,中文垃圾邮件过滤问题还存在中文分词问题。随着互联网进一步深入人们的生活,如何识别、过滤垃圾邮件成为界、邮件服务提供商迫切需要解决的问题。本文针对国内中文垃圾邮件过滤研究缺乏语料库的问题,首先收并根据邮件过滤中代价不对称问题对支持向量机算法进行了支持向量机是统计学****理论的新发展,与朴素贝页斯等传统的分持向量机算法和代价敏感的支持向量机算法对样本进行训练和分类测试。实验表明,该算法在中文邮件集合上取得了非常高的分类准确率。代价敏感的支持向量机算法有效的防止了将合法邮件错分成垃圾邮同时,结合中文分词,特征提取等垃圾邮件过滤问题中的关键技术,本文设计开发了一个垃圾邮件过滤预处理系统,该系统实现了将关键词:特征提取支持向量机.—慕到摘要
知识水坝***@pologoogle为您整理
簊瑃琒瓵甶疭甅甴疻—甋..畐.,“..瑃琲瓻瑃.·—.,.瑆,甀.,,琧猻.’.琣瓵,
知识水坝***@pologoogle为您整理
日期:——年一月~日独创性声明本人签名:本人声明,所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成慕。尽本人所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成集,也不包含为获得北京交通大学或其他教学机构的学位或证书两使用过的材料。与我~起工作的同志对本研究所傲的任何贡献已在论文中作了明确的说晒并表示了谢意。
⒄瓜肿匆约捌湮:收件人事先没有提出要求或者同意接收的广告、电子干铩收件人无法拒收的电子邮件;隐藏发件人身份、地址、标题等信息的电子邮件;电子邮件是互联网上最大的业务,也是人们工作生活中最重要的交流手段之一。然而随着垃圾邮件的出现,电子邮件在给人们带来便利的同时也带来了互联网上仅次于病毒的第二大问题⋯:垃圾邮件的防治和过滤问题。反垃圾邮件技术成为近年来研究的热点。年眨欢跃幼≡诿拦抢D牵懦薪右泼袷挛的律师夫妇写了一段脚本的小程序,将他们的移民顾问服务广告的电子邮件发送给大约个新闻组用户。这一事件即为垃圾邮件的起源,被称为“绿卡”事件。时至今日,垃圾邮件成为了上仅次子病毒的第二大问题,耗费了人们大量的时间和花销。中国互联网协会在《中国互联网协会反垃圾邮件规范》【中是这样定义垃圾邮件的:本规范所称垃圾邮件,包括下述属性的电子邮件:各种形式的宣传品等宣传性的电子邮件;含有虚假的信息源、发件人、路由等信息的电子邮件。通常来说,垃圾邮件是未经同意接受的广告等信息。由于电子自日件成本低廉,垃圾邮件已经成为很多公司和组织进行引言
营销宣传的手段,而且有愈演愈烈的趋势。除了给电子信箱的使用者安全研究机构指出,。据市场调研公司公司的最新研究报告吵年垃圾邮件给全球生产力造成的损失和其他反垃圾邮件的投资占用网络带宽,浪费网络资源,干扰邮件系统的正常运行。当有限的网络资源和网络带宽上充斥大量的垃圾邮件时,就降低了网络的使用效率。对邮件服务器而言,收到的垃圾邮件占用了它的磁盘空间和网络带宽,浪费了处理时间。更严重的是,如果垃圾邮件得不到有效控制,用户会放弃邮箱,服务商将被迫终止服务,给企业带拒收来自外部的垃圾邮件,还要阻止自己的邮件用户对外发送垃圾邮造成很多不便,垃圾邮件还给社会造成了很大的经济损失。著名网络件而引起的损失已超过诿涝!G榭鋈绲貌坏娇刂疲晔彼失将暴涨到亿美元,到那时候,垃圾邮件将占总邮件比例的%。在我国,年我国处理垃圾邮件浪费的叽谠H嗣币;年中国互联网协会年公布的第二次反垃圾邮件调查结果显示,年第一季度,#渲薪雒拦镜乃鹗Ш屯蹲式ǔ种唬达到诿涝!6泄魑=龃