文档介绍:摘要随着互联网的快速发展,电子邮件已经成为人们日常生活必不可少的重要组成部分,它在各个方面都展现了极大的优势,受到人们普遍的欢迎。但同时每个邮件用户每天收到的各类垃圾邮件也越来越多,这不仅影响个人生活还对整个网络造成负担,危害极大,所以垃圾邮件的识别及过滤技术日益受到重视。目前,基于邮件内容的垃圾邮件过滤技术是解决垃圾邮件的主流技术,采用的方法主要为基于规则的方法和基于概率统计的方法。以上方法都来自于普通文本分类技术,并应用于垃圾邮件过滤。但是,垃圾邮件过滤相对于文本分类仍存在差异,主要表现为:在数据内容上,邮件具有多语言、格式多样化、相同,因此需要动态满足用户个性化需求。本文对当前的垃圾邮件过滤技术涉及算法进行研究和分析,主要存在计算复杂、缺乏个性化定制等问题。对于重视用户体验的电子邮件过滤服务来讲,好的性能与充分满足用户需求是关键。本文通过构建垃圾邮件全局本体和从未知邮件中抽取特征概念词生成局部本体,识别并过滤垃圾有害邮件,根据用户需求构建用户个性化本体,在过滤环节更能体现用户个性,让用户有更好的使用体验。具体来说,本文的主要工作包括以下内容:樯芾始说南肿础0始亩ㄒ濉⑽:σ约俺S玫墓握誛词典结构,构建了电子邮件领域内的垃圾邮件语义词典,应用于做特征概念相似度计算;诶始陨硖氐悖杓撇⒐菇死始ň直咎逡约坝没Ц鲂化本体库,提出了面向未知邮件的权值计算算法;杓屏嘶诒咎宓睦始说幕究蚣堋多编码的特点;在垃圾邮件判断标准上,每一具体用户对垃圾邮件的定义各不技术;攀龅缱佑始拇浠啤⒅饕5牡缱佑始喙匦椤⒌缱佑始谌莞式等电子邮件相关知识;关键词:本体,语义,垃圾邮件过滤,文本分类
.,琣瓾,琣琫;痟琁,..,;瑂’Ⅱ
琧篛,;瑆;琩,
圣梗塞争日期:..圣丛:兰生独创性声明关于论文使用授权的说明本人声明,所呈交的论文是本人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其权保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权武汉理工大学可以将本学位论文的全部内容编入有关数据库进行检索,可以采用影印、缩印或其他复制手段保存或汇编本学位论文。同时授权经武汉理工大学认可的国家有关机构或论文数据库使用或收录本学位论他人已经发表或撰写过的研究成果,也不包含为获得武汉理工大学或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。期:本人完全了解武汉理工大学有关保留、使用学位论文的规定,即:学校有文,并向社会公众提供信息服务。C艿穆畚脑诮饷芎笥ψ袷卮斯娑
第滦髀研究目的和意义分,由于电子邮件使用简单,收费低廉,传递迅速,易于保存,可在短时间内成为世纪互联网最重要的服务之一。但是电子邮件在给人们带来极大便利与帮助的同时,也产生了大量的问题,其中最为严重、给网络造成重大灾难的就是垃圾邮件问题。许多违法机构或黑客向存在漏洞的电子邮件服务器发送大量的垃圾邮件,造成服务器瘫痪或网络流量超载。下面主要介绍垃圾电子邮件给我们生活及工作造成的影响:承├始《荆贾轮卸镜亩喔鲇没Ъ扑慊纬闪艘淮慰梢苑送大量垃圾信息僵尸网络,因为在该网络结构中,发送垃圾信息的节点计算机频繁的处理网络上的垃圾邮件会占用服务器的网络带宽,从而影响了服务器对正常邮件的处理,严重的情况下会造成服务器的网络阻塞;件。另外,垃圾邮件一般包含不良信息甚至病毒程序,导致用户的个人私密信通过邮件进行交流的几率也大大增加绻泄牡缱佑始捎谏鲜鑫侍庠到封杀,必将会对国内外企业和组织造成巨大的影响,影响中国经济的发展。因此,在全国范围内发展高效可靠的垃圾邮件过滤器已经成为了一个紧迫的任务。本课题的着眼点就是采用基于本体的垃圾邮件过滤技术实现邮件的分类与过滤,使用该技术不仅可以解决垃圾邮件的过滤问题,而且可以实现对每天收到的大量邮件进行更加准确的识别,有效地减少系统分发邮件的工作量【引。鉴随着互联网的快速发展,电子邮件已经成为互联网必不可少的重要组成部同世界上任何一个角落的网络用户联系,所以电子邮件受到人们普遍的欢迎,很难被发现。给网络造成极大危害始拇罅髁刻卣骰嵊跋旎チM恼T诵小5缱佑始衿饕蛞捎诜⑺屠始话愣际谴罅髁俊⒏咂刀鹊模酝缟系牡缱佑始用户的邮箱空间会被垃圾邮件迅速占据,同时需要用户花费时间去处理该类邮息被窃取或导致用户电脑瘫痪;随着中国经济与世界经济的关系日益紧密,中国对外处理事物的日益增多,武汉理工大学硕士学位论文
国内外研究现状于上述原因,我们认为本课题的研究具有很大的现实意义。垃圾邮件并不受人欢迎,自垃圾邮件产生之初,人们就开始展开反垃圾邮シ⒔锥年~年拢瑂淮士J急蝗私邮埽用于表示垃圾邮件;年月,国际上开始有专门的机构收集垃圾邮件,同时开始利