文档介绍:摘要手机短信因具有移动性好、价格低廉、收发便捷和娱乐性强等特点而使人们逐渐习惯于用短信的方式来传送信息和进行沟通交流。但垃圾短信问题也日益严峻。统计显示,自年以来,垃圾短信就以非常快的速度在增长。如今,手机用户平均每天收到的垃圾短信数量已经超过了正常短信数量。因此,研究短信的自动过滤具有重要意义。本文首先介绍了垃圾短信和现在反垃圾短信技术的发展现状,以及短信过滤的基本概念和原理:其次分析和比较了痔卣餮∪》椒ā种特征权重赋值方法和志哂代表性的文本分类算法;然后重点介绍了贝叶斯分类方法的原理,分析了传统朴素贝叶斯算法在短信过滤中所存在的局限性戏ǘ绦疟晃笈形@绦沤ǹ赡芨没Т锤大的损失⒃诖嘶∩希捎昧嘶谧钚》缦盏钠铀乇匆端苟绦殴怂惴āT谧越的中文短信语料库上的实验结果表明,该算法能在正确分类短信的同时,也能减少合法短信的误判率,在对垃圾短信进行分类与过滤时具有较好的性能;最后,对短信分类系统中的反馈学习问题进行了分析与讨论。具体地说,本文的工作主要包含下列内容:谀壳吧形抟桓龉ǹ5摹⒐娣兜闹形亩绦庞锪峡獾南质堤跫拢⒁桓稣媸的、规范的、能够适应实验要求的中文短信语料库;攀隼绦殴宋侍獾难芯肯肿矗ɡ绦诺亩ㄒ濉⒉怼⑽:σ晗附樯芰宋谋痉掷嗟南喙乩砺酆椭J叮芙岜冉狭顺S玫奶卣餮≡穹椒ā⑷重计算方法以及可以应用于短信分类的各种文本分类算法;谙钟械奈谋痉掷嗥髦校≡馧蚄两种典型的分类器应用于自建的短信语料库,分析、比较它们的实验效果与性能;晗附樯芰吮匆端顾惴ǎ治隽舜潮匆端顾惴ㄔ诙绦殴酥写嬖诘木窒扌裕采用了基于最小风险贝叶斯短信过滤算法,使用自建的短信语料库试验该算法的性能,并比较了特征选择方法、权重计算方法、特征数量和阈值对实验结果的影响;杓屏艘桓隹突Ф硕绦殴讼低常侠斫饩龆绦殴讼低持械挠没Х掷啾曜级关键词:垃圾短信过滤;文本分类;简单贝叶斯及常用的过滤技术;变化问题和反馈学习问题;大连理工大学硕士学位论文
知识水坝***@pologoogle为您整理
.愉畉舭..文本分类在短信过滤中的应用,琫琾.,,瑃甀..—甋琣..,:
知识水坝***@pologoogle为您整理
..;;—
独创性说明作者郑重声明:本硕士学位论文是我个人在导师指导下进行的研究工作及取得研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写的研究成果,也不包含为获得大连理工大学或者其他单位的学位或证书所使用过的材料。与我一同工作的同志对本研究所做的贡献均已在论文中做了明确的说明并表示了谢意。
九婚型年』翻羔目害趱大连理工大学学位论文版权使用授权书本学位论文作者及指导教师完全了解“大连理工大学硕士、博士学位论文版权使用规定”,同意大连理工大学保留并向国家有关部门或机构送交学位论文的复印件和电子版,允许论文被查阅和借阅。本人授权大连理工大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,也可采用影印、缩印或扫描等复制手段保存和汇编学位论文。作者签名:导师签名:大连理工大学硕士研究生学位论文
言引近几年来,我国移动电话用户的数量呈现出快速增长的趋势。手机短信因具有移动性好、价格低廉、收发便捷和娱乐性强等特点而侵人们逐渐习惯于用短信的方式来传送信息和进行沟通交流。据统计,自短信业务在中国正式开通以来,从年到年,国内短信发送量分别为谔酢亿条、亿条和亿条,其中有不少是垃圾短信。这些垃圾短信不仅占用了有限的网络资源。造成网络拥塞,而且还使电信运营商耗费更多的资源对其进行处理、过滤。如果再算上手机用户为处理这些短信所花费的时间,那它的经济成本无疑是一个惊人的数字。垃圾短信不仅让人感到厌恶,而且越来越成为一种社会公害:一些不法分子利用短信骚扰他人、干扰他人正常生活;利用短信发布虚假信息进行诈骗;利用短信煽动闹事、散布谣言、攻击政府,影响社会稳定;利用短信传播色情、反动消息,危害公共安全;通过短信大量发布广告,影响人们的正常生活。有调查显示,在参加调查的人群当中,%的人收到过黄色短信,,我们应该使用法律和行业协会规范的双重手段来对付它,同时,也应该从技术上探索行之有效的手段来反击它。因此,如何在保持短信业务活力的同时限制垃圾短信的传播、净化短信内容成为我国通信部门面临的一个新课题。大连理工大学硕士学位论文
绦偶蚪垃圾短信的定义及分类垃圾短信的产生机理短信业务正以其短小、迅速、简便、便宜等诸多优点而日益成为人们所采用的一种重要通信手段。短信业务在飞速发展的过程中,一方面给广大使用者带来了方便,另一问题统一归类到垃圾短信。参照垃圾邮件的定义,垃圾短信,就是那些并非用户所需要且对用户造成骚扰的只会消耗接收者时间、侵占接收者手机存储空间的短信。垃