文档介绍:中文摘要面向中文的短信过滤技术是中文移动市场迫切需要的一种技术。目前移动平台上的中文短信过滤技术以黑名单过滤和关键词过滤为主。本论文主要介绍了一个与当前主流中文短信过滤不同的新型过滤技术。该技术是便于在移动设备上实现,结合了中文短信的内容特征,以规燹库过滤为基础的内容过滤技术。该技术提高了短信过滤准确率、垃圾短信召回率,降低了正常短信错判率。短信内容过滤是文本分类技术的~种,甚前应焉最广泛的文本分类技术有很多,最大熵和决策树两种算法分别作为基于统计的和基于规则的文本分类技术的代表算法大量应用予内容过滤。本文也将这两种算法与本文提出的基于轻量级规则库的内容过滤技术进行对比实验,以验证本文提出的基于轻量级规则库的内容过滤技术是否满足实际要求。本文提出的基于轻量级规则库的内容过滤技术由两部分构成:第一部分,规则匹配。规则匹配是短信内容过滤豹第一阶段。在该阶段中关键词规则匹配是核心。关键词规则的匹配需要使用中文多模式字符串匹配算法。蓬际主经典的字符串匹配算法都是铮对英文字符串进行匹配的。多模式串匹配算法也是如此,例如,,等等。本文提出一种针对中文的多模式串匹配算法。同时,与酑算法配合还有其恐规则匹聚方法:短信文本长度,文本中含有的标点,电话号码,也等等特征。另外,在该阶段还要做手机平台上中文编码的转换等处理工作。该阶段的输出是中间向量文件。第二部分,过滤。过滤是短信过滤处理豹第二阶段。本文提出了轻量级规煲库过滤算法。该算法与最大熵和决策树两种经典算法相比,更加有利于在资源有限的移动设备上实现。作为对比,在嫂赠匹配的试验除段除了产生轻量级勰英库过滤中闻自量文件外还产生了最大熵中间向量文件和决策树中间向量文件,并且分别用最大熵模型和决策树模型进行处理。之纛对跣了辍量级规粼库和其能嚣种算法的准确率、召实验使用的短信条数为∞条,正常短信和垃圾短信各尢酢6郧崃考豆则库、最大熵、决策树分别进行了实验,并且将三种算法结果进行比较。实验结果显示,轻量级规则库与其它两种方法相比,性能接近,在正常短信误判率方面有较大提高,并且更便于在手机平台上实现。回率以及正常短信误判率。
关键词:短信内容过滤,轻量级规则库,多模式串匹配,最大熵,决策树中文摘要
縮嘲谗尽辷噧确籰魏髓诳籰懿鑫麓嚣∞餬瞐№瓿皔‰撼讴姥靝鑫敬董敦蘸蠢魏襄辍G框巷汶猽毛庭粒祸稳镨磂蠹煌衖妇蠲籗№砌钒醙抵蝴溶埝雔懒嘲鼹删愀锄谳沃蒁主感蠛骶阮縮酬妇龇珏紽顂絘滟鹗赋嚣昔ぱ既る猠§域妞紃懿遗泗竍罢舅骚馥∞强鹾程氇鸻∞觚搬专猼碽鹰璭琏壤浮4丽宸愆毽底ā2诚曲照豫锄碴睡爨姗蠡璐鞋溅巍趇豫趣雌鷄弘猠蕇珊删続鑒鸭痑耐,皀㎝綾孜閏縤摁缣鸹◆皀隒城:緀瞳塔:擞腿猵鐼出烈Ⅱ瓾%铀镆驳謎韶醯蠡妇瘿珏媳弧达觚速粕曲麟┌暄蹂嘲髓酸鞍苅搬采受溉硗謅辌倨桑琣圜韑龇“端皁镌翌閠《最嘶№齟夯餴亓眶枇絜逐靤挫輎翻罄叙热蕊。Ⅱ。瓣蠢擞确粼:裇檬垂丛щ镑頻鞠臙魏鲥建。僦纂㈨耷铡辏妇醛痢卧ㄞ锦奋搽猠敝鑜鰊蚢胀斌丽影璷猪雗锰蔹搀弧哟瞳曛甂掣絣醯毽辒羬融妇轘:嬲痶弱鞸鎑妇頻:馈鎝痵鹦瑿乏鬺昏璐駆吐圮∞鹴鷊蝴瓯如琈硼:蝴雒硁髂腸嚣娃詎瓵缸℃’鼯Ⅱ博膕鼯,.罚琲総呜,騦髓弧縧吐,萼订觟縧
黼嚣咖撇砬眶钊颿鑕∞腓磂╥Ⅳ搽,锄K鑜趕辍%轆玎,中文摘要萳:
签名:书一弋霞期:少∥阥胃≈蜀独创性声明关于论文使用授权的说明签名:淙日期:;。·阹月≯香日本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他入已经发表或撰写过的研究成果,也不包含为获得电子科技大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。本学位论文作者完全了解电子科技大学有关保留、使用学位论文的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人授权电子科技大学可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、、汇编学位论文。C艿难宦畚脑诮饷芎笥ψ袷卮斯娑导师签名:
⒄.糁评绦诺募际跏侄据调查,年第一季度中国每天发送的短信数量为千万条。据国家信产部发布的数据称,年中国的短信总量达到亿条,比年增长近%。信产部预计今年短信总量将超过亿条【¨。短信作为无线数据业务的典型应用逐渐成了传递信息的主要方式之一,直接影响着每个人的日常生活。随着移动商务时代的到来,有调查显示将近%的企业期望尝试给予短信实现信息的发布、业务咨询、发布广告、以及预订和接受订单等业务应用。然而,随着短信用户数量的增长,垃圾短信的数