1 / 10
文档名称:

垃圾短信数据挖掘论文.doc

格式:doc   大小:19KB   页数:10页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

垃圾短信数据挖掘论文.doc

上传人:xinsheng2008 2018/10/17 文件大小:19 KB

下载得到文件列表

垃圾短信数据挖掘论文.doc

文档介绍

文档介绍:垃圾短信数据挖掘论文
1垃圾短信治理面临的调整
目前的垃圾短信过滤的方法主要有黑名单和白名单监控技术,但是短信中心对黑白名单处理数量有上限要求;基于关键字的过滤技术,但是这种技术不能灵活识别和更新关键字;基于内容的过滤技术,可分为基于规则的过滤和基于概率统计的过滤;基于数据挖掘方法的垃圾短信用户识别,目前基本上都使用IBMSPSSModeler平台的决策树和逻辑回归经典算法识别垃圾短信用户,由于选取的建模数据不全面以及算法本身各自存在不足使得建模效果受到影响。为建立白名单和科学封堵模型相结合的垃圾短信治理模式,实现精细化、行为级、高效性的垃圾短信治理,本方案提出了基于客户综合特征分析的垃圾短信治理技术方案:基于随机森林分类的垃圾短信用户预测模型。通过客户入网属性,客户通信行为信息、客户账单信息等多个维度构建模型,对垃圾短信号码进行识别和治理。相比传统基于短信内容识别、发送量控制的事中控制,本系统能够进行垃圾短信发送行为预测,配合垃圾短信拦截系统将垃圾短信在未形成大规模发送前拦截。实验结果证明该模型能够有效的识别垃圾短信号码,对监控系统拦截垃圾短信起到很好的辅助作用。
2大数据挖掘的原理与优势
大数据是指数据量很大(一般是TB到PB数量级)的巨量资料,无法通过主流软件工具,在合理时间内完成数据处理并获取有价值的信息。数据大多以非结构化或者半结构化数据为主,大数据具有4V特点:Volume、Velocity、Variety、Veracity。大数据处理的一般思路是数据压缩、数据抽样、数据挖掘等。数据挖掘是一种新的信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其它模型化处理,从中提取辅助商业决策的关键性数据。利用数据挖掘进行数据分析常用的方法主要有分类、回归分析、聚类、关联规则、推荐系统等,它们分别从不同的角度对数据进行挖掘。大数据挖据的数据源和处理方式对比。
3数据挖据流程和模型选取

数据挖掘主要包括以下6大步骤。
(1)商业理解:确定挖掘目标以及产生一个项目计划。
(2)数据理解:知晓有哪些数据,以及数据的特征是什么。
(3)数据准备:对数据作出转换、清洗、选择、合并等工作。
(4)建模:根据挖掘目标确定适合的模型,建模并对模型进行评估。
(5)模型评估:评估建模效果,对效果较差的结果我们需要分析原因。
(6)结果部署:用所建挖掘模型去解决实际问题,它还包括了监督、维持、产生最终报表、重新评估模型等过程。

垃圾短信用户识别建模数据主要从信令监测系统、经营分析系统获取,所获取的用户行为数据主要包括用户通信行为信息、用户基础业务属性、用户通信业务信息等7个维度。其中,用户通信行为信息包括活动轨迹、终端IMEI和数据业务访问等信息。

对白名单用户的识别可以利用社交网络模型与业务规则相结合的方法。利用社交网络进行白名单用户识别,重点考虑用户之间发生的通信行为、增值业务交互行为等群体行为,通过对用户之间关系的辨识。本文建模的重点着眼于垃圾短信用户的识别及其治理。

识别垃圾短信用户是数据挖掘中的分类问题,数据挖掘中常用的分类算法主要有逻辑回归、决策树、贝叶斯网络等算法。其中,神经

最近更新

一鸣工作总结 3页

商务活动策划保证金协议书 5页

一年级下讲故事课工作总结 3页

一季度人武工作总结 3页

一二年级安全教学工作总结 2页

公园场地租赁合同 5页

存储部门工作总结 3页

婚检部门工作总结 3页

亲子活动中心租赁协议 5页

中医医疗机构感染控制数据分析 8页

基于液晶调制和并行计算的实时偏振成像系统研.. 2页

基于波数谱的风涌分离算法研究 2页

基于核酸适配体的两种水产病原弧菌检测技术的.. 2页

基于条件概率公式的缺陷定位问题研究 2页

基于本体的学习对象发现机制的研究与应用 2页

基于曲轴偏移式发动机力学性能分析与研究 2页

基于时变客流的城市轨道交通节能列车运行图优.. 2页

基于数据挖掘的姚祖培教授运用疏肝调心法治疗.. 2页

基于数字化测绘技术的城镇第二次土地调查研究.. 2页

基于改进和声搜索算法的配电网重构 2页

基于排序熵的阿尔兹海默症特征提取与分析 2页

基于手征光纤光栅的全光纤型圆偏振起偏器的研.. 2页

基于微造型阀芯及异形阀腔的煤矿水压三用阀研.. 2页

基于强跟踪滤波器的磁浮列车悬浮控制研究 2页

基于并行FDTD的大型天线及阵列模拟与优化研究.. 2页

基于嵌入式面向对象数据库的信息家电研究 2页

基于局部应变预估沥青路面疲劳开裂寿命的研究.. 2页

基于导电聚合物膜的电化学免疫传感器的研究 2页

基于定位重复结构算法的DeepWeb数据抽取 2页

基于大地电磁三维响应的二维反演解释研究 2页