1 / 24
文档名称:

数据挖掘导论.ppt

格式:ppt   大小:336KB   页数:24页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

数据挖掘导论.ppt

上传人:文库新人 2020/3/6 文件大小:336 KB

下载得到文件列表

数据挖掘导论.ppt

相关文档

文档介绍

文档介绍:数据挖掘导论不规则/异常检测什么是异常/离群值?与其余数据相差很大的数据点集异常/异常值检测问题的变体给定数据库D,找到具有大于某个阈值t的异常分数的所有数据点xD给定数据库D,找到具有前n个最大异常分数f(x)的所有数据点xD给定包含大部分正常(但未标记)数据点的数据库D和测试点x,计算x相对于D的异常分数应用:信用卡欺诈检测,电信欺诈检测,网络入侵检测,故障检测异常检测的重要性臭氧消耗历史1985年,三个研究人员(Farman,Gardinar和Shanklin)对英国南极调查收集的数据感到困惑,表明南极洲的臭氧水平比正常水平下降了10%为什么Nimbus7卫星(其上有用于记录臭氧水平的仪器)不记录类似的低臭氧浓度?由卫星记录的臭氧浓度如此之低,他们被计算机程序作为异常值处理并丢弃!Sources: ne/science/hole/?方法是无人监督的验证可能相当具有挑战性(就像聚类)在大海里捞针查找工作假设:与数据中的“异常”观察(异常值/异常)相比,存在显着更多的“正常”观察结果异常检测方案一般步骤构建“正常”行为的配置文件配置文件可以是总体人口的模式或摘要统计使用“正常”配置文件检测异常异常是其特征与正常特征明显不同的观察结果异常检测?方案的类型图形和统计基于距离基于模型图形方法箱形图(1-D),散点图(2-D),自旋图(3-D)缺点耗时的主观凸体船体法极值点被假定为异常值使用凸包方法来检测极值如果异常值出现在数据的中间怎么办?统计方法假设描述数据分布的参数模型(例如,正态分布)应用取决于的统计测试数据分布分布参数(例如,平均值,方差)预期异常值的数量(置信限制)格鲁布斯测试检测单变量数据中的异常值假设数据来自正态分布一次检测一个异常值,删除异常值,然后重复H0:数据中没有异常值HA:至少有一个离群值Grubbs’检验统计量:拒绝H0如果:基于统计的似然方法假定数据集D包含来自两个概率分布的混合的样本:M(多数分布)A(异常分布)一般方法:最初,假设所有数据点属于M令Lt(D)是D在时间t的对数似然性对于属于M的每个点xt,将其移动到A令Lt+1(D)为新的对数似然。计算差值,=Lt(D)–Lt+1(D)如果>c(某些阈值),则xt被声明为异常,并从M永久移动到A