1 / 45
文档名称:

数据挖掘算法及软件介绍.ppt

格式:ppt   大小:1,281KB   页数:45页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

数据挖掘算法及软件介绍.ppt

上传人:薄荷牛奶 2018/10/1 文件大小:1.25 MB

下载得到文件列表

数据挖掘算法及软件介绍.ppt

文档介绍

文档介绍:Page 1
主要内容
一、数据挖掘概念及流程
二、数据挖掘方法分类介绍
二-1、分类算法及案例
二-2、聚类分析及案例
二-3、关联规则及案例
二-4、时间序列分析及案例
二-5、回归分析及案例
二-6、异常分析及案例
二-7、文本挖掘
二-8、推荐系统
三、常用数据挖掘软件介绍
四:数据挖掘和分析应避免的误区误区
Page 2
一、数据挖掘概念及流程
数据挖掘(Data Mining)就是对观测到的数据集(经常是庞大的、不完全的、有噪声的、模糊的、随机的)进行分析,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识,目的是发现未知的关系和以数据拥有者可以理解并对其有价值的新颖方式来总结数据。
数据清理筛选
数据
目标数据
预处理及变换
变换后的数据
数据挖掘
解释/评估
一、数据挖掘概念及流程
Page 3
二:数据挖掘方法分类介绍
数据挖掘
聚类分析
预测
K-means
K-中心点算法
分类分析
KNN算法
Bayes算法
时间序列
统计回归
分类算法
决策树
神经网络
相关性分析
回归分析
关联规则
Apriori算法
线性回归
逻辑回归
序列模式挖掘
异常分析
非时间序列
SLIQ

CART
CHAID
概率回归
统计分析
方差、极差、偏度等统计特征值
异常点分析
Page 4
时间序列
决策树算法
Page 5
挖掘模式
预测型(Predictive)
描述型(Descriptive)
实际功能分为以下几种模式:
分类:对没有分类的数据进行分类;
预测:用历史来预测未来;
关联分析:关联规则;
聚类:物以类聚;
序列模式:在多个数据序列中发现共同的行为模式;
异常分析:从数据分析中发现异常情况。
文本数据挖掘:从大量文字中寻找共性进行分析。
二:数据挖掘方法分类介绍
Page 6
二-1:分类算法及案例分析
分类:
预测种类字段
基于训练集形成一个模型,训练集中的类标签是已知的。使用该模型对新的数据进行分类
预测:
对连续性字段进行建模和预测。
典型应用
信用评分
Direct Marketing
医疗诊断
性用卡欺诈判断
客户ID
年龄
学历
是否有房
是否结婚
变量5
变量6
变量7
……
是否欺诈
训练
数据
1
19
中专

1
1
2
30
大学

0
0
3
28
高中

0
1
测试
数据
4
40
大学

1
0
5
18
中专

1
1
6
33
大学

1
1
客户ID
年龄
学历
是否有房
是否结婚
变量5
变量6
变量7
……
是否欺诈
需要判断的新数据
7
27
高中

0
?
8
48
高中

1
?
9
34
大学

1
?
需要的历史数据表
需要判断的新业务数据表
结论:可以得出ID为7的客户卡属于欺诈的可能性为90%,ID为8和9的客户不是欺诈的可能性为95%。
二-1:分类算法及案例分析
Page 7
二-1:分类算法及案例分析
Page8
年龄
overcast
学历?
是否结婚?
0
1
0
1
18<=22
30-35
1
0
0
1
0
23-30
决策树
结论规则:
第一类: 年龄在18-35岁之间,学历是高中,还没有住房的人群,可能发生信用卡欺诈的概率是97%.
第二类: 年龄在23-45岁之间,学历是本科,有住房的人群,可能发生信用卡欺诈的概率是1%.
第三类: 年龄在30-55岁之间,学历是小学,无住房的人群,可能发生信用卡欺诈的概率是80%.

根据规则去执行相应的措施和政策方针:
一: 第一类和第三类人群,不通过信用卡审批或者降低信用卡额度,增加调查力度。
二: 信用卡用户的营销策略,。
二-1:分类算法及案例分析
Page9
行业应用:
1)城市综合环境质量评价
2)保险、医疗、信用卡等等反欺诈模型
3) 客户、企业信用评级模型
4)公安犯罪预警预测
5)气候分类、农业区划、土地类型划分中有着广泛的应用
二-1:分类算法及案例分析
Page10