1 / 57
文档名称:

数据挖掘05.ppt

格式:ppt   大小:1,302KB   页数:57页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

数据挖掘05.ppt

上传人:w447750 2018/5/16 文件大小:1.27 MB

下载得到文件列表

数据挖掘05.ppt

相关文档

文档介绍

文档介绍:数据分类方法
2018/5/16
1
分类和预测
什么是分类? 什么是预测?
决策树分类
神经网络分类
其他分类方法
预测方法
总结
2018/5/16
2
分类:
预测类的标志
针对训练数据建立分类模型,利用模型预测未知的类标志
预测:
对连续型变量建立函数依赖,预测未知的或缺失的数据
应用
信用卡审批
目标市场的定位
医疗诊断
有效性分析
分类 vs. 预测
2018/5/16
3
分类—A Two-Step Process
建立模型: 描述一组已知的类
每个对象的类标志是已知的,由class label attribute表示
用来建模的对象集合: training set
模型用分类规则,决策树,或数学公式表示
应用模型:利用模型预测类标志
选择一组测试数据检测模型的准确度
测试数据集(test set)与训练数据集是不同的
用模型推导出来的类标志与已知的类标志比较,如果相同,则称结果是正确的
准确度等于测试数据集中由模型得到正确结果的对象比例
2018/5/16
4
分类的过程(1): 建立模型
Training
Data
Classification
Algorithms
IF rank = ‘professor’
OR years > 6
THEN tenured = ‘yes’
Classifier
(Model)
2018/5/16
5
分类过程(2): 根据模型预测
Classifier
Testing
Data
Unseen Data
(Jeff, Professor, 4)
Tenured?
2018/5/16
6
监督学****vs. 非监督学****br/>监督学****Supervised learning (classification)
training data 的类标志是已知的
由训练数据集得到模型,用于新的对象
非监督的学****Unsupervised learning (clustering)
training data的类标志未知
根据对象之间的距离进行划分
2018/5/16
7
各种分类算法
类型
算法
决策树/回归树
ID-3, CART, CHAID, IND, S-Plus tree, , CBA, FACT, QUEST, OCl, LMDT, CAL5, Tl, GUIDE, RainForest, Noah, CAEP, PUBLIC, SPRINT
神经网络
LVQ, RBF, NeuroRule, ANFIS, FuNe, Fuzzy , GARIC, NFNCLASS, NEFCON, NEFPROX
统计
LDA, QDA, NN, LOG, FDA, PDA, MDA, POL
其它
2018/5/16
8
评价分类方法的因素
准确度
效率
建模的效率
应用模型的效率
鲁棒性
处理noise,missing values
可扩展性
可以处理大数据量
可理解:
模型能用易于理解的方式表示
规则的质量
决策树的大小
分类规则的复杂程度
2018/5/16
9
分类和预测
什么是分类? 什么是预测?
决策树分类
神经网络分类
其他分类方法
预测方法
总结
2018/5/16
10