1 / 106
文档名称:

数据挖掘--分类.ppt

格式:ppt   大小:1,100KB   页数:106页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

数据挖掘--分类.ppt

上传人:yixingmaob 2021/11/25 文件大小:1.07 MB

下载得到文件列表

数据挖掘--分类.ppt

相关文档

文档介绍

文档介绍:第三章 分类方法 内容提要
分类的基本概念与步骤
基于距离的分类算法
决策树分类方法
贝叶斯分类
实值预测
与分类有关的问题
Date
1
分类的流程
根据现有的知识,我们得到了一些关于爬行动物和鸟类的信息,我们能否对新发现的物种,比如动物A,动物B进行分类?
Date
2
分类的流程
步骤一:将样本转化为等维的数据特征(特征提取)。
所有样本必须具有相同数量的特征
兼顾特征的全面性和独立性
Date
3
分类的流程
步骤二:选择与类别相关的特征(特征选择)。
比如,绿色代表与类别非常相关,黑色代表部分相关,灰色代表完全无关
Date
4
分类的流程
步骤三:建立分类模型或分类器(分类)。
分类器通常可以看作一个函数,它把特征映射到类的空间上
Date
5
如何避免过度训练
分类也称为有监督学****supervised learning),与之相对于的是无监督学****unsupervised learning),比如聚类。
分类与聚类的最大区别在于,分类数据中的一部分的类别是已知的,而聚类数据的类别未知。
建立分类模型需要学****一部分已知数据,如果训练时间过长,或者预测模型参数太多而样本较少,将导致过度训练(overfitting)。
Date
6
如何避免过度训练
避免过度训练最重要一点是,模型的参数量应远小于样本的数量。
应建立训练集(training set)和测试集(test set)。
训练集应用于建立分类模型
测试集应用于评估分类模型
K折叠交叉验证(K-fold cross validation):将初始采样分割成K个子样本(S1,S2,...,Sk),取K-1个做训练集,另外一个做测试集。交叉验证重复K次,每个子样本都作为测试集一次,平均K次的结果,最终得到一个单一估测。
Date
7
分类模型的评估
真阳性(True Positive): 实际为阳性 预测为阳性
真阴性(True Negative):实际为阴性 预测为阴性
假阳性(False Positive): 实际为阴性 预测为阳性
假阴性(False Negative):实际为阳性 预测为阴性
预测是否正确 预测结果
比如预测未知动物是鸟类还是爬行动物,阳性代表爬行动物,阴性代表非爬行动物,请大家阐述 TP=10,TN=8,FN=3,FP=2是什么意义
Date
8