文档名称：

数据挖掘--分类.ppt

格式：ppt 大小：1,100KB 页数：106页

下载后只包含 1 个 PPT 格式的文档，没有任何的图纸或源代码，查看文件列表

如果您已付费下载过本站文档，您可以点这里二次下载

预览

下载此文档

数据挖掘--分类.ppt

上传人:yixingmaob 2021/11/25 文件大小：1.07 MB

下载得到文件列表

数据挖掘--分类.ppt

相关文档

文档介绍

文档介绍：第三章分类方法内容提要
分类的基本概念与步骤
基于距离的分类算法
决策树分类方法
贝叶斯分类
实值预测
与分类有关的问题
Date
1
分类的流程
根据现有的知识，我们得到了一些关于爬行动物和鸟类的信息，我们能否对新发现的物种，比如动物A，动物B进行分类？
Date
2
分类的流程
步骤一：将样本转化为等维的数据特征（特征提取）。
所有样本必须具有相同数量的特征
兼顾特征的全面性和独立性
Date
3
分类的流程
步骤二：选择与类别相关的特征（特征选择）。
比如，绿色代表与类别非常相关，黑色代表部分相关，灰色代表完全无关
Date
4
分类的流程
步骤三：建立分类模型或分类器（分类）。
分类器通常可以看作一个函数，它把特征映射到类的空间上
Date
5
如何避免过度训练
分类也称为有监督学****supervised learning),与之相对于的是无监督学****unsupervised learning),比如聚类。
分类与聚类的最大区别在于，分类数据中的一部分的类别是已知的，而聚类数据的类别未知。
建立分类模型需要学****一部分已知数据，如果训练时间过长，或者预测模型参数太多而样本较少，将导致过度训练(overfitting)。
Date
6
如何避免过度训练
避免过度训练最重要一点是，模型的参数量应远小于样本的数量。
应建立训练集(training set)和测试集(test set)。
训练集应用于建立分类模型
测试集应用于评估分类模型
K折叠交叉验证(K-fold cross validation)：将初始采样分割成K个子样本(S1，S2,...,Sk)，取K-1个做训练集，另外一个做测试集。交叉验证重复K次，每个子样本都作为测试集一次，平均K次的结果，最终得到一个单一估测。
Date
7
分类模型的评估
真阳性(True Positive)：实际为阳性预测为阳性
真阴性(True Negative)：实际为阴性预测为阴性
假阳性(False Positive)：实际为阴性预测为阳性
假阴性(False Negative)：实际为阳性预测为阴性
预测是否正确预测结果
比如预测未知动物是鸟类还是爬行动物，阳性代表爬行动物，阴性代表非爬行动物，请大家阐述 TP=10，TN=8，FN=3，FP=2是什么意义
Date
8