文档介绍:第三章 分类方法 内容提要
分类的基本概念与步骤
基于距离的分类算法
决策树分类方法
贝叶斯分类
实值预测
与分类有关的问题
Date
1
分类的流程
根据现有的知识,我们得到了一些关于爬行动物和鸟类的信息,我们能否对新发现的物种,比如动物A,动物B进行分类?
Date
2
分类的流程
步骤一:将样本转化为等维的数据特征(特征提取)。
所有样本必须具有相同数量的特征
兼顾特征的全面性和独立性
Date
3
分类的流程
步骤二:选择与类别相关的特征(特征选择)。
比如,绿色代表与类别非常相关,黑色代表部分相关,灰色代表完全无关
Date
4
分类的流程
步骤三:建立分类模型或分类器(分类)。
分类器通常可以看作一个函数,它把特征映射到类的空间上
Date
5
如何避免过度训练
分类也称为有监督学****supervised learning),与之相对于的是无监督学****unsupervised learning),比如聚类。
分类与聚类的最大区别在于,分类数据中的一部分的类别是已知的,而聚类数据的类别未知。
建立分类模型需要学****一部分已知数据,如果训练时间过长,或者预测模型参数太多而样本较少,将导致过度训练(overfitting)。
Date
6
如何避免过度训练
避免过度训练最重要一点是,模型的参数量应远小于样本的数量。
应建立训练集(training set)和测试集(test set)。
训练集应用于建立分类模型
测试集应用于评估分类模型
K折叠交叉验证(K-fold cross validation):将初始采样分割成K个子样本(S1,S2,...,Sk),取K-1个做训练集,另外一个做测试集。交叉验证重复K次,每个子样本都作为测试集一次,平均K次的结果,最终得到一个单一估测。
Date
7
分类模型的评估
真阳性(True Positive): 实际为阳性 预测为阳性
真阴性(True Negative):实际为阴性 预测为阴性
假阳性(False Positive): 实际为阴性 预测为阳性
假阴性(False Negative):实际为阳性 预测为阴性
预测是否正确 预测结果
比如预测未知动物是鸟类还是爬行动物,阳性代表爬行动物,阴性代表非爬行动物,请大家阐述 TP=10,TN=8,FN=3,FP=2是什么意义
Date
8