文档介绍:对于分类器(分类算法),评价指标主要有:
Precision
Recall
F-score
Aaccuracy
ROC
AUC
首先,介绍混淆矩阵的概念。
混淆矩阵是监督学习中的一种可视化工具,主要用于比较分类结果和实例的真对于分类器(分类算法),评价指标主要有:
Precision
Recall
F-score
Aaccuracy
ROC
AUC
首先,介绍混淆矩阵的概念。
混淆矩阵是监督学习中的一种可视化工具,主要用于比较分类结果和实例的真实信息。 矩阵中的每一行代表实例的预测类别,每一列代表实例的真实类别。
act u al value
p n toial
predict ion
outcome
total
True
Positive
False
Positive
False
True
Ne-gative
Negative
P N
图1混淆矩阵
如图1所示,在混淆矩阵中,每一个实例可以划分为以下四种类型之一:
真正(True Positive , TP):被模型预测为正的正样本
假正(False Positive , FP):被模型预测为正的负样本
假负(False Negative ,FN):被模型预测为负的正样本
真负(True Negative , TN):被模型预测为负的负样本
真正率(True Positive Rate , TPR)【灵敏度(sensitivity)】:TPR = TP /(TP + FN),即正样 本预测结果数/正样本实际数
假负率(False Negative Rate , FNR) : FNR = FN /(TP + FN),即被预测为负的正样本结果 数/正样本实际数
假正率(False Positive Rate , FPR) : FPR = FP /(FP + TN),即被预测为正的负样本结果 数 /负样本实际数
真负率(True Negative Rate , TNR)【特指度(specificity)】:TNR = TN /(TN + FP),即负 样本预测结果数/负样本实际数
然后,由混淆矩阵计算评价指标。
精确度(Precision): P = TP/(TP+FP)
召回率(Recall): R = TP/(TP+FN),即真正率
F-score:查准率和查全率的调和平均值 更接近于P, R两个数较小的那个:F=2* P* R/(P
+ R)
准确率(Aaccuracy):分类器对整个样本的判定能力,即将正的判定为正,负的判定为负:
A = (TP + TN)/(TP + FN + FP + TN)
ROC(Receiver Operating Characteristic
ROC的主要分析工具是一个画在ROC空间的曲线——ROC curve,横坐标为false positive rate(FPR),纵坐标为 true positive rate(TPR)。
> 如何画ROC曲线?
对于二值分类问题,实例的值往往是连续值,通过设定一个阈值,将实例分类到正类或 者负类(比如大于阈值划分为正类)。因此,可以变化阈值,根据不同的阈值进行分类,根 据分类结果计算得到ROC空间中相应的点,连接这些点就