1 / 80
文档名称:

数据挖掘数据挖掘模型评估[精].ppt

格式:ppt   大小:3,123KB   页数:80页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

数据挖掘数据挖掘模型评估[精].ppt

上传人:iluyuw9 2018/1/14 文件大小:3.05 MB

下载得到文件列表

数据挖掘数据挖掘模型评估[精].ppt

文档介绍

文档介绍:数据挖掘模型评估
2018/1/14
1
一、评估分类法的准确率
2018/1/14
2
评估分类法准确率的技术有保持(holdout)和k-折交叉确认(k-fold cross-validation)方法。
另外,还有两种提供分类法准确率的策略:装袋(bagging)和推进(boosting)。
1、保持和k-折交叉
在保持方法中,给定数据随机划分成两个独立的集合:训练集和测试集。通常,三分之二的数据分配到训练集,其余三分之一分配到训练集。
2018/1/14
3
“保持”这种评估方法是保守的,因为只有一部分初始数据用于导出的分类法。
随机子选样是“保持”方法的一种变形,它将“保持”方法重复k次。总体准确率估计取每次迭代准确率的平均值。
K—折交叉确认
在k—折交叉确认(k—fold cross—validation)中,初试数据被划分成k个互不相交的子集或“折”,每个折的大小大致相等。训练和测试k次。在第i次迭代,第i折用作测试集,其余的子集都用于训练分类法。
准确率估计是k次迭代正确分类数除以初始数据中的样本总数。
2018/1/14
4
2、提高分类法的准确率
2018/1/14
5
装袋
为此,除用准确率评价分类模型外,还需要使用灵敏性(sensitivity)和特效性(specificity)度量。
还可以使用精度(precision)来度量,即评估标记为“cancer”,实际是“cancer”的样本百分比。
2018/1/14
8
其中,t_pos是真正样本(被正确地按此分类的“cancer”样本)数,pos是正(“cancer”)样本数,
t_neg是真负样本(被正确地按此分类的“non_cancer”样本)数,neg是负( “non_cancer”)样本数,
而f_pos假正样本(被错误地标记为“cancer”的“non_cancer”样本)数
2018/1/14
9
灵敏性
特效性
精度
2018/1/14
10
预测值
1(实际“cancer”)
0(实际no_cancer)
1(预测“cancer”)
0
0
0(预测“no_cancer”)
10
90