文档介绍:Bagging & Boosting
分类
决策树分类:
ID3
贝叶斯分类
后向传播分类
其它分类
分类法的准确性
评估分类法的准确率
保持(holdout)
K-次交叉验证(k-fold cross validation)
提高分类法的准确率
bagging
boosting
评估分类法的准确率
保持(holdout)
划分为两个独立的数据集: 通常:训练集(2/3),测试集(1/3)
变形:随机子选样
数据
训练集
测试集
导出分类法
评估准确性
评估分类法的准确率
K-次交叉验证
将数据集分为k个子集;
用k-1个子集作训练集,1个子集作测试集,然后k次交叉验证;
数据
S1
S2
Sk
···
训练集
测试集
提高分类法的准确率
Bagging
Boosting
数据
C1
C2
Ct
组合得票
新数据
样本
类预测
···
Bagging
基本思想:
给定一个弱学习算法,和一个训练集;
单个弱学习算法准确率不高;
将该学习算法使用多次,得出预测函数序列,进行投票;
最后结果准确率将得到提高.
Bagging
算法:
For t = 1, 2, …, T Do
从数据集S中取样(放回选样)
训练得到模型Ht
对未知样本X分类时,每个模型Ht都得出一个分类,得票最高的即为未知样本X的分类
也可通过得票的平均值用于连续值的预测
Bagging
…
C1
C2
CT
train
train
train
…
x
c1(x)
c2(x)
cT(x)
C*
c*(x) = tt ct(x)
S1
S2
ST
Bagging
Bagging要求“不稳定”的分类方法;
比如:决策树,神经网络算法
不稳定:数据集的小的变动能够使得分类结果的显著的变动。
“The vital element is the instability of the prediction method. If perturbing the learning set can cause significant changes in the predictor constructed, then bagging can improve accuracy.”(Breiman 1996)