文档介绍:Bagging & Boosting 分类?决策树分类: ? ID3 ? ?贝叶斯分类?后向传播分类?其它分类分类法的准确性?评估分类法的准确率?保持( holdout ) ? K-次交叉验证( k-fold cross validation ) ?提高分类法的准确率? bagging ? boosting 评估分类法的准确率?保持( holdout ) ?划分为两个独立的数据集: 通常:训练集 (2/3 ),测试集(1/3) ?变形:随机子选样数据训练集测试集导出分类法评估准确性评估分类法的准确率? K-次交叉验证?将数据集分为 k个子集; ?用 k-1 个子集作训练集, 1个子集作测试集,然后k次交叉验证; 数据 S1 S2 Sk ··· 训练集测试集提高分类法的准确率? Bagging ? Boosting 数据 C1 C2 Ct 组合得票新数据样本类预测··· Bagging ?基本思想: ?给定一个弱学****算法,和一个训练集; ?单个弱学****算法准确率不高; ?将该学****算法使用多次,得出预测函数序列,进行投票; ?最后结果准确率将得到提高. Bagging ?算法: For t = 1, 2, …, T Do 从数据集 S中取样(放回选样) 训练得到模型 H t对未知样本 X分类时,每个模型 H t都得出一个分类,得票最高的即为未知样本 X的分类?也可通过得票的平均值用于连续值的预测 Bagging … C 1C 2C T train train train … xc 1 (x)c 2 (x)c T (x) C *c* (x) = t t c t (x) S 1S 2S T Bagging ? Bagging 要求“不稳定”的分类方法; 比如:决策树,神经网络算法?不稳定:数据集的小的变动能够使得分类结果的显著的变动。?“ The vital element is the instability of the prediction method. If perturbing the learning set can cause significant changes in the predictor constructed, then bagging can improve accuracy. ” (Breiman 1996)