文档介绍:该【数据挖据技术集成学习方法ensemblelearnigPPT课件 】是由【读书之乐】上传分享,文档一共【44】页,该文档可以免费在线阅读,需要了解更多关于【数据挖据技术集成学习方法ensemblelearnigPPT课件 】的内容,可以使用淘豆网的站内搜索功能,选择自己适合的文档,以下文字是截取该文章内的部分文字,如需要获得完整电子版,请下载此文档到您的设备,方便您编辑和打印。数据挖据技术集成学习措施(ensemble learnig)
王磊 (副专家)
经济信息工程学院
2
2
第六章: 集成学习措施
基本概念
bagging
boosting
随机森林
选择性集成措施
在机器学习中,直接建立一种高性能的分类器是很困难的。
不过,假如能找到一系列性能较差的分类器(弱分类器),并把它们集成起来的话,也许就能得到更好的分类器。
平常生活中,“三个臭皮匠,胜过诸葛亮”,便是体现了这种思想。
集成学习的基本概念
Classifier ensemble
Σαihi(x)
hn(x)
h2(x)
h1(x)
Input vector
Classifier 1
Classifier 2
……
Classifier N
Combine Classifiers
Output
x
集成学均的措施来构造集成学习的最终学习器。
不过里面的每一种 弱分类器(i)怎样构造呢?
有某些研究,是针对每个学习器都不一样构的状况,例如识别一种人,一种学习器考虑脸,另一种考虑步态,另一种考虑指纹。这种研究一般称为Information Fusion,不在我们今天讨论的范围。
狭义的集成学习(ensemble learning),是用同样类型的学习算法来构造不一样的弱学习器的措施。
集成学习:怎样构造?
措施就是变化训练集。
一般的学习算法,根据训练集的不一样,会给出不一样的学习器。这时就可以通过变化训练集来构造不一样的学习器。然后再把它们集成起来。
集成学习:怎样构造?
在本来的训练集上随机采样,可以得到新的训练集。
【随机采样】
集成学习(Ensemble Learning)是一种机器学习措施,它使用多种(一般是同质的)学习器来处理同一种问题
问题
… ...
… ...
问题
集成学习中使用的多种学习器称为个体学习器
当个体学习器均为决策树时,称为“决策树集成”
当个体学习器均为神经网络时,称为“神经网络集成”
…… ……
集成学习的定义
由于集成学习技术可以有效地提高学习系统的泛化能力,因此它成为国际机器学习界的研究热点,并被国际权威 . Dietterich 称为目前机器学习四大研究方向之首[. Dietterich, AIMag97]
问题:对20维超立方体空间中的区域分类
左图中纵轴为错误率
从上到下的四条线分别表达:
平均神经网络错误率
最佳神经网络错误率
两种神经网络集成的错误率
令人惊奇的是,集成的错误率比最佳的个体还低
[. Hansen & P. Salamon, TPAMI90]
【集成学习的重要性】
集成学习技术已经在行星探测、地震波分析、Web信息过滤、生物特征识别、计算机辅助医疗诊断等众多领域得到了广泛的应用
只要能用到机器学习的地方,就能用到集成学习
【集成学习的应用】