1 / 10
文档名称:

随机森林.doc

格式:doc   大小:110KB   页数:10页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

随机森林.doc

上传人:慢慢老师 2022/7/20 文件大小:110 KB

下载得到文件列表

随机森林.doc

文档介绍

文档介绍:随机森林
基础内容:
这里只是准备简单谈谈基础的内容,主要参考一下别人的文章,对于随机森林与GBDT,有两个地方比较重要,首先是information gain,其次是决策树。这里特别推荐Andrew Moore大牛的Decision 从决策树的根节点到叶子节点的每一条路径都形成一个类;决策树的算法很多,例如ID3算法,CART算法等。这些算法均采用自上而下的贪婪的算法,每个内部节点选择分类效果最好的属性进行分裂节点,可以分为两个或若干个子节点,继续此过程到这可决策树能够将全部训练数据准确的分类,或所有属性都被用到为止。具体步骤如下:
假设T为训练样本集。
选择一个最能区分T中样本的一个属性。
创建一个数的节点,它的值是所选择的属性,创建此节点的子节点,每个子链代表所选属性的唯一值,适用子链的值进一步将样本细分为子类。
对于3)创建的三个子类
如果子类的样本满足预定义的标准,或者树的这条路的剩余可选属性集为空,为沿此路径的新的样本指定类别。
叶节点
叶节点
如果子类不满足于定义的标准,或者至少有一个属性能细分树的路径,设T为当前子类样本的集合,返回步骤2),以下简单的给出二分树的结构图示:
根节点
规则1
规则1
叶节点
中间节点
规则2
中间节点
叶节点
建树算法在属性的选择标准非常重要。属性的选择的方法有很多种,例如信息增益(information gain)、信息增益比(information gain ratio)Gini指标(Gini Index)等方法。
ID3算法依据信息增益来选择属性。信息增益是在熵作为尺度的,是衡量属性对训练数据的分类的能力的标准。CART算法是利用Gini指标作为尺度来分裂属性的。Gini指标适用于二进制连续数值等类型的字段。为了防止决策树和训练样本集的过度拟合,需要对决策树进行剪枝。剪枝通常有事先剪枝法和事后剪枝法两种方法。事先剪枝法事建树过程中判断当前节点是否需要继续划分的简直方法。通常是通过重要性检测(或信息增益等)判断是否停止分裂节点。事后剪枝方法是让树“充分成长”之后在判断是否进行停止分裂节点。常用到的方法是根据错误分类率(或决策树编码长度)进行决策树的事后剪枝。决策树具有以下四个优点:
决策树方法不需要假设先验概率的分布,这种非参数化的特点使其具有更好的灵活性和鲁棒性。
决策树方法不仅可以利用连续实数或离散的数值样本,而且可以利用“语义数据”比如离散的语义数据:东、南、西、北等。
决策树方法产生的决策树或产生式规则具有结构简单直观,容易理解以及计算效率高的特点。
决策树方法能够有效地抑制训练样本噪音和解决属性缺失问题。因此可以防止由于训练样本存在噪声和数据确实引起的精度降低。
但决策树也有与生俱来的缺点:
分类规则杂
收敛到非全局的局部最优解
过度拟合 由于分类复杂则它可能过于适合噪声从而导致过度拟合问题。
为了克服以上的缺点,引入了另一种预测模式——随机森林。
随机森林的特征
随机森林具有以下的特征:
在现有的算法中随机森林算法的精度是无可比拟的。
随机森林能够有效地处理大的数据集。
随机森里面可以处理没