1 / 5
文档名称:

分类和回归树CART.doc

格式:doc   大小:21KB   页数:5页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

分类和回归树CART.doc

上传人:Gebu 2022/6/30 文件大小:21 KB

下载得到文件列表

分类和回归树CART.doc

相关文档

文档介绍

文档介绍:分类和回归树CART
分 类 和 回 归 树 (CART )
李保坤老师
西南财经大学
统计学院本 节 内 容 提 要CART 算 法关 于 混 杂 度 -- 基 尼 指 数 -- 二 分 指 数剪 枝CART 对 缺 失 值 满 足 后 生 长 过 程 停 止 。混 杂 度 的 几 个 测 度目 标 变 量 是 类 别 变 量 ( 名 义 ) ? 基 尼 指 数 ( Gini Index ) ? 二 分 指 数 (Twoing Index )目 标 变 量 是 类 别 变 量 ( 有 序 ) ? 有 序 二 分 指 数 (Ordered Twoing )目 标 变 量 是 连 续 变 量 ? 最 小 平 方 偏 差 (Least-Squared Deviation )混 杂 度 : 基 尼 指 数如 果 一 个 数 据 集 合T 的 观 测 记 录 里 包 括n
个 类 别 , 基 尼 指 数 的 定 义 如 下 : 其 中 是 节 点t 的 类 别j 的 相 对 比 例混 杂 度 : 基 尼 指 数如 果 一 个 数 据 集 合T 被 划 分 为 两 个 子 集 合T
1
和T , 对 应 的 记 录 数 量 分 别 是N 和N , 划 分
2 1 2
split 的 基 尼 指 数 被 定 义 为 :实 际 上 , 这 是 两 个 子 集 的
基 尼 指 数 的 加 权
平 均 值混 杂 度 : 基 尼 指 数基 尼 指 数 的 最 大 值 是1-1/k , 在 此k 是 类 别 的
数 量 。 当 观 测 记 录 在k 个 类 别 上 平 均 分 布 时
基 尼 指 数 就 会 最 大基 尼 指 数 的 最 小 值 的0 , 这 是 当 所 有 的 观 测
记 录 都 属 于 某 一 个 类 别 时 会 发 生 的 情 况混 杂 度 : 基 尼 指 数一 个 分 类 成 功 的 输 入 变 量 会 把 观 测 记 录 中
的 某 一 个 类 别 在 节 点 中 占 多 数输 入 变 量 在 这 方 面 越 成 功 , 从 根 节 点 到 子
节 点 的 基 尼 指 数 的 变 化 量 就 越 大基 尼 指 数 的 变 化 量对 于 划 分s , 在 节 点t , 基 尼 指 数 的 变 化 量 可
以 按 以 下 公 式 计 算 :能 实 现 最 大 变 化 量 的 划 分s ( 即 在 某 输 入 变
量 某 个 值 上 把 节 点 里 观 测 记 录 划 分 到 两 个
子 节 点 ) 将 被 选 用关 于 混 杂 度 示 例后 面 的 3 个 片 子 由Dr. Hyunjoong Kim, Dept
of Statistics, University of Tennessee 制 作混 杂 度 测 量 : 基 尼 指 数
数据
混杂度
一个划分划 分 的 优 度
基尼指数的变化量:数据
混杂度
另一个
划分
是更好
的划分基 尼 指 数 的 广 义 公 式 其中
Ci|j 把类别j 的记录分类到类别i 的错误分类代价 πj 类别j 的先验值基 尼 指 数 划 分 的 特 点基 尼 指 数 关 注 的 目 标 变 量 里