1 / 12
文档名称:

SAS决策树.docx

格式:docx   大小:1,021KB   页数:12页
下载后只包含 1 个 DOCX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

SAS决策树.docx

上传人:buzaiwuzhuang123 2019/10/24 文件大小:1021 KB

下载得到文件列表

SAS决策树.docx

文档介绍

文档介绍:数据挖掘实务信贷风险建模试验案例研讨系列(二)一、概论决策树通过应用一系列简单的规则建立起对观测数据的分类。决策树对于观测值的分类建立在变量的输入值基础上。每条规则都是在前一条规则形成的层次的基础上对观测数据的进一步划分,而最终建立的划分层次称为决策树,每个划分段称为决策树的一个结点。最初的未进行划分的片段包括所有的观测数据称作决策树的根结点。一个结点和它所有的后续结点共同构成一颗子树。决策树中最底层的结点叫做叶子。观测数据都将会被分配到其中的一个叶子之中。二、建立决策树实例本文将引用 SAS 软件自带数据()建立决策树,用来分析是否应该同意客户的家庭资产抵押贷款。该数据集包含 5,960 个观测数据并存放在抽样数据库中。BAD目标变量是一个二进制变量用于指明贷款申请者是有可能拖欠贷款者还是可信的。这种不利情况可能在 1189 个案例中发生的可能性 %。该数据集中有 12 解释变量用于建立决策树。(一)建立决策树的变量要求决策树的建立需要一个目标变量(响应变量),以及至少一个输入变量(自变量、解释变量)。响应变量和解释变量的设置在输入数据源结点中设置。(二)结点总揽建立的决策树数据分析过程包括一下三个结点 Input Data Source、Data Partition 以及决策树结点,最终建立结果如图(1):图(1)第 1 页 共 12 页数据挖掘实务(三)新建 数据挖掘项目1、 SAS 的命令窗口输入命令 miner,进入数据挖掘窗口。2、 在菜单栏中选择 文件 —〉新建—〉项目,弹出新建数据挖据项目 如 图(2)。图 (2)3、 在 Create new project 窗口中点击 Create 按钮,进入 new tree 项目。并为新的数据项目更名为:Tree Node。(四)建立输入数据源结点添加一个 输入数据源 结点,为本次数据分析建立起数据源。 增加一个 Input Data Source 结点,选择项目列表下方的 Tools 选项。在列表中选择 Input Data Source 结点,点击鼠标左键将 Input Data Source 拖入右侧的工作空间。 双击工作空间 Input Data Source 结点,进入 Input Data Source 的设置窗口。 在 Input Data Source 设置窗口中的 Data 项中点击 Select 按钮,选择数据源。进入选择 SAS Data Set 窗口。在 Library 项选择 SAMPSIO—〉 HMEQ。如图(3)。图(3)第 2 页 共 12  点击 ok,回到 Input Data Source 设置窗口,选择 Variables 项,在variables 项中找到 BAD 数据项,在 BAD 行 Model Role 项上点击鼠标右键选择 Set Model Role 选项—〉Target 项,如图(4)。图(4) 关闭 Input Data Source 设置窗口,并保存。(五)建立 Data Partition 结点Data Partition 结点主要将元数据分为训练数据、验证数据和测试数据。其中训练数据用于生成决策树轮廓,验证数据用于比较响应变量的观测值和预测值,而测试数据使用不多。1. 像拖入 Input Data Source 结点一样,将 Data Partition 从左侧列表框拖入右侧的工作平台。2. 建立 Input Data Source 结点 和 Data Partition 结点之间的连接。如图(5)。图(5)3. 双击 Data Partition 图标,进入属性设置界面,设置属性如图(6)第 3 页 共 12 页数据挖掘实务图(6)4. 关闭该窗口,并保存。(六)建立 Tree Node 结点Tree Node 节点是进行决策树分析的中心结点,对它的不同设置和操作将对数据集建立起不同的决策树模型。1. 像拖入 Input Data Source 结点一样,将 Tree 从左侧列表框拖入右侧的工作平台。2. 建立 Data Partition 结点 和 Tree 结点之间的连接。如图(7)。图(7)3. 双击 tree 图标,进入相关属性设置界面,相关标签属性和设置介绍如下:1) Data 标签:该标签中展示了前一结点数据集的名称和相关的描述,这些数据集包括训练数据和验证数据等。如图(8) 。图(8)第 4 页 共 12 页数据挖掘实务2) Variables 标签:variables 标签中可以看到观测数据集各数据项的相关情况,如图(9),图(9)A. 在每一个标题头上点击鼠标左键,可以按该列对表格中各项进行排