1 / 12
文档名称:

SAS决策树.doc

格式:doc   大小:779KB   页数:12页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

SAS决策树.doc

上传人:wz_198613 2019/7/5 文件大小:779 KB

下载得到文件列表

SAS决策树.doc

文档介绍

文档介绍:信贷风险建模试验案例研讨系列(二)概论决策树通过应用一系列简单的规则建立起对观测数据的分类。决策树对于观测值的分类建立在变量的输入值基础上。每条规则都是在前一条规则形成的层次的基础上对观测数据的进一步划分,而最终建立的划分层次称为决策树,每个划分段称为决策树的一个结点。最初的未进行划分的片段包括所有的观测数据称作决策树的根结点。一个结点和它所有的后续结点共同构成一颗子树。决策树中最底层的结点叫做叶子。观测数据都将会被分配到其中的一个叶子之中。建立决策树实例本文将引用SAS软件自带数据()建立决策树,用来分析是否应该同意客户的家庭资产抵押贷款。该数据集包含5,960个观测数据并存放在抽样数据库中。BAD目标变量是一个二进制变量用于指明贷款申请者是有可能拖欠贷款者还是可信的。%。该数据集中有12解释变量用于建立决策树。(一)建立决策树的变量要求决策树的建立需要一个目标变量(响应变量),以及至少一个输入变量(自变量、解释变量)。响应变量和解释变量的设置在输入数据源结点中设置。(二)结点总揽建立的决策树数据分析过程包括一下三个结点InputDataSource、DataPartition以及决策树结点,最终建立结果如图(1):图(1)(三)新建数据挖掘项目SAS的命令窗口输入命令miner,进入数据挖掘窗口。在菜单栏中选择文件—〉新建—〉项目,弹出新建数据挖据项目如图(2)。图(2)在Createnewproject窗口中点击Create按钮,进入newtree项目。并为新的数据项目更名为:TreeNode。(四)建立输入数据源结点添加一个输入数据源结点,为本次数据分析建立起数据源。增加一个InputDataSource结点,选择项目列表下方的Tools选项。在列表中选择InputDataSource结点,点击鼠标左键将InputDataSource拖入右侧的工作空间。双击工作空间InputDataSource结点,进入InputDataSource的设置窗口。在InputDataSource设置窗口中的Data项中点击Select按钮,选择数据源。进入选择SASDataSet窗口。在Library项选择SAMPSIO—〉HMEQ。如图(3)。图(3)点击ok,回到InputDataSource设置窗口,选择Variables项,在variables项中找到BAD数据项,在BAD行ModelRole项上点击鼠标右键选择SetModelRole选项—〉Target项,如图(4)。图(4)关闭InputDataSource设置窗口,并保存。(五)建立DataPartition结点DataPartition结点主要将元数据分为训练数据、验证数据和测试数据。其中训练数据用于生成决策树轮廓,验证数据用于比较响应变量的观测值和预测值,而测试数据使用不多。像拖入InputDataSource结点一样,将DataPartition从左侧列表框拖入右侧的工作平台。建立InputDataSource结点和DataPartition结点之间的连接。如图(5)。图(5)双击DataPartition图标,进入属性设置界面,设置属性如图(6)图(6)关闭该窗口,并保存。(六)建立TreeNode结点TreeNode节点是进行决策树分析的中心结点,对它的不同设置和操作将对数据集建立起不同的决策树模型。像拖入InputDataSource结点一样,将Tree从左侧列表框拖入右侧的工作平台。建立DataPartition结点和Tree结点之间的连接。如图(7)。图(7)双击tree图标,进入相关属性设置界面,相关标签属性和设置介绍如下:Data标签:该标签中展示了前一结点数据集的名称和相关的描述,这些数据集包括训练数据和验证数据等。如图(8)。图(8)Variables标签:variables标签中可以看到观测数据集各数据项的相关情况,如图(9),图(9)在每一个标题头上点击鼠标左键,可以按该列对表格中各项进行排序。其中可以在Status属性中列中单击鼠标右键选择SetStatus将Use状态更改为Don’tUse状态。在ModelRole列点击鼠标右键选择edittargetprofile将变量进行目标变量和解释变量之间的转化。Basic标签:在Basic标签中,可以指定划分规则以及与决策树大小相关的各种参数值。下面是一个有关Basic标签各项的一个展示如图(10)。图(10)其中划分规则(splittingcriteria)可以根据目标变量的度量方面进行选择。对于定性或二进制的目标变量,可以选择以下划分规则:检验(默认)——Pearson检验用于衡量对目标变量建立分支结点,其默认显著