1 / 6
文档名称:

决策树算法.docx

格式:docx   大小:136KB   页数:6页
下载后只包含 1 个 DOCX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

决策树算法.docx

上传人:guoxiachuanyue006 2022/6/11 文件大小:136 KB

下载得到文件列表

决策树算法.docx

文档介绍

文档介绍:决策树算法:顾名思义,以二分类问题为例,即利用自变量构造一颗二叉树,将目标变量区分出来,所有决策树算法的关键点如下:
1•分裂属性的选择。即选择哪个自变量作为树叉,也就是在n个自变量中,优先选择哪个自变量进行分叉。而采用何种计算方式选择树,取其中最大的信息增益作为最终的分裂点。如求修障时长的信息增益,首先将修障时长递增排序,、12、14、16、18、20、22、23、24、25,取相邻两个值的中点,,中点即为
(+12)/2=,同理可得其他中点,、13、15、17、19、21、、、。对每个中点都离散化成两个子集,,可以离散化为两个<=>,然后按照离散型变量的信息增益计算方式计算其信息增益,:
—hz1/1Ik9/44^55\
1就°燔膚时虽(満青度=77"(_T*<0S2g_g*10g2gj=°'222+J
(修障时长)=1-=
中点13的信息增益计算过程如下:
Info〔满童度I=^log-.—#logz—=1>
'7102101D"10
+土2/I111\8/4444\
【就口悔底旺艮(满意康二力*(一亍*10ga2_2*10§22^+10*:-':■--'*^§2gJ=1+J
(修障时长)=1-1=0
同理分别求得各个中点的信息增益,选取其中最大的信息增益作为分裂点,。然后与故障原因和故障类型的信息增益相比较,取最大的信息增益作为第一个树叉的分支,此例中选取了故障原因作为第一个分叉。按照同样的方式继续构造树的分支。
总之,信息增益的直观解释为选取按某个自变量划分所需要的期望信息,该期望信息越小,划分的纯度越高。因为对于某个分类问题而言,Info(D)都是固定的,而信息增益Gain(A)=Info(D)-InfoA(D)影响信息增益的关键因素为:-InfoA(D),即按自变量A进行划分,所需要的期望信息越小,整体的信息增益越大,越能将分类变量区分出来。

由于信息增益选择分裂属性的方式会倾向于选择具有大量值的属性(即自变量),如对于客户ID,每个客户ID对应一个满意度,即按此变量划分每个划分都是纯的(即完全的划分,只有属于一个类别),客户ID的信息增益为最大值1。但这种按该自变量的每个值进行分类的方式是没有任何意义的。为了克服这一弊端,有人提出了采用增益率(GainRate)来选择分裂属性。计算方式如下:
Pl%|DJ
SplitIfifoA(D)=-基币厂^ga(—)+^
Gain(A)
GainRate.:Dj=/
ASplitInfoA
其中Gain(A)的计算方式与ID3算法中的信息增益计算方式相同以故障原因为例:
=
Gain(故障原因)=(前文已求得)
GainRate故障原因(满意度)==
同理可以求得其他自变量的增益率。
选取最大的信息增益率作为分裂属性。

CART算法选择分裂属性的方式是比较有意思的,首先