1 / 10
文档名称:

C45算法生成决策树的研究.doc

格式:doc   大小:144KB   页数:10页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

C45算法生成决策树的研究.doc

上传人:仅仅三声 2022/2/21 文件大小:144 KB

下载得到文件列表

C45算法生成决策树的研究.doc

文档介绍

文档介绍:精品范文模板 可修改删除

免责声明:图文来源于网络搜集,版权归原作者所以
若侵犯了您的合法权益,请作者与本上传人联系,我们将及时更正删除。
撰写人:___________日 期:__________
45
2
2
1
450
9
28
18
43
3
1
0
450
6
27
18
48
3
-1
0
500
5
29
18
40
4
1
0
500
7
非类别属性
类别属性
通过表2知,实际耗电量区间的个数为:
表3
序号
区间值
个数
1
0
2
2
4
1
3
5
3
4
6
1
5
7
2
6
9
1
总计
10
定义1:若存在n个相同概率的消息(Massage),则每个消息的概率p是1/n,一个消息传递的信息量为。若有16个事件,则,则需4个比特来代表一个消息。
例如:表3中,区间为0的信息量为:=

定义2:若给定的概率分布,则由该分布传递的信息量称为P的熵。即
注意:概率分布越均匀,其信息量越大)。
精品范文模板 可修改删除

免责声明:图文来源于网络搜集,版权归原作者所以
若侵犯了您的合法权益,请作者与本上传人联系,我们将及时更正删除。
定义3:若一个记录的集合T根据类别属性的值被分成互相独立的类则识别T的一个元素所属哪个类所需要的信息量是,其中P是的概率分布,即
例如:表3中,得到实际耗电量区间的信息量为(以下单位为比特,下同):
=
定义4:若我们先根据非类别属性X的值将T分成集合,则确定T中一个元素类的信息量可通过确定的加权平均值来得到,即Info()的加权平均值为:
例如:属性“室内温度”的值有“17、18、19”,分类见下表:
表4
序号
室内温度
个数
所属的区间(个数
1
17
2
5(1)
7(1)
2
18
6
0(1)
4(1)
5(2)
6(1)
7(1)
3
19
2
0(1)
9(1)
总计
10
P(17)=(1/2,1/2)
P(18)=(1/6,1/6,2/6,1/6,1/6)
P(19)=(1/2,1/2)
则每个温度的信息量为:
=
=
精品范文模板 可修改删除

免责声明:图文来源于网络搜集,版权归原作者所以
若侵犯了您的合法权益,请作者与本上传人联系,我们将及时更正删除。
=
=
定义5:将增益Gain(X,T)定义为:
。所谓增益,就是指在应用了某一测试之后,其对应的可能性丰富程度下降,不确定性减小,这个减小的幅度就是增益,其实质上对应着分类带来的好处)。
上式的增益值为:=-=
以上是ID3计算信息增益的方法,。,克服了ID3算法中信息增益选择属性时偏向选择取值多的属性的不足。若我们一个属性D,据其取值将T分成集合T1、T2……Tn,当每一个集合中所有记录得出