文档介绍：1/60
目标任务与主要内容
复****信息熵
熵、联合熵、条件熵、互信息
决策树学****算法
信息增益
ID3、、CART
Bagging与随机森林的思想
投票机制
分类算法的评价指标
ROC曲线和AUC值
决策树与随机森林
邹博
北京10月机器学****班& ML在线公开课第1期
2015年1月11日
3/60
决策树的实例(Weka自带测试数据)
注:Weka的全名是怀卡托智能分析环境(Waikato Environment for Knowledge Analysis),是一款免费的,非商业化(与之对应的是SPSS公司商业数据挖掘产品--Clementine )的,基于JAVA环境下开源的机器学****machine learning)以及数据挖掘(data minining)软件。它和它的源代码可在其官方网站下载。
4/60
复****熵
将离散随机变量X的概率分布为P(X=xi),则定义熵为:
若P为连续随机变量,则概率分布变成概率密度函数,求和符号变成积分符号。
在不引起混淆的情况下,下面谈到的“概率分布函数”,其含义是:
1、若X为离散随机变量,则该名称为概率分布函数;
2、若X为连续随机变量,则该名称为概率密度函数。
5/60
对熵的理解
熵是随机变量不确定性的度量,不确定性越大,熵值越大;若随机变量退化成定值,熵为0
均匀分布是“最不确定”的分布
熵其实定义了一个函数(概率分布函数)到一个值(信息熵)的映射。
P(x)H (函数数值)
泛函
回忆一下关于“变分推导”章节中对于泛函的内容。
6/60
联合熵和条件熵
两个随机变量X,Y的联合分布,可以形成联合熵Joint Entropy,用H(X,Y)表示
H(X,Y) – H(Y)
(X,Y)发生所包含的信息熵,减去Y单独发生包含的信息熵——在Y发生的前提下,X发生“新”带来的信息熵
该式子定义为Y发生前提下,X的熵:
条件熵H(X|Y) = H(X,Y) – H(Y)
7/60
推导条件熵的定义式
8/60
相对熵
相对熵,又称互熵,交叉熵,鉴别信息,Kullback熵,Kullback-Leible散度等
设p(x)、q(x)是X中取值的两个概率分布,则p对q的相对熵是
说明:
相对熵可以度量两个随机变量的“距离”
在“贝叶斯网络”、“变分推导”章节使用过
一般的,D(p||q) ≠D(q||p)
D(p||q)≥0、 D(q||p) ≥0 提示:凸函数中的Jensen不等式
9/60
互信息
两个随机变量X,Y的互信息,定义为X,Y的联合分布和独立分布乘积的相对熵。
I(X,Y)=D(P(X,Y) || P(X)P(Y))
10/60
计算H(X)-I(X,Y)