文档介绍:提纲
1、EM vs K-means
2、问题描述
3、极大似然估计介绍
4、隐藏变量
5、EM算法框架
6、举例和应用
7、实验
第1页/共23页
1、EM vs K-means
K-means:
,随机选取簇中心
,划分点的类别
,迭代2~4步直到收敛。
EM:
,对分布的参数随机赋值θ
,使得似然最大化。迭代2~3步直到收敛。
Eik 可以作为聚类时候决策的依据
第2页/共23页
2、问题描述
假设给定一个样本集D={x1,x2,x3....xn}且知道这个样本集是由K个未知模型产生的数据。我们需要通过这个样本集去分别估计这K个概率模型的参数θK (K=1,2,3….)使得这K个概率模型产生数据集D的概率最大。
第3页/共23页
2、问题示意图
模型参数?
数据类别?
第4页/共23页
3、极大似然估计思想
你同学与一位猎人一起外出打猎,一只野兔从前方窜过.只听一声枪响,野兔应声到下,如果要你推测,这一发命中的子弹是谁打的?
——这时你会想,这个人一枪就能打中兔子,由于猎人命中的概率大于你的同学,所以打中兔子的应该是猎人。也就是说这时候命中的概率应该属于猎人的概率。
极大似然估计的思想:对于已经发生的事情,
我们认为产生这个结果所对应的概率应该是最大的。
第5页/共23页
3、极大似然估计
,其概率函数为 P(X|θ) ,其中 θ是未知参数.若已知样本取值为x1,x2,x3.....xn则事件{X1 = x1 , X2 = x2,…Xn = xn }发生的概率为 :
。
θ。通常对函数求偏导得到极大值。
第6页/共23页
(1)
(2)
3、简化的原问题
,因此对于n个对象数据的数据集D由联合概率
,f2…fk,而观察数据X由他们产生的概率为ω1, ω2,…
第7页/共23页
(3)
(4)
假设这K个分布Z的参数集合θ={θ1,θ2… θK}
则由上述公式推出:
其中:
3、简化的原问题
第8页/共23页
数据Xi来自第K个分布
数据Xi不是来自第K个分布
K=1,2,3....
i=1,2,3...
4、隐藏变量Zik
如果我们知道我们观察到的每一个数据x属于哪一个模型,求模型的参数并不难。
而现实往往是:
我们不知道X来自哪一个分布,我们只能对每一个观测数据都引入隐藏变量
此时我们的观察量不仅是X={x1,x2....xn}而是:
{(x1,z11),(x1,z12)...(x1,z1k);(x2,z21)...(x2,z2k);…}
第9页/共23页
我们的任务是使得该似然函数的表达式取得最大值得到对应的参数集合θ
4、隐藏变量Zik
其中:
第10页/共23页