1 / 26
文档名称:

EM算法及其推广解析PPT课件.pptx

格式:pptx   大小:535KB   页数:26页
下载后只包含 1 个 PPTX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

EM算法及其推广解析PPT课件.pptx

上传人:wz_198613 2021/6/29 文件大小:535 KB

下载得到文件列表

EM算法及其推广解析PPT课件.pptx

文档介绍

文档介绍:EM算法是一种迭代算法,1977年由Dempster 等人总结提出,用于含有隐变量的概率模型参数的极大似然估计,或极大后验概率估计。EM算法的每次迭代由两步组成:E步,求期望;M步,求极大。所以这一算法称为期望极大算法(Expectation Maximization),简称EM算法。
第1页/共26页
极大似然估计
极大似然估计是概率论在统计学中的应用,它是参数估计的方法之一。说的是已知某个随机样本满足某种概率分布,但是其中具体的参数不清楚,参数估计就是通过若干次实验,观察其结果,利用结果推出参数的大概值。
第2页/共26页
极大似然估计
似然函数:
已知样本集X,X是通过概率密度p(x|θ)抽取。样本集X中各个样本的联合概率:
为了便于分析,由于L(θ)是连乘的,还可以定义对数似然函数,将其变成连加的:
第3页/共26页
极大似然估计
求极值可以转换为以下方程:
θ的极大似然估计量表示为:
第4页/共26页
EM算法的引入
EM算法
EM算法的导出
EM算法在非监督学习中的应用
EM算法的收敛性
第5页/共26页
EM算法
(三硬币模型)假设有3枚硬币,分别记作A, B, C. 这些硬币正面出现的概率分别是π, p, q. 进行如下掷硬币试验:先掷硬币A,根据其结果选出硬币B或硬币C,正面选硬币B,反面选硬币C;然后掷选出的硬币,掷硬币的结果,出现正面记作1,出现反面记作0;独立地重复n次试验(这里,n=10),观测结果如下:
1,1,0,1,0,0,1,0,1,1
假设只能观测到掷硬币的结果,不能观测掷硬币的过程。问如何估计三硬币正面出现的概率,即三硬币模型的参数。
第6页/共26页
解 三硬币模型可以写作
y: 观测变量,表示一次试验观测的结果是1或0
z: 隐变量,表示未观测到的掷硬币A的结果
θ:θ=(π,p,q)是模型参数
第7页/共26页
将观测数据表示为Y=(Y1,Y2,…,Yn)T,未观测数据表示为Z=(Z1,Z2,…,Zn)T,则观测数据的似然函数为


考虑求模型参数θ=(π,p,q)的极大似然估计,即
第8页/共26页
EM算法首先选取参数的初值,记作
,然后通过下面的步骤迭代计算参数的估计值,直至收敛为止。第i次迭代参数的估计值为 。EM算法的第i+1次迭代如下
E步:计算在模型参数 下观测数据yj 来自掷硬币B的概率
那么观测数据yj 来自硬币C的概率为1-μ(i+1)
第9页/共26页
M步:先写出期望
然后分别求导,计算模型参数的新估计值
第10页/共26页