1 / 32
文档名称:

em算法及其在半监督学习中的运用资料.ppt

格式:ppt   页数:32页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

em算法及其在半监督学习中的运用资料.ppt

上传人:分享精品 2016/5/14 文件大小:0 KB

下载得到文件列表

em算法及其在半监督学习中的运用资料.ppt

相关文档

文档介绍

文档介绍:半监督学****Semi-supervised Learning ) ?有监督的学****学****器通过对大量有标记的训练例进行学****从而建立模型用于预测未见示例的标记(label) 。很难获得大量的标记样本。?无监督的学****无训练样本,仅根据测试样本的在特征空间分布情况来进行标记, 准确性差。?半监督的学****有少量训练样本,学****机以从训练样本获得的知识为基础,结合测试样本的分布情况逐步修正已有知识,并判断测试样本的类别。学****分类半监督学****的过程传统的训练学****算法需要利用大量有标记的样本进行学****随着信息技术的飞速发展,收集大量未标记的( unlabeled )样本已相当容易,而获取大量有标记的示例则相对较为困难,因为获得这些标记可能需要耗费大量的人力物力。如何利用大量的未标记样本来改善学****性能成为当前模式识别研究中备受关注的问题。优点:半监督学****Semi-supervised Learning )能够充分利用大量的未标记样本来改善分类器的性能,是目前利用未标记样本进行学****的主流技术。半监督学****背景?在进行 Web 网页推荐时,需要用户标记出哪些网页是他感兴趣的,很少会有用户愿意花大量的时间来提供标记,因此有标记的网页示例比较少,但 Web 上存在着无数的网页,它们都可作为未标记示例来使用。?这类问题直接来自于实际应用:例如,大量医学影像,医生把每张片子上的每个病例都标出来再进行学****是不可能的,能否只标一部分,并且还能利用未标的部分? 半监督学****的应用领域半监督学****的主要方法?生成模型( Generative Model ) ?图基方法( graph-based methods ) ?转导支持向量机( Transductive Support Vector Machines ) 生成模型( Generative Model) ?概述: 样本数据分为标记样本和未标记样本,按照统计的观点,对于每一个样本的产生,其背后都有一个模型,即样本生成模型( generative models )。样本生成模型的参数先由标记样本确定,再通过标记样本和利用当前模型判断标记的未标记样本共同调整。生成模型( Generative Model) 中目前最流行的方法是期望最大化( EM )算法,期望最大化是一种基于循环过程的最大似然参数估计方法,用于解决带缺失数据的参数估计问题。是最早的半监督学****方法。 EM 算法描述 9 ? EM 是一种聚类算法?聚类:将数据集中的数据分成若干类(簇), 使类内相似度尽可能大,类间相似度尽可能小? EM 算法是基于模型的聚类方法,假设样本分布符合高斯混合模型,算法目的是确定各个高斯部件的参数,充分拟合给定数据,并得到一个模糊聚类,即每个样本以不同概率属于每个高斯分布,概率数值将由以上各个参数计算得到。极大似然估计( MLE) 10 ?独立同分布( IID) 的数据其概率密度函数为似然函数定义为 log 似然函数定义为?的极大似然估计为),,,( 21nXXX???)|(?xf?????? ni iXffL 1)|()|()|(???)|( log )|(?????L l?????)|( max arg )|( max arg ^????l L ?