文档介绍:半监督学习( Semi-supervised Learning ) ?有监督的学的训练例进行学(label) 。很难获得大量的标记样本。?无监督的学习:无训练样本,仅根据测试样本的在特征空间分布情况来进行标记, 准确性差。?半监督的学习:有少量训练样本,学习机以从训练样本获得的知识为基础,结合测试样本的分布情况逐步修正已有知识,并判断测试样本的类别。学习分类半监督学的样本进行学的( unlabeled )样本已相当容易,而获取大量有标记的示例则相对较为困难,因为获得这些标记可能需要耗费大量的人力物力。如何利用大量的未标记样本来改善学习性能成为当前模式识别研究中备受关注的问题。优点:半监督学习( Semi-supervised Learning )能够充分利用大量的未标记样本来改善分类器的性能,是目前利用未标记样本进行学习的主流技术。半监督学习背景?在进行 Web 网页推荐时,需要用户标记出哪些网页是他感兴趣的,很少会有用户愿意花大量的时间来提供标记,因此有标记的网页示例比较少,但 Web 上存在着无数的网页,它们都可作为未标记示例来使用。?这类问题直接来自于实际应用:例如,大量医学影像,医生把每张片子上的每个病例都标出来再进行学习,是不可能的,能否只标一部分,并且还能利用未标的部分? 半监督学习的应用领域半监督学习的主要方法?生成模型( Generative Model ) ?图基方法( graph-based methods ) ?转导支持向量机( Transductive Support Vector Machines ) 生成模型( Generative Model) ?概述: 样本数据分为标记样本和未标记样本,按照统计的观点,对于每一个样本的产生,其背后都有一个模型,即样本生成模型( generative models )。样本生成模型的参数先由标记样本确定,再通过标记样本和利用当前模型判断标记的未标记样本共同调整。生成模型( Generative Model) 中目前最流行的方法是期望最大化( EM )算法,期望最大化是一种基于循环过程的最大似然参数估计方法,用于解决带缺失数据的参数估计问题。是最早的半监督学习方法。 EM 算法描述 9 ? EM 是一种聚类算法?聚类:将数据集中的数据分成若干类(簇), 使类内相似度尽可能大,类间相似度尽可能小? EM 算法是基于模型的聚类方法,假设样本分布符合高斯混合模型,算法目的是确定各个高斯部件的参数,充分拟合给定数据,并得到一个模糊聚类,即每个样本以不同概率属于每个高斯分布,概率数值将由以上各个参数计算得到。极大似然估计( MLE) 10 ?独立同分布( IID) 的数据其概率密度函数为似然函数定义为 log 似然函数定义为?的极大似然估计为),,,( 21nXXX???)|(?xf?????? ni iXffL 1)|()|()|(???)|( log )|(?????L l?????)|( max arg )|( max arg ^????l L ?