1 / 38
文档名称:

无监督学习与聚类.pptx

格式:pptx   大小:796KB   页数:38页
下载后只包含 1 个 PPTX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

无监督学习与聚类.pptx

上传人:wz_198613 2018/6/7 文件大小:796 KB

下载得到文件列表

无监督学习与聚类.pptx

文档介绍

文档介绍:监督学****与无监督学****br/>监督学****与无监督学****的最大区别在于训练样本是否有类别标号,无类别标号的称为无监督学****br/>监督学****与无监督学****也被称为有教师学****与无教师学****br/> 混合密度及可辨识性
从理论上讲,无监督学****可以看作是一个混合密度的估计问题:
所有样本都来自于c种类别,c已知;
每种类别的先验概率未知;
类条件概率的数学形式已知,但参数未知;
样本类别未被标记。
混合密度
样本可以看作是按如下方式产生的:先以概率决定其所属类别,然后根据概率密度生成一个具体的样本x。
因此x样本的产生概率为:
可辨识性
不可辨识:如果无论样本的数目有多少,都不存在唯一的解,则称密度是不可辨识的;
完全不可辨识:如果参数的任何部分都无法求出,则称为完全不可辨识;
大多数的混合密度是可以辨识的,但也存在某些混合密度是无法辨识的。
完全不可辨识
假设样本x的概率是由两个0-1分布混合而成,两个分布的先验概率相等,参数分别为则混合概率为:
即使可以统计出, 也无法求解出参数。
部分不可辨识
假设样本x的概率密度是两个均匀分布的混合:
如果训练样本是0-1之间的均匀分布:
则对任意的0<t<1,只要:
聚类准则函数
类别数 c = 2
误差平方和准则
将样本分成c个子集D1, …, Dc,ni为第i个子集的样本数,mi为样本均值:
误差平方和准则:
散布矩阵
类内散布矩阵:
类间散布矩阵:
总体散布矩阵:
散布准则
基于行列式的散布准则:
基于不变量的散布准则: