1 / 43
文档名称:

无监督学习和聚类.ppt

格式:ppt   大小:2,763KB   页数:43页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

无监督学习和聚类.ppt

上传人:中华文库小当家 2020/11/10 文件大小:2.70 MB

下载得到文件列表

无监督学习和聚类.ppt

文档介绍

文档介绍:中山火學
第十章无监督学****和聚类
中山火學

有监督学****和无监督学****br/>有监督训练过程
训练样本集中每个样本的类别已经被标记
无监督训练过程
使用未被标记的训练样本
中山火學
“无监督”方法非常有用,因为:
●收集并标记大型样木集非常费时费力
—例如:语音信息的记录
●逆向解决问题:用大量未标记样本集训练,再
人工标记数据分组
-例如:数据挖掘的应用
●对于待分类模式性质会随时间变化的情况,使
用无监督方法可以大幅提升分类器性能
-例:自动食品分类器中食品随季节而改变
中山火學
“无监督”方法非常有用,因为:
●用无监督方法提取一些对进一步分类很有用的
基本特征
独立于数据的“灵巧预处理”,“灵巧特
征提取”
●揭示观测数据的一些内部结构和规律
就能更有效设计有针对性的分类器
中山火學
混合密度
P(x18)=2P(xIO,0P(o,)
参数向量:θ=(01…,0.)
分量密度:pP(xo,,)
混合参数
P(O;)
中山火學
目标和方法
●目标:使用从混合密度中取出的样本去估计未
知的参数向量6
旦θ已知时,将样本的混合密度分解为基本
分量,据此设计最大后验(MAP)分类器
中山火學
解的存在性
●假设样本数量无穷;用非参数技术可获得任
意样本x上的概率p(x|P)
·如果仅仅存在一个满足p(x|),那么理论
上存在解。
如果几个不同的e取值都产生相同的p(x0),
那么不可能得到唯一的解。
中山火學
可辨识密度
p(x10)可辨识的是指:
如果θ≠'→存在某个x使得P(X|0)≠p(x|0)
p(x1)不可辨识
无论样本数量多少,都不存在唯一的解θ
p(x)完全不可辨识
参数向量的任何部分都无法求出
中山火學
例子:不可辨识的离散分布混合密度
P(x)=O(1-0)+02(1-02)
(O1+O2)i
,+,)ifx=0
P(x=116)=,P(x=016)=→
+O=