文档名称：

无监督学习和聚类PPT学习教案.pptx

格式：pptx 大小：1,560KB 页数：61页

下载后只包含 1 个 PPTX 格式的文档，没有任何的图纸或源代码，查看文件列表

如果您已付费下载过本站文档，您可以点这里二次下载

预览

下载此文档

无监督学习和聚类PPT学习教案.pptx

上传人:wz_198613 2021/6/3 文件大小：1.52 MB

下载得到文件列表

无监督学习和聚类PPT学习教案.pptx

相关文档

文档介绍

文档介绍：会计学
1
无监督学****和聚类
7 无监督学****和聚类
(Unsupervised learning, Clustering)
监督学****给定已知类别的学****样本，设计分类器。
非监督学****给定未知(未知类别及类别数)样本，设计分类器。
两大类非监督学****基于概率密度函数估计的直接方法和基于样本间相似性(similarity)度量的间接聚类方法。
第1页/共61页
主要内容
掌握非监督学****方法的概念、用途。
了解非监督学****方法对数据划分有两种基本方法。
掌握以k-均值算法，ISODATA算法为代表的动态聚类方法。
了解层次(分级)聚类方法。
第2页/共61页
基本概念
以前讨论分类器设计方法都是在样本集中的类别已知的条件下进行的，这些样本称为训练样本。统计出各类训练样本不同的描述量，如其概率分布，或在特征空间分布的区域等，利用这些参数进行分类器设计，称为有监督的学****方法。
未知样本的类别，没有训练样本，因而只能从未知样本类别样本集进行分类器设计，这就是通常说的无监督学****方法。
第3页/共61页
第4页/共61页
第5页/共61页
非监督学****与有监督学****方法的区别：
有监督学****方法必须有训练集与测试样本。在训练集中找规律，而对测试样本使用这种规律；而非监督学****没有训练集，只有一组数据，在该组数据集内寻找规律。
有监督学****方法的目的是识别事物，识别的结果表现在给待识别数据加上了标号。因此训练样本集必须由带标号样本组成；而非监督学****方法只有分析数据集本身，无标号。如果发现数据集呈现某种聚集性，则可按自然的聚集性分类，但不以与某种预先的分类标号为目的。
第6页/共61页
非监督学****方法在寻找数据集中的规律性，这种规律性不是划分数据集的目的，即不一定要“分类”。比如分析数据的主分量，或分析数据集的特点。
非监督学****方法分析数据集的主分量与用K-L变换计算数据集的主分量又有区别。
K-L变换不是一种学****方法，不属于非监督学****方法。
在人工神经元网络中寻找主分量的方法属于非监督学****方法。
第7页/共61页
非监督学****方法可以分成两大类：
一类为基于概率密度函数估计的直接方法：设法找到各类别在特征空间的分布参数再进行分类；
一类称为基于样本间相似性度量的间接聚类方法。其原理是设法定出不同类别的核心或初始类核，然后依据样本与这些核心之间的相似性度量将样本聚集成不同类别。
第8页/共61页
基于概率密度函数估计的直接方法
该方法的关键是找出各个峰值区。
单峰子类的分离方法(称为投影法)
每个分量有无峰谷点表现出来。
利用投影，直接找密集区域。
第9页/共61页