文档介绍：------------------------------------------------------------------------------------------------ ——————————————————————————————————————非监督学****法本章重点 1. 什么叫非监督学****方法,什么叫有监督学****方法? 2. 非监督学****方法主要的用途 3. 非监督学****方法的两种基本处理方法: 按分布密集程度划分, 与按相似度聚类划分 4. 按分布密度程度划分的基本方法 5. 动态聚类方法与分级聚类方法的概念 6. 典型的动态聚类方法 C- 均值算法与 ISODATA 算法 7. 使用非欧氏距离计算相似度的动态聚类方法 8. 分级聚类方法本章课前思考题 1. 如果给机器一维数据,机器能自动地找出其中存在的规律吗? 2. 有人把非监督学****方法叫无教师的学****而把第二章、第三章讨论的内容成为有监督学****又称有教师的学****你知道谁是教师吗?教师的作用体现在哪里? 3. 机器能总结数据中存在的哪些规律呢? 4. 机器能总结天气变化的规律,给出天气预报吗? 5. 机器能炒股吗? 6. 非监督学****方法与数据有关系吗? ------------------------------------------------------------------------------------------------ ——————————————————————————————————————知识树§ 引言以前各章讨论的分类器设计方法都是在样本集中的类别标签已知的条件下进行的, 这些样本称为训练样本。在样本标签已知的情况下, 可以统计出各类训练样本不同的描述量, 如其概率分布, 或在特征空间分布的区域等, 利用这些参数进行分类器设计, 称为有监督的学****方法。然而在实际应用中, 不少情况下无法预先知道样本的标签, 也就是说没有训练样本, 因而只能从原先没有样本标签的样本集开始进行分类器设计, 这就是通常说的无监督学****方法。对一个具体问题来说有监督与无监督的作法是不相同的。人们日常生活中经常要观察事物与分析事物,从中寻找其规律性, 这就是非监督学****方法要解决的问题。例如人们见到图的道路图时, 会发现中间有一条带与图中其它区域不同, 见到图会发现在这个二维空间中有数据显现出聚成两类的现象。这就是事物(对我们来说就是数据集) 自身体现出的一些规律性,非监督学****方法就是寻找数据集中体现出来的规律性。从中我们可以强调非监督学****与有监督学****方法的以下几种不同点: 1. 有监督学****方法必须要有训练集与测试样本。在训练集中找规律, 而对测试样本使用这种规律; 而非监督学****没有训练集这一说, 只有一组数据,在该组数据集内寻找规律。 2. 有监督学****方法的目的就是识别事物, 识别的结果表现在给待识别数据加上了标号。因此训练样本集必须由带标号的样本组成。------------------------------------------------------------------------------------------------ ——————————————————————————————————————而非监督学****方法只有要分析的数据集本身,预先没有什么标号。如果发现数据集呈现某种聚集性, 则可按自然的聚集性分类, 但不以与某种预先的分类标号对上号为目的。例如图道路图像, 有监督学****方法的目的是找到“道路”, 而非监督学****方法则只是将中间一条带状区域区分开来,本质上讲与“道路”这个标号没有关系。 3. 非监督学****方法在寻找数据集中的规律性, 这种规律性并不一定要达到划分数据集的目的,也就是说不一定要“分类”。这一点是比有监督学****方法的用途要广泛。譬如分析一堆数据的主分量,或分析数据集有什么特点都可以归于非监督学****方法的范畴。 4. 用非监督学****方法分析数据集的主分量与用 K-L 变换计算数据集的主分量又有区别。应该说后者从方法上讲不是一种学****方法。因此用 K-L 变换找主分量不属于非监督学****方法,即方法上不是。而通过学****逐渐找到规律性这体现了学****方法这一点。在人工神经元网络中寻找主分量的方法属于非监督学****方法。以上四点是对非监督学****方法的定义,及与有监督学****方法的区别。例如图表示对一幅道路图像按路面与非路面分类可用两种不同做法, 其中左图是在图像中路面区与非路面中各找一个窗口, 将其中每个象素分别作为这两类的训练样本集, 用这两个样本集在特征空间的分布参数进行设计。而无监督学****方法则不同, 它不预先选择样本类别的样本集, 而是将整幅图的像素都作为待分类样本集, 通过它们在特征空间中表现