文档介绍：有监督学****方法非监督学****法本章重点什么叫非监督学****方法,什么叫有监督学****方法?非监督学****方法主要的用途非监督学****方法的两种基本处理方法:按分布密集程度划分,与按相似度聚类划分按分布密度程度划分的基本方法动态聚类方法与分级聚类方法的概念典型的动态聚类方法c-均值算法与isodata算法使用非欧氏距离计算相似度的动态聚类方法分级聚类方法本章课前思考题如果给机器一维数据,机器能自动地找出其中存在的规律吗?有人把非监督学****方法叫无教师的学****而把第二章、第三章讨论的内容成为有监督学****又称有教师的学****你知道谁是教师吗?教师的作用体现在哪里?机器能总结数据中存在的哪些规律呢?机器能总结天气变化的规律,给出天气预报吗?机器能炒股吗?非监督学****方法与数据有关系吗?,这些样本称为训练样本。在样本标签已知的情况下,可以统计出各类训练样本不同的描述量,如其概率分布,或在特征空间分布的区域等,利用这些参数进行分类器设计,称为有监督的学****方法。然而在实际应用中,不少情况下无法预先知道样本的标签,也就是说没有训练样本,因而只能从原先没有样本标签的样本集开始进行分类器设计,这就是通常说的无监督学****方法。对一个具体问题来说有监督与无监督的作法是不相同的。人们日常生活中经常要观察事物与分析事物,从中寻找其规律性,这就是非监督学****方法要解决的问题。,会发现中间有一条带与图中其它区域不同,。这就是事物(对我们来说就是数据集)自身体现出的一些规律性,非监督学****方法就是寻找数据集中体现出来的规律性。从中我们可以强调非监督学****与有监督学****方法的以下几种不同点:。在训练集中找规律,而对测试样本使用这种规律;而非监督学****没有训练集这一说,只有一组数据,在该组数据集内寻找规律。,识别的结果表现在给待识别数据加上了标号。因此训练样本集必须由带标号的样本组成。而非监督学****方法只有要分析的数据集本身,预先没有什么标号。如果发现数据集呈现某种聚集性,则可按自然的聚集性分类,但不以与某种预先的分类标号对上号为目的。例如图1道路图像,有监督学****方法的目的是找到“道路”,而非监督学****方法则只是将中间一条带状区域区分开来,本质上讲与“道路”这个标号没有关系。,这种规律性并不一定要达到划分数据集的目的,也就是说不一定要“分类”。这一点是比有监督学****方法的用途要广泛。譬如分析一堆数据的主分量,或分析数据集有什么特点都可以归于非监督学****方法的范畴。-l变换计算数据集的主分量又有区别。应该说后者从方法上讲不是一种学****方法。因此用k-l变换找主分量不属于非监督学****方法,即方法上不是。而通过学****逐渐找到规律性这体现了学****方法这一点。在人工神经元网络中寻找主分量的方法属于非监督学****方法。以上四点是对非监督学****方法的定义,及与有监督学****方法的区别。,其中左图是在图像中路面区与非路面中各找一个窗口,将其中每个象素分别作为这两类的训练样本集,用这两个样本集在特征空间的分布参数进行设计。而无监督学****方法则不同,它不预先选择样本类别的样本集,而是将整幅图的像素都作为待分类样本集,通过它们在特征空间中表现出来的聚类现象,把不同类别划分开。,样本集分布呈现交迭情况,而无监督学****方法由于没有类别样本指导,无法确定它们的交迭情况,只能按分布的聚类情况进行划分。在类似于该例的实际应用问题中,预先选定不同类别的样本往往不可能,如时间不允许,或无法用人工干予等因素。另外在某些有监督学****方法中,也往往需要利用聚类方法将样本按其分布划分成若干子类等。聚类方法就是无监督学****方法的一个内容,它是经常应用的一门技术。,一类为基于概率密度函数估计的直接方法,指设法找到各类别在特征空间的分布参数再进行分类。另一类称为基于样本间相似性度量的间接聚类方法,其原理是设法定出不同类别的核心或初始类核,然后依据样本与这些核心之间的相似性度量将样本聚集成不同类别。下面分别讨论这两种方法。最常用的基于概率密度估计的直接方法的例子是直方图方法。例如我们统计一所学校中学生身高分布就往往可采用直方图方法,把身高划分成一段段,如1米到1米75算一段,然后对每一段统计身高在此范围内的学生数,得到直方图。如果这个学校的男女学生数目相近,则我们就会发现该直方图会体现出有两个分布高峰。那么找到两高峰中的谷点,就会将