1 / 8
文档名称:

距离分类器和聚类分析.docx

格式:docx   大小:81KB   页数:8页
下载后只包含 1 个 DOCX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

文档介绍:第二章距离分类器和聚类分析
2.1距离分类器
一、模式的距离度量
通过特征抽取,我们以特征空间中的一个点来表示输入的模式,属于同一个类别的样本
所对应的点在模式空间中聚集在一定的区域,而其它类别的样本点则聚集在其它区域,则就
启发到某一类别的距
离,这个距离就是待识模式与类别标准样本之间的距离:d(X,Qi )=d(X,Ti ),然后以模
式与类别的距离作为分类的判据。实际上在多个标准样本的问题中,我们还可以定义其它形
式的模式与类别的距离。
平均距离法
已知类别Qi的训练样本集为: 什门T”川,T K», 定义待识模式X与类别Qi的距离:
1 Ki
d X,「“d X,T;
Ki j^
然后还是以与待识模式最近的类别作为识别结果。在平均距离法中,需要存储所有的训
练样本,而且在识别时还要计算待识模式与每个训练样本的距离,所以计算量比较大。
最近邻法
最近邻法以与待识样本距离最近的标准样本点的类别作为分类类别。实际上相当于定义
待识模式与类别 Ci的距离:
d X,'J =m2 d X,Tji
最近邻法也要存储和计算所有的训练样本,同时与平均距离法相比容易受到噪声的干 扰,当与X最近点为噪声时,就会导致误识。
最近邻法的改进:
平均样本法用一点代表一个类别,过分集中;最近邻法以类内的每一点代表类别,过于
分散,在通常情况下可以采用折衷的办法,首先将每个类别的训练样本划分为几个子集,在
各个子集中计算平均样本, 每一个类别以几个子集的平均样本代表,采用最近邻法分类。(举
例:红苹果,绿苹果),这样做的好处是,一方面可以减少存储量和计算量,同时还可以减 小噪声的干扰,这是在实际系统使用比较多的方法。
K -近邻法
K -近邻法是另外一种减小噪声干扰的改进方法,它不是根据与未知样本 X最近的一个
样本的类别来分类,而是根据 X最近邻的K各样本点中多数点的类别来分类。方法如下:
a)计算X与所有训练样本的距离;
b)对所有的d (X,Tji从小到大排序;
M
c)统计前K个中各类训练样本的个数 Ni, i =1,2,川,M ,必有工Ni = K ;
i=1
d)取认=20啜、作为X的类另I」。
K -近邻法中,K值得选择非常重要, 太大则就会变成那一类的训练样本说多就分类到 哪一类,太少则容易受到噪声的影响,当 K =1时,就变为了最近邻法。
2聚类分析
在某些问题中,我们已知的只是一个训练样本集,而不知道样本集中每个样本的类别标
号,这就需要我们首先将这些样本分成若干类,然后再用分好类的样本训练出相应的分类器。
将未知类别的一组样本分成若干类的过程称为是聚类分析,也称为是无监督学习或无教师学
习。
聚类分析的思路非常直观,也是根据各个带分类模式特征的相似程度来进行分类,将在
特征空间中聚集在一起的样本点划分为一类。
聚类分析的方法可以分为三类:简单聚类法、系统聚类法和动态聚类法。
一、简单聚类法(试探法)
1、最近邻规则的简单试探法
设N个待分类的模式1X1,X2川|,Xn),已知一个阈值T (每个样本到其聚类中心的
最大距离),分类到Qi,Q2,|||,类别中心分别为Zi,Z2,|||。
第一步:取任意的样本 Xi作为第一个聚类中心的初始值,例如: Z1 =X

分享好友

预览全文

距离分类器和聚类分析.docx

上传人:cjc201601 2022/5/19 文件大小:81 KB

下载得到文件列表

距离分类器和聚类分析.docx

相关文档