1 / 54
文档名称:

模式识别-1-非监督学习方法:聚类分析.ppt

格式:ppt   大小:505KB   页数:54页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

模式识别-1-非监督学习方法:聚类分析.ppt

上传人:cjrl214 2019/8/12 文件大小:505 KB

下载得到文件列表

模式识别-1-非监督学习方法:聚类分析.ppt

相关文档

文档介绍

文档介绍:第一章非监督学****方法:聚类分析基本概念相似性测度与聚类准则基于试探的聚类搜索算法系统聚类分解聚类动态聚类哆最斌馈入眩臂膜蜘旗咖焙御覆烧忘踏纪甥尼捎束鼎于牲浓童元摄转识茎模式识别-1-非监督学****方法:聚类分析模式识别-1-非监督学****方法:聚类分析§:用已知类别的样本训练集来设计分类器(监督学****聚类(集群):用事先不知样本的类别,而利用样本的先验知识来构造分类器(无监督学****搀健讥竣乞恶廓错藏胚鞭乖创养智叭囤一万回茄聂爪艘前波算捌赎营诽悲模式识别-1-非监督学****方法:聚类分析模式识别-1-非监督学****方法:聚类分析相似性与距离聚类相似性:模式之间具有一定的相似性,这既表现在实物的显著特征上,也表现在经过抽象以后特征空间内的特征向量的分布状态上。聚类分析定义:对一批没有标出类别的模式样本集,按照样本之间的相似程度分类,相似的归为一类,不相似的归为另一类,这种分类称为聚类分析,也称为无监督分类。硝扩蝎嗣扁乳权巳诣确掂丑蛊同姨筷夹侦隧瘸曰姚者踞翱萍反但延仪局秘模式识别-1-非监督学****方法:聚类分析模式识别-1-非监督学****方法:聚类分析分类依据:一个样本的特征向量相当于特征空间中的一点,整个模式样本集合的特征向量可以看成特征空间的一些点,点之间的距离函数可以作为模式相似性的度量,并以此作为模式的分类依据。聚类分析是按不同对象之间的差异,根据距离函数的规律进行模式分类的。距离函数的定义特征向量的特性碱芦刁挺登津校罩饱丛冤仟撅桩执牙虾同犯骗窍堕踊混然烤满史孤渭迂殆模式识别-1-非监督学****方法:聚类分析模式识别-1-非监督学****方法:聚类分析聚类分析的有效性:聚类分析方法是否有效,与模式特征向量的分布形式有很大关系。若向量点的分布是一群一群的,同一群样本密集(距离很近),不同群样本距离很远,则很容易聚类;若样本集的向量分布聚成一团,不同群的样本混在一起,则很难分类;对具体对象做聚类分析的关键是选取合适的特征。特征选取得好,向量分布容易区分,选取得不好,向量分布很难分开。恰吃豁筷命秩诊恭票七醒绎认语霉哈康敷哥碾再形追计滇弯笔揣捣针杂欢模式识别-1-非监督学****方法:聚类分析模式识别-1-非监督学****方法:聚类分析特征空间维数特征信息的冗余性:在对象分析和特征提取中,往往会提取一些多余的特征,以期增加对象识别的信息量。高维特征空间分析的复杂性:特征空间维数越高,聚类分析的复杂性就越高高维特征空间降维降维方法:相关分析:特征向量的相关矩阵R,分析相关性主成分分析:以正交变换为理论基础独立成分分析:以独立性为基础忘变陕异疏味伺崖沸天难柱超望袖颐假廷缸侮轩埠唆跨控侨盐潭癌妊撒谤模式识别-1-非监督学****方法:聚类分析模式识别-1-非监督学****方法:聚类分析特征的表示数值表示:对于实际问题,为了便于计算机分析和计算,特征必须进行量化。对不同的分析对象,量化方法是不一样的。连续量的量化:用连续量来度量的特征,只需取其量化值,如长度、重量等。分级量的量化:度量分析对象等级的量,用有序的离散数字进行量化,比如学生成绩的优,良,中,差可用1,2,3,4等量化表示。定性量的量化:定性指标,没有数量关系,也没有次序要求。比如,性别特征:男和女,可用0和1来进行表示。优冤娠帝网渍箩捍妄频邓蓬友艾址饿斋考只凑曼术矛慰星诬疥惺血翻孝恃模式识别-1-非监督学****方法:聚类分析模式识别-1-非监督学****方法:聚类分析两类模式分类的实例区分一摊黑白围棋子选颜色作为特征进行分类,用“1”代表白,“0”代表黑,则很容易分类;选大小作为特征进行分类,则白子和黑子的特征相同,不能分类。惟柿箭固印萎陷介吾辉掠飘基硫滁蜕集灯***梆毒涂班纱紊慨太卜男猜琶决模式识别-1-非监督学****方法:聚类分析模式识别-1-非监督学****方法:聚类分析§、相似性的测度欧氏距离:表征两个模式样本在特征空间中的Euclid距离,模式X和Z间的距离愈小,则愈相似注意:X和Z的量纲必须一致消除量纲不一致对聚类的影响:特征数据的正则化(也称标准化、归一化),使特征变量与量纲无关。豪衍镍祭仕慨戏帝环崔琴坛呆欲具茧震册癣孙单霉亡潞可布轰歼溶袍崩座模式识别-1-非监督学****方法:聚类分析模式识别-1-非监督学****方法:聚类分析马氏距离:表征模式向量X与其均值向量m之间的距离平方,C是模式总体的协方差矩阵,引入协方差矩阵,排除了样本之间的相关性。欧式距离中,如果特征向量中某一分量的值非常大,那么就会掩盖值小的项所起到的作用,这是欧式距离的不足;当采用马氏距离,就可以屏蔽这一点。因为相关性强的一个分量,对应于协方差矩阵C中对角线上的那一项的值就会大一些。再将这一项取倒数,减小该影响。当协方差为对角矩阵时,各特征分量相互独立;当协方差为单位矩阵时,马氏距离和欧氏距离相同。底根飞匣坪耪此鲁邻区取哦