1 / 27
文档名称:

第六章 聚类分析(2).ppt

格式:ppt   大小:750KB   页数:27页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

第六章 聚类分析(2).ppt

上传人:yzhqw888 2017/2/20 文件大小:750 KB

下载得到文件列表

第六章 聚类分析(2).ppt

相关文档

文档介绍

文档介绍:就业工场数据中心 凝聚层次聚类凝聚层次聚类??在层次聚类分析中,输入中不指定要分成在层次聚类分析中,输入中不指定要分成的类的个数。系统的输入为的类的个数。系统的输入为(X,s) (X,s) ,系统的,系统的输出是类的层次。输出是类的层次。??大多数层次聚类过程不是基于最优的思想, 大多数层次聚类过程不是基于最优的思想, 而是通过反复的分区直至收敛,找出一些而是通过反复的分区直至收敛,找出一些近似的、未达最优标准的解决方案。近似的、未达最优标准的解决方案。??层次聚类算法分为:分裂算法和凝聚算法。层次聚类算法分为:分裂算法和凝聚算法。就业工场数据中心??分区算法从整个样本集开始,将它分成几个分区算法从整个样本集开始,将它分成几个子集,然后把每个子集分成更小的集合,依子集,然后把每个子集分成更小的集合,依次下去,最终,生成一个由粗略到精细的分次下去,最终,生成一个由粗略到精细的分区序列。区序列。??凝聚算法首先把每一个对象当作一个初始类, 凝聚算法首先把每一个对象当作一个初始类, 然后将这些类合并一个更粗略的分区,反复然后将这些类合并一个更粗略的分区,反复合并直至得到比较精细的分区,其过程是自合并直至得到比较精细的分区,其过程是自底向上的过程,分区从精细到粗糙。底向上的过程,分区从精细到粗糙。??凝聚算法又分为单链接和全链接算法,两者凝聚算法又分为单链接和全链接算法,两者不同之处仅在于它们描述一对类的相似度的不同之处仅在于它们描述一对类的相似度的方法。方法。就业工场数据中心??单链接算法基于两类之间的距离是从两个单链接算法基于两类之间的距离是从两个类中抽取的两对样本类中抽取的两对样本( (一个取自第一类,另一个取自第一类,另一个取自第二个一个取自第二个) )的距离中最小值。的距离中最小值。??全链接算法基于两类间的距离是每对样本全链接算法基于两类间的距离是每对样本的距离中的最大值。的距离中的最大值。??下图为两种算法的图解说明。下图为两种算法的图解说明。就业工场数据中心??凝聚聚类算法的基本步骤: 凝聚聚类算法的基本步骤: 1. ,为所有不同的把每一个样本作为一个类,为所有不同的无序样本对的类间距离构造一个序列,然无序样本对的类间距离构造一个序列,然后按升序对这个序列进行排序。后按升序对这个序列进行排序。 2. ,对于每一个不同通过已排序的距离序列,对于每一个不同的阈值的阈值 d d k k形成一个样本图,图中将距离比形成一个样本图,图中将距离比 d d k k 更近的各对样本合并成一个新的类。如果更近的各对样本合并成一个新的类。如果所有的样本都是这个图的元素则停止,否所有的样本都是这个图的元素则停止,否则,重复该步骤。则,重复该步骤。 3. ,可以这个算法的输出是一个嵌套层次图,可以用希望的相似水平去截取,在相应的子图用希望的相似水平去截取,在相应的子图中生成一个由简单联合标识的分区中生成一个由简单联合标识的分区( (类聚类聚) )就业工场数据中心??例如:二维样本集共例如:二维样本集共 5 5个点个点{x {x 1 1 ,x ,x 2 2 ,x ,x 3 3 ,x ,x 4 4 ,x ,x 5 5} } x x 1 1 =(0,2),x =(0,2),x 2 2 =(0,0),x =(0,0),x 3 3 =(,0),x =(,0),x 4 4 =(),x =(),x 5 5 =(5,2) =(5,2) 其图形化表示如下图: 其图形化表示如下图: 就业工场数据中心??第一步:计算欧氏距离。第一步:计算欧氏距离。 d d( (x x 1 1, ,x x 2 2 )=2, )=2, d d( (x x 1 1, ,x x 3 3 )= )= d d( (x x 1 1, ,x x 4 4 )= )= d d( (x x 1 1, ,x x 5 5 )=5 )=5 d d( (x x 2 2, ,x x 3 3 )=, )=, d d( (x x 2 2, ,x x 4 4 )=5, )=5, d d( (x x 2 2, ,x x 5 5 )= )= d d( (x x 3 3, ,x x 4 4 )=, )=, d d( (x x 3 3, ,x x 5 5 )= )= d d( (x x 4 4, ,x x 5 5 )=2 )=2 按升序排列: 按升序排列: d d( (x x 2 2, ,x x 3 3 )=, )=, d d( (x x 1 1, ,x x 2 2 )=2, )

最近更新

蒙特卡罗方法在三类金融衍生产品定价中的应用.. 2页

2024年教师的教育格言语录摘抄(精选125句) 9页

葫蔓藤饲用有效性及安全性研究的开题报告 2页

葡萄几个重要花发育相关基因的克隆与表达分析.. 2页

落叶松人工林主伐年龄的研究的开题报告 2页

菲茨杰拉德作品在中国的译介研究的开题报告 2页

2024年教师求职的自我介绍范本 7页

药用植物种质资源库的建设技术与保存技术研究.. 2页

荣誉权性质分析的开题报告 2页

2024年教师新入职培训心得体会范文 6页

英语专业研究生文化身份焦虑的调查研究中期报.. 2页

苯乙烯—丙烯腈在聚醚介质中的接枝共聚合的开.. 2页

2024年教师慰问信模板锦集9篇 12页

苏州市初中篮球教学现状的调查与研究中期报告.. 2页

生物质工程名词解析题 2页

艾约瑟《汉语口语渐进教程》音系研究的开题报.. 2页

色谱联用技术研究肿节风质控方法的开题报告 2页

资深CFO谈企业采购成本管理 6页

舞台灯光建筑技术条件研究的开题报告 2页

《同分母分数加、减法》教学设计(通用6篇) 1页

江西景德镇的导游词13篇 27页

七年级第一学期末成绩分析会年级组长发言稿 4页

老挝语-中文对照发音(共32页) 32页

金属探测器课程设计报告 11页

《中医诊断学》课程标准 6页

建筑工业产品行业标准《工业滑升门》征求意见.. 13页

三聚氰胺纸饰面人造板检验标准 4页

医患沟通的一些体会 PPT幻灯片 26页

《GBZ 158-2016 工作场所职业病危害警示标识》.. 20页