文档介绍:聚类分析、对应分析、因子分析、主成分分析spss操作入门亲疏程度的判定距离:将每一个样本看作p维空间的一个点,并用某种度量测量点与点之间的距离,距离较近的归为一类,距离较远的点应属于不同的类;相似系数:性质越接近的变量或样本,它们的相似系数越接近于1或一l,而彼此无关的变量或样本它们的相似系数则越接近于0,相似的为一类,不相似的为不同类;聚类方法不同:系统聚类:又称为层次聚类(hierarchicalcluster),聚类过程是按照一定层次进行的;K均值聚类(K-meansCluster);聚类对象不同时的聚类类型:样本之间的聚类:即Q型聚类分析,常用距离来测度样本之间的亲疏程度;变量之间的聚类:即R型聚类分析,常用相似系数来测度变量之间的亲疏程度;聚类分析基本思想:根据所研究的样本或变量在观测数据上表现的不同亲疏程度,采用不同的聚类方法将亲疏程度较大的样本/变量聚合为一类,把另外一些亲疏程度较大的样本/变量聚合为一类,直到把所有的样本/变量都聚合完毕,形成一个由小到大的分类系统。聚类分析聚类主要步骤选择变量数据处理聚类计算聚类统计量和聚类分析的目的密切相关;反映要分类变量的特征;不同研究对象上的值有明显的差异;变量之间不能高度相关;为消除各指标量纲的影响,需对原始数据进行必要的变换处理;聚类统计量是根据变换以后的数据计算得到的一个新数据;用于表明各样本或变量间的关系密切程度;常用的统计量有距离和相似系数两大类;选择聚类的方法;确定形成的类数;结果的解释和证实结果的解释是希望对各个类的特征进行准确的描述;给每类起一个合适的名称;通常的做法是计算各类在各聚类变量上的均值,对均值进行比较;聚类分析系统聚类例1:利用2001年全国31个省市自治区各类小康和现代化指数的数据,对地区进行聚类分析。数据中所含指数:综合指数、社会结构指数、经济与技术发展指数、人口素质指数、生活质量指数、法制与治安指数;采用聚类方法:系统聚类K均值聚类聚类分析系统聚类Agglomerationschedule:输出聚类过程表Proximitymatrix:输出个体之间的距离矩阵ClusterMembership中None表示不输出样本所属类,Singlesolution表示当分成n类时各样本所属类,Rangeofsolutions表示当分成m-n类时各样本属性所属类参与系统聚类的变量选到Variables(s)中字符型变量作为标记变量选到LableCasesby中Cluster中确定聚类类型,是Q型聚类还是R型聚类Display中Stastics表示输出聚类分析相关统计量Plots表示输出聚类分析相关图形3聚类分析聚类输出结果34参与聚类的个体或小类个体或小类距离计算的是个体还是小类本次结果将在第几步出现聚类分析系统聚类Dendrogram:聚类树形图Icicle:冰柱图,其中Allclusters表示输出分析中每个阶段的冰柱图,Specifiedrangeofclusters表示输出某个阶段的冰柱图,none表示不输出冰柱图Orientation冰柱图的表现形式,Vertical表示纵向显示,Hhorizontal表示横向显示聚类分析聚类输出结果聚类分析系统聚类ClusterMethod:计算个体与小类、小类与小类之间距离的方法Measure:不同变量类型的个体距离计算方式Interval适用连续型定距变量,Counts适用计数型变量,Binary适用于二值变量TransformValues中的Standardize指的是消除量纲的方法,再下面表示对针对Q还是R型聚类聚类分析系统聚类Clustermethod:NearestNeighbor:最短距离法••••以两类中距离最近的两个个体之间的距离作为类间距离。••••••••以两类中距离最远的两个个体之间的距离作为类间距离。••••••FurtherNeighbor:最长距离法Between-grouplinkage:组间平均连接法将两类个体合并为一类后,以合并后类中所有个体之间的平均距离作为类间距离。••••Within-grouplinkage:组内平均连接法以两类个体两两之间距离的平均数作为类间距离。••Centroidclustering:重心法以两类变量均值(重心)之间的距离作为类间距离。Medianclustering:中位数法以两类变量中位数之间的距离作为类间距离Ward’smethod:离差平方和法先将n个个体各自成一类,然后每次减少一类,随着类与类的不断聚合,类内的离差平方和必然不断增大,选择使离差平方和增加最小的两类合并,直到所有的个体归为一类为止。