文档介绍:判别分析1第六章把对象归类——判别分析2为什么判别?有一些昆虫的性别很难看出,只有通过解剖才能够判别;但是雄性和雌性昆虫在若干体表度量上有些综合的差异。于是统计学家就根据已知雌雄的昆虫体表度量(这些用作度量的变量亦称为预测变量)得到一个标准,并且利用这个标准来判别其他未知性别的昆虫。这样的判别虽然不能保证百分之百准确,但至少大部分判别都是对的,而且用不着杀死昆虫来进行判别了。3判别分析(discriminantanalysis)这就是本章要讲的是判别分析。判别分析和前面的聚类分析有什么不同呢?主要不同点就是,在聚类分析中一般人们事先并不知道或一定要明确应该分成几类,完全根据数据来确定。而在判别分析中,至少有一个已经明确知道类别的“训练样本”,利用这个数据,就可以建立判别准则,并通过预测变量来为未知类别的观测值进行判别了。“”:企图用一套打分体系来描绘企业的状况。该体系对每个企业的一些指标(变量)进行评分。这些指标包括:企业规模、服务、雇员工资比例、利润增长、市场份额、市场份额增长、流动资金比例、资金周转速度等等。,有一些企业已经被某杂志划分为上升企业、稳定企业和下降企业。我们希望根据这些企业的上述变量的打分和它们已知的类别(三个类别之一:group-1代表上升,group-2代表稳定,group-3代表下降)找出一个分类标准,以对没有被该刊物分类的企业进行分类。该数据有90个企业(90个观测值),其中30个属于上升型,30个属于稳定型,30个属于下降型。这个数据就是一个“训练样本”。7判别分析的基本思路设有G1、G2、…GK个总体从不同的总体中抽出不同的样本根据样本建立判别法则判别新的样品属于哪一个总体当然,根据不同的方法,建立的判别法则也是不同的。常用的判别方法有:距离判别、Fisher判别、Bayes判别8根据距离的判别(不用投影)(或判别函数)的(预测)变量,另一个(group)是类别。因此每一个企业的打分在这8个变量所构成的8维空间中是一个点。这个数据有90个点,由于已经知道所有点的类别了,所以可以求得每个类型的中心。这样只要定义了如何计算距离,就可以得到任何给定的点(企业)到这三个中心的三个距离。9根据距离的判别(不用投影)显然,最简单的办法就是离哪个中心距离最近,就属于哪一类。通常使用的距离是所谓的马氏(Mahalanobis)距离。用来比较到各个中心距离的数学函数称为判别函数(discriminantfunction).这种根据远近判别的方法,原理简单,直观易懂。10