文档介绍:判别分析(Discriminant Analysis)
一、概述:
判别问题又称识别问题,或者归类问题。
判别分析是由Pearson于1921年提出,1936年由Fisher首先提出根据不同类别所提取的特征变量来定量的建立待判样品归属于哪一个已知类别的数学模型。
根据对训练样本的观测值建立判别函数,借助判别函数式判断未知类别的个体。
所谓训练样本由已知明确类别的个体组成,并且都完整准确地测量个体的有关的判别变量。
训练样本的要求:类别明确,测量指标完整准确。一般样本含量不宜过小,但不能为追求样本含量而牺牲类别的准确,如果类别不可靠、测量值不准确,即使样本含量再大,任何统计方法语法弥补这一缺陷。
判别分析的类别很多,常用的有:适用于定性指标或计数资料的有最大似然法、训练迭代法;适用于定量指标或计量资料的有:Fisher二类判别、Bayers多类判别以及逐步判别。半定量指标界于二者之间,可根据不同情况分别采用以上方法。
类别(有的称之为总体,但应与population的区别)的含义——具有相同属性或者特征指标的个体(有的人称之为样品)的集合。如何来表征相同属性、相同的特征指标呢?
同一类别的个体之间距离小,不同总体的样本之间距离大。
距离是一个原则性的定义,只要满足对称性、非负性和三角不等式的函数就可以称为距
绝对距离
马氏距离:(Manhattan distance)
设有两个个体(点)X与Y(假定为一维数据,即在数轴上)是来自均数为,协方差阵为的总体(类别)A的两个个体(点),则个体X与Y的马氏距离为,类似地可以定义个体X与总体(类别)A的距离为
明考斯基距离(Minkowski distance): 明科夫斯基距离
欧几里德距离(欧氏距离)
二、Fisher两类判别
一、训练样本的测量值
A类训练样本
编号
1
2
均数
B类训练样本
编号
1
2
均数
二、建立判别函数(Discriminant Analysis Function)为:
其中:、和为判别系数(Discriminant Coefficient)
可解如下方程组得判别系数。
各类的离差阵分别以、表示
类内离差阵为、之和
三、Y值的判别界值
将、、 、代入判别函数,得到相应的,
将、、 、代入判别函数,得到相应的,
两类的判别界值为:
当两类的样本含量相差较多时应加权,用下式计算判别界值
将每个个体的、、 、代入判别函数计算,根据判别界值判别归类。
四、对判别函数检验
为训练样本中两类和在一起的离差阵(注意与的区别)
计算Wilks统计量
, ,
五、回代观察判别函数的判别效果
举例设要建立一个判别函数来判别医院的工作情况,公认的A类医院11所,B类医院9所。
X1 :床位使用率
X2 :治愈率
X3 :诊断指数
判别指标如下两表:
A类医院
编号
X1
X2
X3
Y
1
2
3
4
5
6
7
8
9
10
11
均数
B类医院
编号
X1
X2
X3
Y
1
2
3
4
5
6
7
8
9
均数