文档介绍:
医学研究中,常根据观察到的数据资料,对所研究的对象进行分类,如根据病人的各种症状、体征和各种检验结果,判别病人患的是哪一种疾病;根据细菌的形态和生化特征,判别其属于哪一种菌株等。判别分析是对已知有确切类别的一批样品资料,根据其判别指标(例如症状、体征、检验结果等)应用一定的统计方法建立判别函数(或量表),进而对给定的新样品判断其归属哪一类总体。
根据资料的性质,可分为定性资料的判别分析和定量资料的判别分析;根据建立判别函数的判别准则,又有Fisher判别分析、Bayes判别分析、距离判别分析等方法。本节介绍国内常用的几种判别分析方法以及如何在SAS软件中实现。
无论何种判别分析方法,其步骤为(以疾病诊断为例):
收集训练样本。收集一批已知为G种不同类型的病人组成训练样本,作为训练样本的每个个体均需经金标准确诊;根据专业测定或调查每个病人对诊断可能有影响的体征或检测结果指标m项;
选择判别方法。根据专业问题特性和资料的性质选择相应的判别分析方法,就训练样本资料建立判别函数(或判别量表),并作假设检验;
回代考核。将训练样本每个个体的各项指标回代到所建立的判别函数,作出类别判断,并与训练样本的原确诊类别进行比较,计算回代符合率,以考核所建立函数的判别效果;
前瞻考核。当回代符合率较高时,可用已确诊的新个体的各项指标代入判别函数,计算判别符合率(又称外推符合率),进一步考核所建立函数的效果。前瞻考核常见的方法有两种:一是当训练样本较大时,先将训练样本分成两部分,一部分用作建立判别函数,另一部分作为前瞻考核的个体;二是用刀切法或称交叉检验。这种方法的做法是将训练样本1到N个个体每次去掉一个,用其余N-1个样品拟合判别函数用以判别所去掉的1个样品的类别,如此求得训练样本判别函数判断与原确诊类别的符合率。
这种方法适合于全部或大部分指标为定性或分类变量,少量定量或数值变量指标则可转化为有序多分类变量;所研究医学问题的总体类别可以是两类或多类,各类间是一个互斥的完备集。从理论上讲,这种判别方法要求各指标(变量)间相互独立,实际应用中这种要求难以达到,则应尽量选择彼此独立或近似独立的指标,避免用彼此高度相关的指标,以提高运用该法的实际效果。
作定性资料的最大似然判别分析,。设研究问题有G(≥
2)个总体类别,记为;判别指标有m项记为。第j项指标有K种表现(或称水平),记为。
,可分别计算各类别下每项指标的各种表现的出现频率,即(为频数)。当样本含量较大时,可作为条件概率的估计值,其意义是患第种疾病的患者出现第j种指标中第k种表现的可能性。对于第种疾病,m项指标中每项指标均有特定表现,同一指标,不同疾病的表现也不同。因此,对于未知类别个体,根据条件概率的意义和该个体的各指标表现,可通过综合比较各种疾病类别下所有m项指标的表现的条件概率,来判断该个体的疾病类别。根据概率定理中关于独立事件的乘法定理,第类别下m项指标某种表现同时出现的概率等于各指标条件概率之和,类别下m项指标某种表现发生的可能性称为联合概率或似然值,记为,则为:
()
对于某一样品,可分别求得值,比较其值大小,从中挑选最大值,假设为,则其样品属于类。实际应用中为简化计算常将条件概率作如下转换:
()
称为评分指数,其取值在—10~10之间,则类下的似然值为:
在最大似然判别法中,再考虑各类总体类别的先验概率,则称Bayes公式判别法。其原理是按Bayes逆概率公式,当某样品在各类别指标出现其特定表现时,计算该样品a归属各类别的事后概率。
()
由于式()中分母在各类指标是相同的,所以只比较分子大小,与式()比较,差别在。将作如下转换:
Bayes公式判别法的评分指数计算公式为:
()
(y1:房间隔缺损,y2:室间隔缺损,y3:动脉导管未闭,y4肺动脉瓣狭窄),作定性资料的判别分析。
用作判别的12项放射学征象指标
Xj
xjk
Y1
Y2
Y3
Y4
例数
%
例数
%
例数
%
例数
%
X1
X11
0
0
13
1
1
X12
60
24
25
25
X13
0
0
2
0
0
0
0
X14
4
12
23