文档介绍：交叉列联表分析---------用于分析属性数据
1. 属性变量与属性数据分析
从变量的测量水平来看分为两类:连续变量和属性(Categorical)变量,属性变量又可分为有序的(Ordinal)和无序的变量。
对属性数据进行分析,将达到以下几方面的目的:
1) 产生汇总分类数据——列联表;2) 检验属性变量间的独立性(无关联性);
3) 计算属性变量间的关联性统计量;4) 对高维数据进行分层分析和建模。
在实际中,我们经常遇到判断两个或多个属性变量之间是否独立的问题,如:吸烟与患肺癌是否有关?色盲与性别是否有关?,利用统计量作显著性检验来完成.
(Contingency Table)
列联表是由两个以上的属性变量进行交叉分类的频数分布表。
设二维随机变量(,),可能取得值为,,其中事件(==)发生的频率为(i = 1,2, …,r,j=1,2, …,s,)记=,=,则有n === ,将这些数据排列成如下的表:
Y
X
…

┇
…
…
…………
…
┇
…
n
这是一张r×s列联表.

对于不同的属性变量,从列联表中可以得到它们联合分布的信息。但有时还想知道形成列联表的行和列变量间是否有某种关联性,即一个变量取不同数值时,另一个变量的分布是否有显著的不同,这就是属性变量关联性分析的内容。
属性变量关联性检验的假设为
H0:变量之间无关联性; H1:变量之间有关联性
由于变量之间无关联性说明变量互相独立,所以原假设和备择假设可以写为:
H0:变量之间独立; H1:变量之间不独立
检验
H0:与独立.
记P (=,η=) = ,i =1,2,…,r,,j = 1,2,…,s,
P (=) =, i =1,2,…,r,P (=) = ,j = 1,2,…,s.
由离散性随机变量相互独立的定义,则原假设等价于
H0:= ,i =1,2,…,r ,,j = 1,2,…,s.
若已知,我们可以建立皮尔逊统计量
= .
由皮尔逊定理知,,因此用它的极大似然估计代替,这时检验统计量为
=.
在H0成立的条件下,= ,
= , i =1,2,…,r , = , j = 1,2,…,s,
则= . i =1,2,…,r,,j = 1,2,…,s,
从而得到统计量
== .
在H0成立的条件下,当n∞时,的极限分布为
= .
对给定的显著性水平α,当>,则拒绝H0,否则接受H0.
特别,当r = s = 2 时,得到2×2列联表,常被称为四格表,
=
它的极限分布为(1).
对于二维随机变量(,)是连续取值的情况,我们可采用如下方法将其离散化.
将的取值范围(-∞,+∞)分成r个互不相交的区间,将的取值范围(-∞,+∞)分成s个互不相交的区间,于是整个平面分成了rs个互不相交的小矩形;
求出样本落入小矩形中的频数i =1,2,…,r,,j = 1,2,…,s ;
建立统计量
=,
在