1 / 25
文档名称:

多元统计分析第十章属性数据的统计分析.docx

格式:docx   大小:79KB   页数:25页
下载后只包含 1 个 DOCX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

多元统计分析第十章属性数据的统计分析.docx

上传人:sssmppp 2021/2/22 文件大小:79 KB

下载得到文件列表

多元统计分析第十章属性数据的统计分析.docx

文档介绍

文档介绍:第10章属性数据的统计分析
10. 1列联表的独立性分析
10. 1. 1实例
列联表通常是用来描述两个及两个以上变量在各自不同的取值(或属性)组合水平上的观测频数数据,它常与 定性变量相联系。通过对列联表的分析,可以了解这些变量之间的依赖关系。
例10. 1在一个有三个主要大型商场的商贸中心,调查479个不同年龄阶段的人首先去三个商场中的哪一个, 结果如表10-1所示。
表10-1商场调查数据
年龄段(岁)
商场1
商场2
商场3
总和
<30
80
70
45
195
3广50
91
86
15
192
>51
41
38
10
89
总和
212
194
70
476
那么通过对这个数据列表的分析,我们希望知道顾客对首先选择去什么样的商场与顾客的年龄段是否有关。可 以看到,表中只有两个变量,这样的列联表称为二维列联表。
例10. 2下表给出了一个假设的某大学毕业生的专业M (文科、理工科),性别G及毕业后工作的收入I (高、 低)为变量的二维列联表,结果如表10-2所示。
表10-2大学毕业生调查牙刷
专业(M)
性别(G)
收入(I)

I'.'.'J
文科

120
80

180
120
理工科

80
320

20
80
则根据这样的含有三个变量(专业、性别和收入)的列联表,我们可以观察这些变量之间的关系,这样的列联 表称为二维列联表。
10. 1. 2定性变量与列联表
对定性变量的观测,一般是对它们在不同水平组合上的频数的记录,这里我们将定性变量所描述的不同状态称 为该定性变量的水平。我们用A,B,C表示定性变量,用A:,Bj,Ck表示相应的水平。假设有n个随机实验的结果按 照两个变量4和B分类,4取值为A,A2,-'-Ar, B取值为耳,场,…仗,将变量4和B的各种情况的组合用一 张zs列联表表示,称rxs列联表,如表8-3所示。其中叫)表示A取A,.及B取Bj的频数。 =",其中:
心1 7=1
S
nL =工伽,i = 1,2,…厂,表示各行之和
7=1
Hj =乞叫j,j = 1,2,…,s,表示各列之和 i=l
£ r
“,D/ =工心
./=! 日
表10-3变量频数表
B2
・・・
Bs
总和
A
"11
nn
nis
4
nr2
nrS
nr.
总和
"1
n2
・・・

n..
类似的当涉及三个定性变量时,观测的频数可用三维列联表给出,若还用上面的表不方式,则需要一个三维立 体表,但这样通常用起来不方便,所以一般是采用象例10. 2的方式把二维列联表给出。
10.
二维r X S列联表的两个变量4和B可视为离散型随机变量,取值分别刍,企,…4和d,禺,…仗,以Pij表
示4取4及B取场的概率,通常称为格子概率,以Pi.,p“分别表示4和B的边缘概率。则对于二维rxs列联表, 变量4和B的联合及边缘分布列如表10-4所示。
表10-4变量联合及边缘分布列
Bi
b2
・・・
Bs
总和
Pn
Pn
Pis
Pi.
P,i
Pr2
Prs
Pr.
总和
Pa
Pl
・・・

1
其中
Pi.=工卩川 i2…,r; P j =》Pij,j = ',2,…,s. ,/=i 1=1
这时检验变量A和B是否独立等价于检验假设
Ho :卩寸= 1 < i < r及 1 < j < s成立, % :上式中至少对某组7J不成立。
nPij =, 7 = 1,2,…,r; j = 1,2,…s.
当"较大时,-3中相应的观测频数s的差异对i = j = l,2,---s均不应很大,为
此,我们用
傀-叨亿尸 ()
曰 j=i nPiPj
来描述理论频数与相应的观测频数的总差异量。当Ho为真时,02的值应较小,所以,当Q2的值显著偏大时,就 拒绝日0,也就是认为A和B不独立。
但是在实际中,由于pL,p丿均未知,则我们采用相应的观测概率

分别作为概率几和"j的估计(i = 1,2,
r; j = )o这样,(10. 1),则可
以得到Pearson力?统计量:
r s
e2=EE
Al >1
(10. 2)
(nn.. -n. n .)2
IJ 2••丿
n; n .
1- -j
理论上可以证明,当为真时,Q2渐近服从自由度为(r-l)(5-l)