1 / 33
文档名称:

9分类数据分析.ppt

格式:ppt   大小:976KB   页数:33页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

9分类数据分析.ppt

上传人:文库旗舰店 2022/4/24 文件大小:976 KB

下载得到文件列表

9分类数据分析.ppt

相关文档

文档介绍

文档介绍:第9章 分类数据分析
分类数据与卡方统计量
拟合优度检验
列联分析:独立性检验
列联表中的相关测量
列联分析中应注意的问题
Date
1
分类数据与卡方统计量
分类数据:
数,调查结果如下表
Date
13
边缘分布
行边缘分布
行观察值的合计数的分布
例如,赞成改革方案的共有279人,反对改革方案的141人
列边缘分布
列观察值的合计数的分布
例如,四个分公司接受调查的人数分别为100人,120人,90人,110人
条件分布与条件频数
变量 X 条件下变量 Y 的分布,或在变量 Y 条件下变量 X 的分布
每个具体的观察值称为条件频数
3个概念:边缘分布,条件分布和条件频数
Date
14
一分公司
二分公司
三分公司
四分公司
合计
赞成该方案
68
75
57
79
279
反对该方案
32
45
33
31
141
合计
100
120
90
110
420
行边缘分布
列边缘分布
条件频数
Date
15
条件频数反映了数据的分布,但不适合进行对比
百分比分布:以相同的基数计算相应的百分比
行百分比:行的每一个观察频数除以相应的行合计数(f0 / RT)
列百分比:列的每一个观察频数除以相应的列合计数( f0 / CT)
总百分比:每一个观察值除以观察值的总合计数( f0 / n )
百分比分布
Date
16
一分公司
二分公司
三分公司
四分公司
合计
赞成该方案
%
%
%
%
%
%
%

%

%
%
%
%

反对该方案
%
%
%
%
%
%
%
%
%

%
%
%
%

合计
%
%
%
%
100%
总百分比
列百分比
行百分比
Date
17
问题:检验改革方案的态度和各公司之间是否存在依赖关系
H0:改革方案的态度和各公司之间是独立的(不存在依赖关系)
H1:改革方案的态度和各公司之间不独立(存在依赖关系)
一个观察频数 f0的期望频数 fe ,是总频数的个数 n 乘以该观察频数 f0 落入第 i 行 和第j列的概率,即
Date
18
计算各单元的期望频数
一分公司
二分公司
三分公司
四分公司
RT
赞成该方案
实际频数
68
75
57
79
279
期望频数
66
80
60
73
反对该方案
实际频数
32
45
33
31
141
期望频数
34
40
30
37
CT
100
120
90
110
420
Date
19
 统计量
用于检验列联表中变量之间是否存在显著性差异,或者用于检验变量之间是否独立
计算公式为
Date
20
实际频数
(f0)
期望频数
(fe)
f0- fe
(f0- fe)2
(f0- fe)2
fe
68
75
57
79
32
45
33
31
66
80
60
73
34
40
30
37
2
-5
-3
6
-2
5
3
-6
4
25
9
36
4
25
9
36








合计:
Date
21
独立性检验
检验列联表中的行变量与列变量之间是否独立
检验的步骤为
提出假设
H0:行变量与列变量独立
H1:行变量与列变量不独立
计算检验的统计量
进行决策
根据显著性水平和自由度(r-1)(c-1)查出临界值2
若22,拒绝H0;若2<2,不拒绝H0
Date
22
【例】一种原料来自三个不同的地区,原料质量被分成三个不同等级。从这批原料中随机抽取500件进行检验,结果如下表。检验各地区与原料之间是否存在依赖关系( )
地区
一级
二级
三级
合计
甲地区
52
64
24
140
乙地区
60
59
52
171
丙地区
50
65
74
189
合计
162
188
150
500
Date
23
提出假设
H0:地区与原料等级之