1 / 33
文档名称:

分类数据分析3.ppt

格式:ppt   页数:33页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

分类数据分析3.ppt

上传人:xwhan100 2014/10/24 文件大小:0 KB

下载得到文件列表

分类数据分析3.ppt

文档介绍

文档介绍:第9章分类数据分析
分类数据与卡方统计量
拟合优度检验
列联分析:独立性检验
列联表中的相关测量
列联分析中应注意的问题
分类数据与卡方统计量
分类数据:
数据结果用数值表示,但不同数值描述的是调查对象的不同特征。
分类数据汇总的结果表现为频数。
数值型数据也可以表示为分类数据
卡方检验是对分类数据的频数进行分析的统计方法。
卡方统计量
:测定两个分类变量之间的相关程度
拟合优度检验(goodness of fit test)
对一个分类变量的检验
定义:依据总体分布状况,计算分类变量中各类别的期望频数,与观察频数进行对比,判断期望频数与观察频数是否有显著差异。
目的:对分类变量进行分析
例:1912年4月15日,豪华巨轮泰坦尼克号与冰山相撞沉没。当时船上共有2208人,其中男性1738人,女性470人。海难发生后,幸存者共718人,其中男性374人,女性344人,以α=?
如果存活状况与性别无关,男性与女性的幸存比例应该相等。
海难后幸存比例为718/2208=
男性应该为1738*=565人
女性应该为470*=153人。
观测值
期望值

374
565
-191
36481


344
153
191
36481

解:判断观察频数与期望频数是否一致
H0:观察频数与期望频数一致
H1:观察频数与期望频数不一致
自由度df为:分类变量(性别)的个数-1=1
c2
α=

决策:拒绝H0
结论:存活状况与性别有关
拒绝域
例题2
一项统计结果声称,%,该市老年人口研究会为了检验该项统计是否可靠,随机抽选了400名居民,发现其中有57人老年人。%的看法?
解:
H0:观察频数与期望频数一致
H1:观察频数与期望频数不一致
期望频数:400居民中老年人的期望频数应该为400*%=59
400居民中非老年人的期望频数应该为400-59=341
观测值
期望值
老年人
57
59
-2
4

非老年人
343
341
2
4

自由度为:分类变量类型的个数-1=1
c2
α=

拒绝域
列联分析:独立性检验
独立性检验:对两个分类变量的分析,是否有关联
列联表:
由两个以上的变量进行交叉分类的频数分布表
行变量的类别用 R表示, Ri 表示第 i 个类别
列变量的类别用 C 表示, Cj 表示第 j 个类别
每种组合的观察频数用 fij 表示
列出了行变量和列变量的所有可能的组合,所以称为列联表
一个 R行 C列的列联表称为 R  C列联表