文档介绍:独立性检验的基本思想及其初步应用对于性别变量,其取值为男和女两种,这种变量的不同“值”表示个体所属的不同类别,,主要考虑分类变量之间是否有关系: 例如,吸烟是否与患肺癌有关系? 性别是否对于喜欢数学课程有影响?等等. 分类变量在现实生活中是大量存在的,如是否吸烟,是否患肺癌,宗教信仰,国别,年龄, 出生月份等等。 9965 91 9874 总计 2148 49 2099 吸烟 7817 42 7775 不吸烟总计患肺癌不患肺癌表1-7 吸烟与肺癌列联表为了调查吸烟是否对肺癌有影响,某肿瘤研究所随机地调查了 9965 人,得到如下结果(单位:人) 那么吸烟是否对患肺癌有影响? 探究与表格相比,图形跟能直观地反映出两个变量间是否相互影响,常用等高条形图展示列联表数据的频率特征. 像表 1-7 这样列出两个分类变量的频数表,称为列联表. 有吸烟和患肺癌列联表可以粗略估计出,在不吸烟者中, % 患有肺癌;在吸烟者中,有 % 患有肺癌。因此,直观上可以得到结论: 吸烟者和不吸烟者患肺癌的可能性存在差异. 等高条形图其中两个浅色条的高分别表示吸烟和不吸烟样本中不患肺癌的频率; 两个深色条的高分别表示吸烟和不吸烟样本中患肺癌的频率,比较图中两个深色条的高可以发现,在吸烟样本中患肺癌的频率要高一些,因此直观上可以认为吸烟跟容易引发肺癌等高条形图更清晰地表达了两种情况下患肺癌的比例. 上面我们通过分析数据和图形,得到的直观印象是吸烟和患肺癌有关,那么这种判断是否可靠?我们可以用统计观点来考察这个问题. H 0:吸烟与患肺癌没有关系 a+b+c+d b+d a+c 总计 c+d dc吸烟 a+b ba不吸烟总计患肺癌不患肺癌把表 1-7 中的数字用字母代替,得到如下用字母表示的列联表(表 1-8 ): 为了回答上面的问题,我们先假设: 看看能推出怎样的结论。表 1-8 |ad- bc|越小,说明吸烟与患肺癌之间关系越弱; 因此|ad-bc| 越大,说明吸烟与患肺癌之间关系越强. 如果“吸烟与患肺癌没有关系”,那么吸烟样本中不患肺癌的比例应该与不吸烟样本中相应的比例差不多, 即 dc cba a???)()(bacdca????0??? bc ad 为了使不同样本容量的数据有统一的评判标准,基于上述分析,我们构造一个随机变量若H 0成立,即“吸烟与患肺癌没有关系”,则 K 2应很小. 由表 1-7 中数据,利用公式( 1)计算得 K 2的观测值为: 2 2 ( ) ( )( )( )( ) n ad bc K a b c d a c b d ??? ???(1) 2 9965(7775 49 42 2099) . 7817 2148 9874 91 k ? ??? ?? ??其中 n= a+b+c+d ? 即在成立的情况下, K 2大于 概率非常小,近似为 0H现在的 K 2= 的观测值远大于 ,所以有理由判定 H 0不成立,即认为“吸烟于患肺癌有关系”.但是这种判断还犯错误,犯错误的概率不会超过 统计学家经过研究发现,在 H0成立的情况下, 2 ( ) P K ? ?在上述过程中,实际上是借助于随机变量 K 2的观测值 k, 建立一个判断 H 0是否成立的规则:如果 k≥ ,就判断 H 0不成立,即认为“吸烟与患肺癌有关系”;否则就判定 H 0 成立,即认为“吸烟与患肺癌没有关系”在改规则下,把结论“H 0成立”错判为“H 0不成立”的概率不会超过, 2 ( ) P K ? ?这里概率计算的前提是 H0 “两个分类变量有关系”,首先假设该结论不成立,即: H 0: K2应该很小,如果有观测数据计算得到 K2的观测值 k很大, 则断言 H 0不成立,即认为“两个分类变量有关系”,如果观测值很小,则说明在样本数据中没有发现足够的证据拒绝 H 0怎样判断 K2的观测值 k是大还是小呢? 这仅需确定一个正数,当时就认为 IK2的观测值k大,此时相应于的判断规则为:如果,就认为“两分类变量有关系”;否则就认为“两分类变量没有关系”.,把“两个分类变量没有关系”错误地判断为“两个分类变量有关系”的概率为 0k 0kk? 0k 0kk?)( 0 2kKP? 0k