文档介绍:第四章分析数据间的相关性
第1页,共61页,编辑于2022年,星期二
第四章 分析数据间的相关性
世间万物总是存在不同程度的联系
函数关系
统计关系
例:正方形体积与边长,年龄与身高,父母身高与孩子身高,编辑于2022年,星期二
假设检验的基本原理
第19页,共61页,编辑于2022年,星期二
显著性水平
显著性水平α是当原假设正确却被拒绝的概率
这表明,当做出接受原假设的决定时,其正确的可能性(概率)为95%或99%
第20页,共61页,编辑于2022年,星期二
(1)数值型数据相关的可靠性检验
数值型数据相关的可靠性检验步骤如下:
(1)首先提出两总体是否相关的假设,通常假设是两总体不相关。
(2)计算差距。计算当前相关系数与所提假设成立之间的差距。
(3)决策。若差距足够小,则当前的假设成立。若差距较大,说明提出的假设是站不住脚的。
统计中国,,,
第21页,共61页,编辑于2022年,星期二
第22页,共61页,编辑于2022年,星期二
相关系数的差距
TINV函数:TINV(probability,degrees_freedom), probability为1-把握程度; degrees_freedom为n-1
第23页,共61页,编辑于2022年,星期二
实践
个人购买商品住在面积与商品住宅销售额之间的相关性进行可靠性检验。
1)求差距
2)求95%决策标准
3)求99%决策标准
4)比较与结论
第24页,共61页,编辑于2022年,星期二
卡方分析的主要步骤:
(1)首先提出两总体是否相关的假设,通常假设行变量总体与列变量总体不相关。
(2)计算差距。计算目前列联表中的频数数据所呈现的实际相关性与行列变量总体不相关之间的差距有多少
(3)决策。若差距足够小,则当前的假设成立。若差距较大,说明提出的假设是站不住脚的。
统计中,,,
(2)品质型数据相关的可靠性检验
第25页,共61页,编辑于2022年,星期二
计算差距
为列联表每个单元格中的实际频数
为列联表每个单元格中的期望频数
第26页,共61页,编辑于2022年,星期二
实践
对性别与受高等教育程度之间的相关性进行可靠性检验。
方法一:利用卡方分析
1)计算
2)计算
3)计算 CHIINV
4)比较及结论
第27页,共61页,编辑于2022年,星期二
方法二:利用Chitest函数
(1)假设性别与高等教育程度无关,得到期望频数区域。
(2)利用Chitest函数,求得chitest (实际频数,期望频数)的值,该值代表假设成立的概率。
(3)若该概率为小概率事件,则认为假设不成立,反之,则成立。
第28页,共61页,编辑于2022年,星期二
实践
实验内容
(一)随机抽取由10名大学生组成的样本,研究他们在高中与大学的英语成绩得出下表结果:(单位:分)
试测定其相关程度。
第29页,共61页,编辑于2022年,星期二
(二)下面是几家百货商店销售额和利润率的资料:
第30页,共61页,编辑于2022年,星期二
1.以纵轴表示利润率,横轴表示每人月平均销售额,画出散点图,观察并说明两变量之间存在何种关系。
2.计算每人月平均销售额与利润率之间的相关系数,并说明其相关的密切程度。
,
第31页,共61页,编辑于2022年,星期二
回归效应
1887年生物统计学家高尔顿在研究豌豆和人体的身高遗传规律时,首先提出“回归”的思想 。1888年他又引入“相关”(Correlation)的概念。原来,他在研究人类身高的遗传时发现,不管祖先的身高是高还是低,成年后代的身高总有向一般人口的平均身高回归的倾向。
高尔顿由此的出结论,人的生理结构是稳定的,所有有机组织都趋于标准状态,这种效应叫回归效应
第32页,共61页,编辑于2022年,星期二
人均收入是否会显著影响人均食品消费支出;
贷款余额是否会影响到不良贷款;
航班正点率是否对顾客投诉次数有显著影响;
广告费用支出是否对销售额有显著影响;
一元回归的例子
第33页,共61页,编辑于2022年,星期二
回归分析的概念
因变量与自变量之间的关系用一条线性方程来表示;
因变量(dependent variable):被预测或被解释的变量,用y表示。
自变量(independent v