1 / 15
文档名称:

数据分析上机实验模拟题.doc

格式:doc   页数:15页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

数据分析上机实验模拟题.doc

上传人:164922429 2015/6/8 文件大小:0 KB

下载得到文件列表

数据分析上机实验模拟题.doc

文档介绍

文档介绍:数据分析上机实验模拟题


设有数据集如下: LIMING 23 56 170
LIUHUA 25 60 174
ZHANGWEI 30 65 165
相应变量分别为NAME,AGE,WEIGHT和HEIGHT,输入数据以建立一个名为exe_1的SAS数据集,并打印输出.

对血清蛋白含量,利用PROC UNIVARITE过程,求数据的方差、标准差、变异系数、极差、四分位极差、四分位标准差,程序如下:
练****利用MEANS过程求上述基本统计量。

(模型及矩阵表示、参数估计及性质);

矩阵表示

(回归方程的显著性检验、回归系数的显著性检验、预测及其置信区间、与回归系数有关的假设检验的一般方法);
(1) 回归方程的显著性检验:
, ,
检验假设:,
统计量,
时,拒绝
(2)回归系数的统计推断:
检验假设,
统计量,
,拒绝
的置信区间:
(3)预测及统计推断:
的置信区间:
(误差的正态性检验、残差图分析、Box-Cox变换);
(1)误差的正态性检验
1)残差正态性的频率检验
2)残差的正态QQ图检验
近似一条直线,
(2)残差图分析
3)Box-Cox变换
选择,使
最小

(1)穷举法
评价回归方程优良性的准则:修正的复相关系数准则;准则,预测平方和准则
(2)逐步回归法
、高水平的数学家的年工资额Y与他们的研究成果的质量指标、,.
(1)假设误差服从分布,建立与之间的线性回归方程并研究相应的统计推断问题
.
(2)假设某位数学家的关于的值为,试预测他的年工资额并给出置信度为95%的置信区间.
----单因素

(1)统计模型
因变量Y—因素,水平,上观测值
,,
(2) 显著检验

,拒绝.
(3)置信区间(略)

置信度的置信区间,
置信度的置信区间为
个的置信度至少的同时置信区间

(1)统计模型
Y—因素和B,水平,,组合水平观测值
, 为无偏估计.
假设成立时,分别服从分布.
(2)显著检验
假设检验问题:


统计量

检验值:如,拒绝相应假设


(3)无交互效应的各因素均值的估计与比较
(4)有交互效应时因素各水平组合上的均值估计与比较
为比较同一类型的三种不同食谱的营养效果,将19只幼鼠分为三组,每组分别为8只、4只、7只,,,设体重增加服从方差分析模型()或(),试比较这三种食谱的营养效果是否有显著差异.
三种食谱下幼鼠的体重增加量
食谱体重增加量
甲 164 190 203 205 206 214 228 257
乙 185 197 201 231
丙 187 212 215 220 248 265 281
、典型相关分析

(1)基于协方差矩阵的总体主成分的求法(基于相关系数矩阵类似)
—维随机变量,
协方差阵非负定.
主成分定义:
满足:(1)系数向量单位化;
(2)各主成分不相关,无重叠信息,;
(3)主成分方差由此递减.
求总体主成分步骤:
1)解,求的p个特征值;
2)对应的正交单位化的特征向量分别为;
其中,
3)的第个主成分为
;
为个主成分构成的随机向量
4)主成分的贡献率与累计贡献率
——第k个主成份的贡献率
——前k个主成份的累积贡献率
(2)基于样本协方差矩阵的主成分分析(基于样本相关系数矩阵类似)
来自于总体的容量为的样本观测数据,
样本协方差矩阵
其中, 为的样本均值
步骤:
1)求特征值
2)相应的正交单位化特征向量,
3)第个样本主成分
,
4) ——第k个样本主成分的贡献率
——前k个主成分的累积贡献率
5)第个样本主成分的个观测值称为第个样本主成分的得分,可以依据得分对各组样本观测数据进行排序
()
样本主成分的观测数据(得分向量)
对10名男中学生的身高()、胸围()、体重()进行测量,,从协方差矩阵出发对其做主成分分析,按