文档介绍:该【统计学背诵项目 】是由【薛定谔的猫】上传分享,文档一共【4】页,该文档可以免费在线阅读,需要了解更多关于【统计学背诵项目 】的内容,可以使用淘豆网的站内搜索功能,选择自己适合的文档,以下文字是截取该文章内的部分文字,如需要获得完整电子版,请下载此文档到您的设备,方便您编辑和打印。第一章1、统计学是一门关于数据的科学。数据的收集、整理、分析技术。2、统计数据的类型:按计量尺度:分类数据、顺序数据、数值型数据按收集方法:观测数据、实验数据按时间状况:截面数据、时序数据3、总体:包含所研究的全部个体(数据)的集合样本:从总体中抽取的一部分元素的集合参数:用来描述总体特征的概括性数字度量统计量:用来描述样本特征的概括性数字度量变量:说明现象某种特征的概念4、分类数据:只能归于某一类别的非数字型数据顺序数据:只能归于某一有序类别的非数字型数据数值型数据:按数字尺度测量的观测值第二章1、调查案卷的基本结构:调查目的、调查对象和调查单位、调查项目和调查表。2、问卷:是用来收集调查数据的一种工具,是调查者根据调查目的和要求所设计的,由一系列问题、备选答案、说明以及码表组成的一种调查形式。不同的调查问卷在具体结构、题型、措辞、版式等设计上会有不同,但在结构上一般都有开头部分、甄别部分、主体部分和背景部分组成。3、提问项目应注意的问题:(1)提问的内容尽可能短(2)用词要确切、通俗(3)一项提问只包含一项内容(4)避免诱导性提问(5)避免否定形式提问(6)避免敏感性提问第四章1、一组数据的分布特征可以从哪几个方面进行测度?(1)分布的集中趋势,反映各数据向其中心值靠拢或聚集的程度(2)分布的离散程度,反映各数据远离其中心值的趋势(3)分布的形状,反映数据分布的偏态和峰态2、众数、中位数、均值的特点和应用场合:众数是一组数据的峰值,它是一种位置的代表值,不受极端值的影响;缺点是具有不唯一性。众数在较多时有意义,主要适合作为分类数据的集中趋势测度值。中位数是一组数据中间位置上的代表值,特点是不受数据极端值的影响。当一组数据的分布偏斜程度较大时,适合使用中位数;主要适合于顺序数据的集中趋势测度值。平均数是对数值型数据计算的,而且利用了全部数据信息,应用最广泛。主要适合于数值型数据的集中度趋势测度值。第五章1、重复抽样和不重复抽样相比,抽样均值抽样分布的标准差有何不同?不重复抽样条件下,样本均值的方差需要用修正系数(N-n)/(N-1)去修正重复抽样时样本方差。(详见P187)2、样本均值分布与总体分布的关系:如果原有总体是正态分布,那么,无论样本容量的大小,样本均值的抽样分布都服从正态分布。如果原有总体的分布是非正态分布,随着样本容量n的增大(通常≥30),不论原来总体是否服从正态分布,样本的抽样分布都将趋于正态分布,其分布的数学期望为总体均值μ,方差为总体方差的1/n。中心极限定理:设从均值为m,方差为s2的一个任意总体中抽取容量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为μ、方差为σ2/n的正态分布第七章1、估计量:用来估计总体参数的统计量的名称。估计值:用来估计总体参数时计算出来的估计量的具体数值。2、评价估计量的标准:(1)无偏性:是指估计量抽样分布的数学期望等于被估计的总体参数。(2)有效性(3)一致性:是指随着样本容量的增大,点估计量的值越来越接近被估总体的参数。3、边际误差(P212)4、置信水平:如果将构造置信区间的步骤重复多次,置信区间中包含总体参数真值的次数所占的比率,称为置信水平,或置信系数。5、置信区间:由样本统计量所构造的总体参数的估计区间,成为置信区间,其中区间的最小值成为置信下限,最大值成为置信上限。6、简述样本容量与置信水平、总体方差、边际误差的关系。(自己找吧!)第八章1、原假设:通常将研究者想收集证据予以反对的假设称为原假设。备择假设:通常将研究者想收集证据予以支持的假设称为备择假设。2、检验统计量:根据样本观测结果得到的,并据以对原假设和备择假设作出决策的某个样本统计量。标准化检验统计量=(点估计—假设值)/点估计量的抽样标准差(只有将点估计标准化以后才能用于度量它与原假设的参数值之间的差异程度)3、第一类错误:原假设正确但拒绝(弃真)第二类错误:原假设错误但没有拒绝(取伪)4、显著性水平:假设检验中犯第一类错误的概率,记为α。5、怎样理解统计显著性与实际显著性?(P261)6、大样本情况下的总体均值检验应该构造什么检验统计量?(自己找)7、小样本情况下的总体均值检验应该构造什么检验统计量?(自己找)8、假设检验的一般步骤:(1)陈述原假设H0和备择假设H1(2)从所研究的总体中抽出一个随机变量(3)确定一个适当的检验统计量,并利用样本数据算出具体数值(4)确定一个适当的显著性水平α,并计算出其临界值,指定拒绝域(5)将统计量的值与临界值进行比较,并作出决策:若统计量的值落在拒绝域内,拒绝原假设H0,否则不拒绝原假设H0(也可以直接利用P值作出决策)第九章1、方差分析的类型、区别单因素方差分析、双因素方差分析2、方差分析中的基本假定:(1)每个总体都应服从正态分布(2)各个总体的方差必须相同(3)观测值是独立的3、简述方差分析的基本思想——图形描述、误差分解、误差分析(P310)4、因子:在方差分析中,所要检验的对象称为因素或因子。处理:因素的不同表现称为水平或处理。5、组内误差:来自水平内部的数据误差组间误差:来自不同水平之间的数据误差6、组内平方和:反映组内误差大小的平方和,记为SSE组间平方和:反映组间误差大小的平方和,记为SSA均方:各误差平方和除以对应的自由度组内方差:SSE的均方,记为MSE组间方差:SSA的均方,记为MSA7、方差分析的基本步骤:(1)提出假设(2)构造检验的统计量(3)统计决策第十章1、回归模型:描述因变量y如何依赖自变量x和误差项的方程回归方程:描述因变量y的期望值如何依赖于自变量x的方程估计的回归方程:根据样本数据求出的回归方程的估计2、在回归模型中为什么要加入误差项?(P363)(1)理论的含糊性(2)数据的欠缺(3)核心变量与周边变量(4)人类行为的内在随机性(5)糟糕的替代变量(6)节省原则(7)错误的函数形式3、简述最小二乘估计的基本原理(P366)4、总平方和:SST回归平方和:SSR残差平方和:SSE关系:5、在回归分析中,F检验和t检验各有什么作用?第十一章1、多元线性回归中有哪些基本的假定?2、多重判定系数:在多元回归中,回归平方和占总平方和的比例。修正的多重判定系数:用模型中自变量的个数和样本量进行调整的多重判定系数。作用:3、多重共线性:当回归模型中两个或两个以上的自变量彼此相关时,则称回归模型中存在多重共线性。4、多重共线性对回归分析的影响:(1)变量之间高度相关时,可能会使回归的结果造成混乱,甚至会把分析引入歧途。(2)多重共线性可能对参数估计值的正负号产生影响,特别是β1的正负号可能同预期的正负号相反5、多重共线性的判别方法:(1)模型中各对自变量之间显著相关(2)当模型的线性关系检验(F检验)H0:β1=β2=···=βk=0显著时,几乎所有回归系数βi的t检验却不显著(3)回归系数的正负号与预期的相反6、多重共线性的处理方法:(1)将一个或多个相关的自变量从模型中剔除,使保留的自变量尽可能不相关(2)如果要在模型中保留所有的自变量,那就应该:①避免根据t统计量对单个参数β进行检验②对因变量y值的推断(估计或预测)限定在自变量样本值的范围内7、怎样将虚拟变量引入回归模型(P420)8、解释虚拟自变量回归中各参数的含义