1 / 57
文档名称:

r语言基础培训第二讲 常用统计分析ppt课件.ppt

格式:ppt   大小:1,174KB   页数:57页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

r语言基础培训第二讲 常用统计分析ppt课件.ppt

上传人:相惜 2021/11/7 文件大小:1.15 MB

下载得到文件列表

r语言基础培训第二讲 常用统计分析ppt课件.ppt

相关文档

文档介绍

文档介绍:基于R的基本统计分析
整理ppt
内容提要
描述统计
频数表分析
方差分析
t检验
卡方检验
线性回归
相关分析
整理ppt
描述分析(Descriptive statistics)
描述统计就是把数据集所包含的信息加以简要地概况,如计算数据的数字特征、制作频数表和频数图等等,用所获得的统计量和图表来描述数据集所反映的特征和规律,使得研究的问题更加简单、直观。

描述性统计主要包括反映数据集中趋势的特征值(比如平均数、中位数、众数、分位数)、数据离散程度的特征值(比如方差、标准差、值域、变异系数)和数据分布形态的特征值(比如偏度、峰度)。
整理ppt
标准差()和标准误()
标准差()
真实均值
SE
样本均值
当样本含量 n 足够大时,标准差趋向稳定;而标准误随n的增大而减小,甚至趋于0 。
整理ppt
标准差()和标准误()
比如,某学校共有500名学生,现在要通过抽取样本量为30的一个样本,来推断学生的身高。这时可以依据抽取的样本信息,计算出样本的均值与标准差。如果我们抽取的不是一个样本,而是10个样本,每个样本30人,那么每个样本都可以计算出均值,这样就会有10个均值。也就是形成了一个10个数字的数列,然后计算这10个数字的标准差,此时的标准差就是标准误。但是,在实际抽样中我们不可能抽取10个样本。所以,标准误就由样本标准差除以样本量来表示。当然,这样的结论也不是随心所欲,而是经过了统计学家的严密证明的。
= / n1/2
整理ppt
在实际的应用中,标准差主要有两点作用,一是统计量样本离散程度的表征;二是用来对样本进行标准化处理,即样本观察值减去样本均值,然后除以标准差,这样就变成了标准正态分布。标准误的作用主要是用来做区间估计,常用的估计区间是均值加减n倍的标准误(例如95%的置信区间是:均值+*SE)
标准差()和标准误()
整理ppt
95% CI:
假设上面这个随机抽样估计学生身高的例子,抽样100次,每次抽10个学生测量身高,均值估计值及标准误为 152cm±12cm。但有时需要表示为估计量的95%的置信区间[152cm-*12cm,152cm+*12cm]。可以解释为,如果从再从总体中抽样100次(每次抽样10个),产生100个平均值,这100个平均值将有95次落在[152cm-*12cm,152cm+*12cm]这个范围内,5次落在这个范围外,如果抽样次数越多,这个推断越准确。这个来源于中心极限定理的应用:任何分布(总体)抽样n次,每次抽样的和符合正态分布。通俗一点说, 不管是学校的学生身高是怎么分布, 每次随机抽取10个求和, 抽取n次,这n个身高总和是符合正态分布的。平均身高为身高总和除于10,所以平均身高也是正态分布的。正态分布双尾95%。
整理ppt
整理ppt
整理ppt
峰度(Kurtosis)
峰度(Kurtosis)是描述某变量所有取值分布形态陡缓程度的统计量。 它是和正态分布相比较的。
Kurtosis=0 与正态分布的陡缓程度相同。
Kurtosis>0 比正态分布的高峰更加陡峭——尖顶
Kurtosis<0 比正态分布的高峰来得平台——平顶
计算公式:
整理ppt