1 / 43
文档名称:

描述性统计分析.ppt

格式:ppt   大小:947KB   页数:43页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

描述性统计分析.ppt

上传人:文库新人 2019/10/21 文件大小:947 KB

下载得到文件列表

描述性统计分析.ppt

文档介绍

文档介绍:描述性统计分析描述统计是一套用以整理、描述、解释数据的系统方法和统计技术。由样本所计算推导出来的统计数据称为统计量,是描述原始数据特性的最佳指标:(1)描述中心位置的度量;(2)描述波动情况的度量;(3)描述数据集中一个观测值相对位置的度量。描述性统计的另一个重要的功能是在进一步分析之前侦测隐藏在数据中的异常值,异常值或者由于观测、录入数据时的错误,或者来源于一个稀有事件的发生,建立在描述性统计基础上的异常值侦测方法可以迅速锁定可疑观测值。,类(或组)频数是指落入这个类中的观测值的个数。,类(或组)相对频率是指落入这个类中的观测值的个数相对于观测值总数的比例。因此,频率和频数是描述定性变量的两个重要指标。 集中趋势的度量:均值、中位数、众数。 变异程度的度量:极差、方差、标准差 相对位置的度量:标准得分 偏度和峰度:如果数据的分布是对称的,则偏度系数为0;如果偏度系数明显不等于0,表明分布是非对称的。若偏度系数大于1或者小于-1,被称为高度偏态分布。峰度通常是与标准正态分布比较,Stata计算的峰度系数未减3,故而是与3作比较而不是与0作比较。若峰度系数等于3则服从标准正态分布,反之则意味着分布比正态分布更尖或者更平。中位数(又称中值,英语:Median),统计学中的专有名词,代表一个样本、种群或概率分布中的一个数值,其可将数值集合划分为相等的上下两部分。对于有限的数集,可以通过把所有观察值高低排序后找出正中间的一个作为中位数。如果观察值有偶数个,通常取最中间的两个数值的平均数作为中位数。众数(Mode)统计学名词,在统计分布上具有明显集中趋势点的数值,代表数据的一般水平(众数可以不存在或多于一个)。修正定义:是一组数据中出现次数最多的数值,叫众数,有时众数在一组数中有好几个。用M表示。理性理解:简单的说,就是一组数据中占比例最多的那个数。极差是指一组测量值内最大值与最小值之差,又称范围误差或全距,以R表示。它是标志值变动的最大范围,它是测定标志变动的最简单的指标。方差(variance)是在概率论和统计方差衡量随机变量或一组数据时离散程度的度量。概率论中方差用来度量随机变量和其数学期望(即均值)之间的偏离程度。统计中的方差(样本方差)是各个数据分别与其平均数之差的平方的和的平均数。在许多实际问题中,研究方差即偏离程度有着重要意义。标准差(StandardDeviation),在概率统计中最常使用作为统计分布程度(statisticaldispersion)上的测量。标准差定义是总体各单位标准值与其平均数离差平方的算术平均数的平方根。它反映组内个体间的离散程度。切比雪夫法则:19世纪俄国数学家切比雪夫研究统计规律中,论证并用标准差表达了一个不等式,这个不等式具有普遍的意义,被称作切比雪夫定理chebyshev'stheorem其大意是 :所有数据中,至少有3/4(或75%)的数据位于平均数2个标准差范围内。所有数据中,至少有8/9(%)的数据位于平均数3个标准差范围内。所有数据中,至少有24/25(或96%)的数据位于平均数5个标准差范围内偏度(skewness),是统计数据分布偏斜方向和程度的度量,是统计数据分布非对称程度的数字特征。正态分布的偏度为0,两侧尾部长度对称。若以bs表示偏度。bs<0称分布具有负偏离,也称左偏态,此时数据位于均值左边的比位于右边的少,直观表现为左边的尾部相对于与右边的尾部要长,因为有少数变量值很小,使曲线左侧尾部拖得很长;bs>0称分布具有正偏离,也称右偏态,此时数据位于均值右边的比位于左边的少,直观表现为右边的尾部相对于与左边的尾部要长,因为有少数变量值很大,使曲线右侧尾部拖得很长;而bs接近0则可认为分布是对称的。若知道分布有可能在偏度上偏离正态分布时,可用偏离来检验分布的正态性。右偏时一般算术平均数>中位数>众数,左偏时相反,即众数>中位数>平均数。正态分布三者相等峰度(kurtosis)又称峰态系数。表征概率密度分布曲线在平均值处峰值高低的特征数。直观看来,峰度反映了峰部的尖度。峰度以bk表示,Xi是样本测定值,Xbar是样本n次测定值的平均值,s为样本标准差。正态分布的峰度为3。以一般而言,正态分布为参照,峰度可以描述分布形态的陡缓程度,若bk<3,则称分布具有不足的峰度,若bk>3,则称分布具有过度的峰度。若知道分布有可能在峰度上偏离正态分布时,可用峰度来检验分布的正态性。正态分布的峰度(系数)为常数3,均匀分布的峰度(系数)。在统计实践中,我们经常把这两个典型的分布曲线作为评价样本数据序列分布性态的参照。样本的峰度是和正态分布相比较而言统计量,如果峰度大于零,峰