文档介绍:第二课基本统计描述与数据转换
描述统计分析
引:统计分析的目的是研究总体特征。而往往由于客观条件的限制,我们只能够得到从总体中随机抽取的一部分观察对象,称之为样本,只有通过对样本的描述和研究,才有可能对总体进行某种可能的推断。描述统计分析是推断统计分析的基础。
一、描述统计分析的基本内容包括:
集中趋势分析:
①众数:出现频率最高的数
②中位数:将数据排序后位于正中间的数值。适合于所有分布类型的数据
③分位数:四分位数、中位数、百分位数。理解分位数的含义。
④均值:一组数据的简单算术平均数或加权算术平均数。适合于正态分布或对成分布资料。
⑤几何平均数:算术平均数的变形,专门用来处理特殊数据的平均数,如发展速度
⑥调和平均数:算术平均数的一种变形。
离散趋势分析
①极差:数据最大值减去最小值,最简单的离散程度测度值
②标准差、方差:最常用的离散程度测侧度值,一般适合于正态分布资料
③最小值、最大值
④标准误:样本平均数的标准差
偏度、峰度测量
①偏度系数:Skew ness,当分布对称时,偏度系数为0。当偏度系数为正值,可以判断为右偏(正偏),反之,判断为左偏(负偏)。
②峰度系数:Kurtosis ,是对数据分布平峰或尖峰程度的测度。峰度是针对标准正态分布而言的。峰度系数为0,表明数据为标准正态分布。若峰度系数大于0,则数据为尖峰分布;反之为平峰分布。
统计图形分析:直方图、PP 图、茎叶图、箱线图等
上述三种图形是描述统计分析过程中常用的几种图形,是用于观察数据的分布形态的辅助工具。
二、菜单介绍:
1、frequencies 过程:生成频数分布表,适合于定性资料,以及部分定量资料。
2、descriptive:进行一般的描述统计统计分析,包括集中趋势值,离散趋势值,偏度系数,峰度系数等。适合服从正态分布的定量资料。使用频率最高。
3、Explore:适合于数据分布状况不清时的探索性数据分析。
4、ratio:对连个连续性变量计算相对指标。
三、frequencies 过程。
四、descriptive过程
主要针对连续性资料,可以计算一系列描述统计量。并且可以将变量的原始数据标准化并以变量的形式保存。
五、explore 过程
适用于对资料的性质、分布特点完全不清楚时,称之为探索性分析。能计算常用描述统计量,并绘制统计图形,包括茎叶图、箱线图。
箱线图:首先找出一组数据的五个特征值,包括最小值、最大值、中位数、两个四分位数(上四分位数和下四分位数),然后,连接两个四分位数构成箱子,最后连接两个极值点与箱子,形成箱式图。可观察数据呈正态分布、左偏分布、右偏分布还是其他类型的分布,如U型分布。
例:某班学生英语成绩如下:
76 90 97 71 70 93 86 83 78 85 81 绘制箱线图如下:
茎叶图:将数据分成茎和叶两部分,通常以数据的高位数值为茎,低位为叶,树叶上一般保留数据的最后一个数字,树叶长在树茎上。通过茎叶图,也可以看出数据的分布形状及数据的离散状况。实际上是横放的直方图。适合于数据量较少的情况。该图形的优势,既保留原始数据的信息,又能看出数据的分布状况。这是比直方图优越的地方。
【例】某生产车间50名工人日加工零件数如下(单位:个)。试绘茎叶图观察分布特征