文档介绍:数据描述性分析
第1页,本讲稿共71页
内容分布
均值、方差的数据特征
数据的分布
二元数据的数字特征及相关系数
误差
坏值的剔除
第2页,本讲稿共71页
内容分布
均值、方差的数据特征
数据的分布
二元数据的数字特
计算均值、方差、标准差、变异系数、偏度、峰度。
第18页,本讲稿共71页
通过计算,得
= , =,
=, CV=,
=, =-
, 的绝对值比较小,可以认为是来自正态总体的数据。
第19页,本讲稿共71页
中位数、分位数、三均值与极差
均值、方差、标准差等数字特征是总体相应特征值的一种矩估计,更适合于来自正态分布的数据的分析。
若总体的分布未知,或者数据严重偏态,有若干异常值(极端值),上述分析数据的方法不甚合适,而应计算中位数、分位数、三均值、极差等数据数字特征,计算上述特征需要用到次序统计量。
第20页,本讲稿共71页
次序统计量
设 是n个观测值,可以理解为来自某些总体的样本。将其按数值大小记为
这就是次序统计量。
最小统计量 与最大统计量 分别为:
第21页,本讲稿共71页
中位数与极差
中位数的计算公式是
中位数是描述数据中心位置的数字特征。大体上比中位数大或小的数据个数为整个数据个数的一半。
第22页,本讲稿共71页
中位数与极差
对于对称分布的数据,均值与中位数较接近;对于偏态分布的数据,均值与中位数不同。
中位数的另一个显著特点是不受异常值(特大或特小)的影响,具有稳健性,因此它是数据分析中相当重要的统计量。
极差的计算公式是
它是描述数据分散性的数字特征。数据越分散,极差越大。
第23页,本讲稿共71页
例
考虑下列样本:
5 3 11 3 1 7 8
写出次序计量,并求中位数、极差。
第24页,本讲稿共71页
对 和容量为 的样本 它的 分位数是
其中[np]表示np的整数部分,当p=1时,M1 =x (n)
分位数
第25页,本讲稿共71页
,,它们分别称为上、下四分位数,并简记为
下列分位数也在实际应用中经常用到:
, , , , , 。
第26页,本讲稿共71页
例
考虑下列样本:
5 3 11 3 1 7 8
计算上面数据的 , ,及 , , , , , 。
第27页,本讲稿共71页
以此类推,我们可以得到其他的结果:
第28页,本讲稿共71页
均值 与中位数M皆是描述数据集中位置的数字特征。计算 时,用了样本 的全部信息,而M仅用了数据分布中的部分信息。因此,在正常情况下,用
比用M描述数据的集中位置为优。然而,当存在异常值时, 缺乏稳健性,而M具有很强的稳健性。考虑到要充分利用样本信息,又要具有较强的稳健性,可以用三均值 作为数据集中位置的数字特征。
三均值的计算公式是:
第29页,本讲稿共71页
上、下四分位之差称为 四分位极差(或半级差)。
有一种简便判断数据为异常值的方法,以
为数据的上下截断点。
第30页,本讲稿共71页
例
从19个杆塔上的普通盘形绝缘子测得该层电导率()的数据如下:
1