文档介绍:第五章离散趋势测量法第二节、全距与四分位差一、全距1、未分组资料计算公式全距又称极差,是一组数据的最大值与最小值之差,用表示。计算公式为:式中,、分别表示为一组数据的最大值与最小值。由于全距是根据一组数据的两个极值表示的,所以全距表明了一组数据数值的变动范围。越大,表明数值变动的范围越大,即数列中各变量值差异大,反之,越小,表明数值变动的范围越小,即数列中各变量值差异小。2、分组资料计算公式R=最高组上限-最低组下限R=最高组组中组-最低组组中值R=最高组组中组-最低组下限R=最高组上限-最低组组中值如果资料经过整理,并形成组距分配数列,全距可近似表示为:R≈最高组上限值-最低组下限值3、优缺点:优点:计算简单,易于理解。缺点:(1)受极端值影响大,遇含开口组的资料时无法计算;(2)数据利用率低,信息丧失严重;(3)受抽样变动影响大(一般大样本的全距会比小样本的全距大)。二、四分位差(inter-quartilerange)上四分位数与下四分位数之差的平均数,称为四分位差,亦称为内距或四分间距。四分位差的计算方法:Q·D=(Q3-Q1)/2四分位差反映了中间50%数据的离散程度,其数值越小,说明中间的数据越集中;数值越大,说明中间的数据越分散。此外,由于中位数处于数据的中间位置,因此,四分位差的大小在一定程度上也说明了中位数对一组数据的代表程度。四分位差主要用于测度顺序数据的离散程度。当然,对于数值型数据也可以计算四分位差,但不适合于分类数据。优缺点:主要是避免了全距受极端值影响的缺点,其他优缺点同全距:数据利用率低,信息丧失严重;受抽样变动影响大。第三节、平均差平均差是各变量值与其算术平均数离差绝对值的平均数,。根据掌握资料的不同,平均差有以下两种计算方法:,采用简单平均法。其计算公式为:,应采用加权平均式第四节、方差和标准差一、概念要点方差和标准差同平均差一样,也是根据全部数据计算的,反映每个数据与其算术平均数相比平均相差的数值,因此它能准确地反映出数据的差异程度。但与平均差不同之处是在计算时的处理方法不同,平均差是取离差的绝对值消除正负号,而方差、标准差是取离差的平方消除正负号,这更便于数学上的处理。因此,方差、标准差是实际中应用最广泛的离中程度度量值。由于总体的方差、标准差与样本的方差、标准差在计算上有所区别1、方差是个变量值与其均值离差平方的平均数,标准差是方差的开方。2、离散程度的测度值之一。3、最常用的测度值。4、反映了数据的分布。5、反映了各变量值与均值的平均差异。6、根据总体数据计算的,称为总体方差或标准差。根据样本数据计算的,称为样本方差或标准差二、总体的方差和标准差设总体的方差为,标准差为,对于未分组整理的原始资料,方差和标准差的计算公式分别为(二)样本的方差和标准差样本的方差、标准差与总体的方差、标准差在计算上有所差别。总体的方差和标准差在对各个离差平方平均时是除以数据个数或总频数,而样本的方差和标准差在对各个离差平方平均时是用样本数据个数或总频数减1去除总离差平方和。、标准分相对位置的度量:标准分数有了均值和标准差之后,我们可以计算一组数据中各个数值的标准分数,以测度每个数据在该组数据中的相对位置,并可以用它来判断一组数据是否有离群值。1、定义。变量值与其平均数的离差除以标准差后的值,称为标准分数,也称标准化值或Z值标准分数也给出了一组数据中各数值的相对位置。比如,如果某个数值的标准分数为-2,我们就知道该数值低于均值2倍的标准差。()式也就是我们常用的统计标准化公式,在对多个具有不同量纲的变量进行处理时,常常需要对各变量数值进行标准化处理。实际上,z分数只是将原始数据进行了线性变换,它并没有改变一个数据在该组数据中的位置,也没有改变该组数分布的形状,而只是将该组数据变为均值为0、标准差为1经验法则表明:当一组数据对称分布时——%的数据在平均数加减1个标准差的范围内——%的数据在平均数加减2个标准差的范围内——%的数据在平均数加减3个标准差的范围内。由此可见,一组数据中低于或高于平均数3个标准差以上的数据很少。因此,在统计上,往往将平均数3个标准差以外的数据称为异常值或离群值2、标准分的特性(1)对于给定资料,由于算术平均数和标准差都是确定值,所以z是和X一一对应的变量。(2)它没有单位,是一个不受原资料单位影响的相对数,因而也适用于不同单位资料的比较。(3)均值和方差不同的正态分布经Z分数标准化后,可以转化为标准正态分布,所以Z又称标准正态变量。(4)Z分数的数学特性:Z分数之和等于0;Z分数的算术平均数等于0;Z分数的标准差和方差均为1。3、标准分的