文档介绍:第3章描述性统计
本章内容
中心趋势
离中趋势
偏度
峰度
利用分析工具进行描述性统计
中心趋势
中心趋势又称为定位度量或者平均数,是一组数据典型的或有代表性的值,由于这样的典型值趋向于落在根据数值大小排列,得数据的中心,因此被称为中心趋势度量。
中心趋势的类型包括:算数平均值、几何平均值、众数、中位数和调和平均数。
算数平均值
非组数据的算数平均值:将所有单个观测值相加再除以观测值总数目求得。N个数X1,X2,…,XN,的算数平均值为
对于组数据,等级区间的上下限经常未定,因此对于上下限未定的组数据,通常首先要根据数据的特性假定限值,然后求解算数平均值。
其中, 为每个等级区间的中点,f为每个等级区间的频率,m为等级区间的数目,n为数据观测值的总数目。
几何平均值
几何平均值是度量平均值的一种方法,尤其是在计算平均增长率、平均收益率时被经常使用。
例:某人在第一年初即将10000元进行投资,结果由于投资失利,第一年末亏损了5000元,则对应的第一年的收益率为(50-100)/100=-50%,但投资者并未灰心,在第二年初拿着剩余的5000元再次投资,大赚5000元,第二年的收益率为(100-50)/50=100%,那么此投资者两年的平均收益率是多少?
度量m年的增长率的几何平均值应为:
其中, 是, 是第i年的增长率。
众数
众数是所有研究变量中出现频率最高的数值,即以最大频率出现的数。
非组数据的众数计算较为简单,组数据的众数一般可以根据组数据的频率分布或者直方图来计算,对应公式为:
其中, 为包含众数的组的下组界, 为众数所在组的频数减去前一组的频数, 为众数所在组的频数减去后一组的频数,c为众数所在组的组距宽度。
中位数
中位数是根据按顺序排列形成的序列中中间位置的观测值,或两个中间值的算数平均值。根据数据类型可以分为非组数据的中位数、足离散数据的中位数和组连续数据的中位数。
组数据无法获知每个观测值的数值,只能假设数据在每个等级区间均匀分布来估计。
组离散数据的中位数,首先要构造累积频率分布表,然后通过累积频率分布表确定数据的中位数对应的观测值的位置,然后根据观测值的位置按照插值法估算数据的中位数。
组连续数据的中位数,在假设数据在每个等级区间内均匀分布下,可采用以下公式来估计组数据的中位数:
其中,L为中位数的组的下限,i为中位数所在组的宽度,F 为至中位数组前一组的累积频率,f为中位数所在组的频率,n为观测值总数目。
调和平均数
N个数X1,X2,…,XN,的调和平均数H等于这些数的倒数的算数平均数的倒数。