文档介绍:第4讲数据分布特征的描述
集中趋势的度量
离散趋势的度量
偏度和峰度
学习目标:
,以及数据的分布特征
频数分配的类型
对称分布
右偏分布
左偏分布
正J型分布
反J型分布
U型分布
几种常见的频数分布
数据分布的特征
集中趋势
(位置)
偏态和峰态
(形状)
离中趋势
(分散程度)
数据分布特征的测度
数据特征的测度
众数
中位数
平均数
离散系数
方差和标准差
峰态
异众比率
偏态
分布的形状
集中趋势
离散程度
四分位差
分位数
一组数据向其中心值靠拢的倾向和程度
测度集中趋势就是寻找数据水平的代表值或中心值
反映了一组数据中心点位置所在
不同类型的数据用不同的集中趋势测度值
低层次数据的测度值适用于高层次的测量数据,但高层次数据的测度值并不适用于低层次的测量数据
集中趋势的度量
集中趋势的度量
分类数据:众数
顺序数据:中位数和分位数
数值型数据:平均数
众数、中位数和平均数的比较
分类数据:众数Mo(mode)
统计总体或分布数列中出现频数最多、频率最高的变量值
一组数据可能没有众数或有几个众数
一般来说,一组数据中,出现次数最多的数就叫这组数据的众数。例如:1,2,3,3,4的众数是3。
如果有两个或两个以上个数出现次数都是最多的,那么这几个数都是这组数据的众数。例如:1,2,2,3,3,4的众数是2和3。
如果所有数据出现的次数都一样,那么这组数据没有众数。例如:1,2,3,4,5没有众数。
众数(不惟一性)
无众数原始数据: 10 5 9 12 6 8
一个众数原始数据: 6 5 9 8 5 5
多于一个众数原始数据: 25 28 28 36 42 42
分类数据:众数Mo(mode)
统计总体或分布数列中出现频数最多、频率最高的变量值
一组数据可能没有众数或有几个众数
数据信息利用不够充分
众数是一个位置代表值,不受极端值的影响
主要用于分类数据,也可用于顺序数据和数值型数据
分类数据的众数(例题分析)
不同品牌饮料的频数分布
饮料品牌
频数
比例
百分比(%)
可口可乐
旭日升冰茶
百事可乐
汇源果汁
露露
15
11
9
6
9
30
22
18
12
18
合计
50
1
100
解:这里的变量为“饮料品牌”,这是个分类变量,不同类型的饮料就是变量值
所调查的50人中,购买可口可乐的人数最多,为15人,占总被调查人数的30%,因此众数为“可口可乐”这一品牌,即
Mo=可口可乐