文档介绍:第4讲数据分布特征的描述
集中趋势的度量
离中趋势的度量
偏度和峰度
学习目标:
,以及数据的分布特征
次数分配的类型
对称分布
右偏分布
左偏分布
正J型分布
反J型分布
U型分布
几种常见的频数分布
数据分布的特征
集中趋势
(位置)
偏态和峰态
(形状)
离中趋势
(分散程度)
数据分布特征的测度
数据特征的测度
众数
中位数
平均数
离散系数
方差和标准差
峰态
异众比率
偏态
分布的形状
集中趋势
离散程度
四分位差
分位数
集中趋势的度量
定类数据:众数
定序数据:中位数和分位数
定距数据:平均数
众数、中位数和平均数的比较
集中趋势(central tendency)
一组数据向其中心值靠拢的倾向和程度
测度集中趋势就是寻找数据水平的代表值或中心值
不同类型的数据用不同的集中趋势测度值
低层次数据的测度值适用于高层次的测量数据,但高层次数据的测度值并不适用于低层次的测量数据
定类数据:众数Mo(mode)
统计总体或分布数列中出现频数最多、频率最高的变量值
不受极端值的影响
数据信息利用不够充分
一组数据可能没有众数或有几个众数
主要用于定类数据,也可用于定序数据和定距数据
众数(不惟一性)
无众数原始数据: 10 5 9 12 6 8
一个众数原始数据: 6 5 9 8 5 5
多于一个众数原始数据: 25 28 28 36 42 42
定类数据的众数(例题分析)
不同品牌饮料的频数分布
饮料品牌
频数
比例
百分比(%)
可口可乐
旭日升冰茶
百事可乐
汇源果汁
露露
15
11
9
6
9
30
22
18
12
18
合计
50
1
100
解:这里的变量为“饮料品牌”,这是个定类变量,不同类型的饮料就是变量值
所调查的50人中,购买可口可乐的人数最多,为15人,占总被调查人数的30%,因此众数为“可口可乐”这一品牌,即
Mo=可口可乐
定序数据的众数 (例题分析)
解:这里的数据为定序数据。变量为“回答类别”
甲城市中对住房表示不满意的户数最多,为108户,因此众数为“不满意”这一类别,即
Mo=不满意
甲城市家庭对住房状况评价的频数分布
回答类别
甲城市
户数(户)
百分比(%)
非常不满意
不满意
一般
满意
非常满意
24
108
93
45
30
8
36
31
15
10
合计
300