文档介绍:统计学
─从数据到结论
第三章数据的描述
在对数据进行深入加工之前,总应该对数据有所印象。
可以借助于图形和简单的运算,来了解数据的一些特征。
由于数据是从总体中产生的,其特征也反映了总体的特征。对数据的描述也是对其总体的一个近似的描述。
§ 如何用图来表示数据?
§ 定量变量的图表示:
对于一个定量变量,比如某个地区(地区1)测量了163个高三男生的身高()。
用图形来表示这个数据,使人们能够看出这个数据的大体分布或“形状”的一个办法是画直方图(histogram)。
。
该图的横坐标是身高区间,这里每一格代表5cm的身高范围(格子宽度因不同的数据性质或要求而定,这里的格子宽度为5cm),而纵坐标为各种身高区间的身高的频数。
直方图
§ 定量变量的图表示:
简单一些的是盒形图(boxplot,又称箱图、箱线图、盒子图)。
;其右边的图代表另一个地区(地区2)的高三学生的身高(,,)。
盒型图
盒子的中间横线是数据的中位数(median),封闭盒子的上下两横线(边)为上下四分位数(点);按照SPSS的默认选项,,则线的端点为最大和最小值,(盒子长度称为四分位间距),在其外面的度量单独点出
§ 定量变量的图表示:
在直方图和盒形图中,很难恢复数据的原貌。而另一种图:茎叶图(stem-and-leaf plots)可以恢复数据
以地区1高三男生身高为例(),茎叶图既展示了分布形状又有原始数据。它象一片带有茎的叶子。茎为较大位数的数字,叶为较小位数的数字。
茎叶图
其中茎叶图中茎的单位为10cm,而叶子单位为1cm。比如,由于第一行茎为150cm,因此叶子中的九个数字001223344代表九个数目150、150、151、152、152、153、153、154、154cm等。每行左边有一个频数(比如第一行有9个数目,第二行有17个等等);可以看出最长的一行为从165cm到169cm的一段(有35个数)。