文档介绍:数据的统计分析与描述
目的
2、掌握用数学软件包求解统计问题。
1、直观了解统计基本内容。
*
*
统计的基本概念
参数估计
假设检验
数据的统计描述和分析
1. 总体与样本
总体(population):总体是指所研究对象的全体组成的集合。
样本(sample):样本是指从总体中抽取的部分对象(个体)组成的集合。样本中包含个体的个数称为样本容量。容量为n的样本常用n个随机变量X1,X2,…,Xn表示,其观测值(样本数据)则表示为x1,...,xn,为简单起见,有时不加区别。
2. 参数与统计量
参数(parameter):参数是用来描述总体特征的概括性值。如总体平均值(μ)、总体方差(2)、总体比例(π)等。
统计量(statistics):统计量是用来描述样本特征的概括性值。如样本均值( )、样本方差(s2)、样本比例(P)等。
表示数据集中趋势的统计量
如果要用简单的数字来概括一组观测数据x1,...,xn,可以使用“位置统计量”来作为数据的总体代表,常见的位置统计量有:均值、中位数、分位数、众数等。
1. 均值(Mean)
均值是所有观测值的平均值,是描述数据取值中心位置的一个度量:
2. 中位数(Median或Med)
中位数是描述观测值数据中心位置的统计量,大体上比中位数大(小)的数据为观测值的一半。中位数的一个优点是它不受个别极端数据的影响,具有稳健性。中位数的计算方法是:首先将数据从小到大排序为:x(1),...,x(n),然后计算
3. 众数(Mode)
观测值中出现最多的数称为众数。众数用得不如均值和中位数普遍。在属性变量分析中,常需考虑频数,因此众数用得多些。
4. 百分位数(Percentile)
分位数也是描述数据分布和位置的统计量。,、下四分位数,并分别记为Q3和Q1。
表示数据离散程度的统计量
1. 极差(Range)与半极差(Interquartile range)
极差就是数据中的最大值和最小值之间的差:
极差 = max{xi} – min{xi}
上、下四分位数之差Q3 – Q1称为四分位极差或半极差,它描述了中间半数观测值的散布情况。
2. 方差(Variance或Var)
方差是由各观测值到均值距离的平方和除以观测量减1:
3. 标准差(Standard deviation或Std Dev)
方差的开方称为标准差:
标准差的量纲与原变量一致。
4. 变异系数(Coefficient of Variation或CV)
变异系数是将标准差表示为均值的百分数,是观测数据分散性的一个度量,它在比较用不同单位测量的数据的分散性时是有用的: