文档介绍:第一章 描述性统计
我们把对某一个问题的研究对象的全体称为总体,总体就是一个 具有确定分布的随机变量.我们统计分析的目的是通过从总体中抽得 的样本,对总体分布进行推断,要想较准确的推断出总体的分布,首 先要对样本的分布状况有一个基本的了解„,m
n j j j -1 j
来近似总体的分布密度函数f(x).
由于当n充分大时可用X取(t , t ]的频率f = nj来近似x£( t , t ]的概率
j -1 j j n j -1 j
即fj ~pg( t」tj ])(n充分大)
而 P (XE( t , t ])= Jt j f (x)dx,即
厂1 j t
j -1
f a J t j f (x) dx jt
j-1
且当m充分大,△ t较小时,对xe( t , t)时
j j -1 j
J t j f (x) dx a f (x) △ t
tj
j-1
故有 f a f (x) △ t即
jj
①(x) = f /△ t a f(x), xe( t , t ],j=1,2,…,m
n j j j - 1 j
区间
[30,59]
(59,68]
(68,76
]
(76,84]
(84,92]
(92,100]
△ t
j
29
8
7
7
7
8
n
j
5
7
12
18
10
8
f
j
f / △
j
t
j
.
二.经验分布函数
利用样本所构造的函数来估计总体X的分布函数F (x)。构造的方法如下:
从总体X中抽取容量为n的样本X , X,…,x , x , x , „, x为样本观察值•将 1 2 n 1 2 n
样本观察值从小到大排列得到x w x W„W x ,对任意实数X,令
(1) (2) (n )
°, x <x ⑴
Fn ( x ) =
n
k
,x (k) < x < x(k+1)
n
1, xn x (n )
称f (x)为总体的经验分布函数(或样本分布函数).
n
经验分布函数图
由f (x)的定义可知(1)f (x)单调、非降、右连续,在X = x处有间断点,在每一 n n k
个间断点上的跳跃量都是丄,显然,OW f (x) W1且满足f ( -g ) = 0, F ( +8 ) = 1,所以 n n n n
F (x)是一分布函数,其图象如上。
n
(2)对于X的每一个值,F (x)为样本x,X,…,X的函数,因而是一个随机变量,
n 1 2 n
其可能取的值为0,丄,2,…,山 ,•事件“ f (x) = k ”发生,意味着样本x,X,…,X
n n n n n 1 2 n
中有k个Xi小于等于x,而其余n-k个Xi大于x,即有k个事件“ Xi Wx”发生,而
V V V
s s s
有 n-k 个事件“ x W x ”不发生(1 W i W n, 1 W i W n, s =1,2,…,n ).由于
i s n - s
.V
X,X,…,X相互独立,具有相同的分布函数F(x)(总体X的分布函数),于是事件
1 2 n
”发生的概率等价于n次独立试验中事件“XWx”发生k次,而其余n-k次“X
Wx”不发生的概率,即
=Ck [P(X < x)]k [1 - n
P(X <x)]n-k=Ck[F(x)]k[1-F(x)]n-k
n
(3)事实上,对于X的任一个确定的值,F (x)是事件“XWx”发生的频率,而F (x)=P(X
n
Wx)是事件“XWx”,当n足够大时,f (x)依概率 n
收敛到F(x),即对任意给定的£>0,有
lim P{l F (x) —F(x)| >e }=0
n
这一事实揭示了经验分布函数F (x)与总体分布函数F(X)的内在联系,即当样本容量 n
n足够大时,由样本得到的经验分布函数f (x)与总体分布函数F(x)相差较大的可能性是很
n
小的.进一步的结果由格列汶科于1933年给出.
(格列汶科定理)设总体X的分布函数为F (x),经验分布函数为f (x).对于
n
任意实数x,记
D = sup 丨 F (x) —F(x)|
nn
-g< x < +<x
则有
P { lim D n = 0 }= 1
n
n T8
格列汶科定理指出:当样本容量n足够大时,经验分布函数f