文档介绍：统计量的应用(Application of Statistic)
人世间,”比较”(comparison)是一直在发生的事,由两个单独的事件”比较”,是两个数字的比较;但是如果两组群体事件的”比较”,就不是那么容易的了,于是会有假设检定(hypothesis testing),在这检定有所谓统计有效(statistically significant),需要信心区间(confidence interval)的设定,这是需要平均值(mean)及差异数(variance),而这又来自机率(probability)。
2-1 机率(probability)
在这一节,我们只为介绍一些专有名词,可以用投钱币的例子。钱币有两面,一为头面(H,head),一为尾面(T,tail)属于两种事件(two events)的实验(experiment)。
专有名词:
es=H or T
sample space(S)={H,T}
events(E)={H},{T},{H,T},Æ
subsets of sample space,S
可知每次发生头或尾的机率为
2-1-1期望值(Expectation)
在讨论期望值前,得介绍随机变量(random variable),所谓随机变量就是随机,不加以控制的意思,这是统计中很重要的,也不容易懂的。吾人再从投钱币为例子:
例:
mapping( random variable )
Sample space
· H
· T
x(H) = 1
0 x(T) = 0
其中x=1, x= 0为 random variable。所以产生x=1 or x= 0 的机率就可以用,这两个就可以叫做probability distribution or function。
对于随机变量而言,会有期望值,其定义为E(x)= ΣxP(x),所以对于本例而言,
其中probability distribution 可以分成连续性的(continuous)或者离散性的(discrete)如Fig2-1:
Fig2-1 continuous and discrete probability distribution
由任何一个机率分配(probability distribution)所构成的平均值(mean)可以定义为:
其中x为连续性
μ=ΣxP(x) x为离散性
事实上平均值在无穷尽的随机变量下的抽样就是期望值,可用其定义μ=E(x)=ΣxP(x),其中E代表了期望值运算子(operator)。由于平均值的计算,来自机率分配,结果就是有所谓的差异
(variance),其意义为:
x为连续性
或
σ2 =Σ(x-μ)2P(x)=V(x)=E[(x-μ)2] x为离散性
其中V为差异数运算子(variance operator)与平均值运算子有相当大的关连。
2-1-2 动量产生函数(moment generating function,mgf)
另外,由平均值运算子的随机数是一阶,而差异数运算子用”E”看其随机数是二阶。照这种形式E(xκ)是κ阶动量(κth moment)应该也有其意义。我们看mgf的定义;由离散性的随机变量( x )其mgf为mx(t)=E(etx)其中t为实数,在(-h , h)开放区间内。
按
如果对t微分
如此,
其它关系式如下:
E(c)=c
E(x)=μ
E(cx)=cE(x)=Cμ
V(c)=0
V(x)=σ2
V(cx)= c2V(x)=c2σ2
E(x1+x2)=E(x1)+E(x2)=μ1+μ2
V(x1+x2)=V(x1)+V(x2)+2COV(x1+x2)
其中2COV(x1,x2)=E(x1-μ1)(x2-μ2)
V(x1-x2)=V(x1)+V(x2)-2COV(x1+x2)
2-2抽样(Sampling)
前面提到两个体比较很容易,两群体比较就需一定的方法。当群体的个数很多时,要比较就得用抽样(sampling)。因此在有N个整体中取n样出来有种方法,而这些取样的机率应该一样,可以称为随机抽样(random sampling)。
抽样后的统计性质就是样品的平均值及差异数,可由下列公式计算:
( 平均值)
( 差異數)
而将差异数开根号,,就称为样品的标准差(sample standard deviation)。
2-2-1点估计(point estimation)
事实上,前面所提的平均值()与差异数(S2)都是一种点估计值(point estimation)。当然,点估计值也应该是随机变量(random variable),而产生点估计值的过