文档介绍:第26课
独立性检验
本课讨论这种情况:数据来自样本空间Χ, Χ由含两个特征的数据对组成,每个特征
的取值是有限的。简写如下:
Χ={()ij, : i = 1,……, aj , = 1, , b}
如果有来自样本空间服从一定分布的样本,则 12,其中 1 可
Χ X1,,… X n X ii = ( XX ,i) X i
2
取a 个不同的值, X i 可取 b 个不同的值。令Nij 为一系列观测值(ij, ) ,如下表所示:
表 列联表
特征 2
特征 1 1 2
b
NN11 12
N 1b
1
NN
N
2 21 22 2b
NNaa12
Nab
a
要检验的是这两个特征的独立性,即
Ρ=()X (ij, ) =Ρ=Ρ=( X12 i) ( X j)
引入下面的记法:
12
Ρ=()X ()ij,, =Ρθij ( X ==Ρ i) pi且( X = jq) j
于是要检验的就是对所有的i 和 j ,都有θij= pq i j 。我们的假设可以用公式表示为:
⎪⎧Hppqqp11: 对和有() ,……,nbi( 1 , ,) θ j = iqj
⎨
⎩⎪H 2 : 其他
这些假设落入复合拟合优度检验,因为随机变量可取得
rab=×
个可能值(所有特征对),而且我们要检验的是它们的分布来自假设H1 所描述的
具有独立的特征的分布族。由于 pi 之和与 q j 之和应为 1,
ppqq11++……ab =11且++=
每个序列有一个参数,如 pa 和 qb ,可以由其他概率计算求得,于是可把()pp11,,… a−和
(qq1,,… b−1)看作自由参数,这样参数集的维数是
sa=−+−()(11 b)
因此,如果我们可以找到参数的最大似然估计,则χ 2 统计量
∗∗2
()Nnpqij− i j
T =→==χχ22 χ2
∑∗∗ rs−−1 ab−()() a−−111 b −−()()a − 11 b −
ij, npij q
收敛,收敛于2 分布,自由度为。还需找到参数的最大似然估计,求
χ()()ab−−11 (ab−1)( −1)
似然函数
N N
ij ∑ ij Nij N N
j ∑ii+ + j
∏∏∏∏∏()pqij == pi pj pi p j
ij, i j i j
的最大值。其中引入下面的记法:
NNii+ = ∑ j
j
计算第 i 行的所有观测值之和,换句话说,就是第 1 个特征等于 i 的所有观测值之和。同样
的记法计算第 j 列观测值之和
NNji+ = ∑ j
i
由于所有的 p 和 q 不相联,显然求上面似然函数的最大值就等介于分别求 pNi+ 和
i j ∏i i
pN+ j 的最大值。不要忘了求最值的前提约束条件 p 和 q 各自之和为 1(否则不能令
∏ j j i j
其等于+∞)。例如,解下面的最优值问题:
a
Ni+ 约束条件为
max ∏ pi ∑ p