文档介绍:基于统计的自然语言处理的数学基础
初等概率理论
2017/11/11
1
By Barbara Rosario
动机
统计计算语言处理的目的在于以自然语言为处理对象进行统计推导
统计推导包括两方面内容:
收集自然语言词汇(或者其他语言单位)的分布情况
根据这些分布情况进行统计推导
2017/11/11
2
动机
这类统计推理的例子之一就是语言的模型化(也就是说如何根据前面出现的词预测下一个词的出现)
为此我们需要构造语言的模型
概率理论能够帮助我们找到这样的模型
2017/11/11
3
概率理论
某事件发生的可能性有多少?
样本空间Ω是一个随机试验所有可能的结果的集合
事件 A 是Ω的子集
概率函数(或者概率分布)
2017/11/11
4
先验概率与后验概率
先验概率(prior probability):在没有任何附加条件下的概率值
后验概率(posterior probability):在某种先决条件下的概率值
P(A|B)
2017/11/11
5
条件概率
我们对于随机试验的结果有部分知识(或者约束条件)
条件概率(或者后验概率)
假设我们已知B为真
那么在我们已知B为真的条件下A 为真的概率可以表示为:
2017/11/11
6
联合概率
A与B的联合概率
argmax[B]P(A|B)P(B)/P(A)=argmax[B]P(A|B)P(B)
2017/11/11
7
链规则
P(A,B) = P(A|B)P(B)
= P(B|A)P(A)
P(A,B,C,D…) = P(A)P(B|A)P(C|A,B)P(D|A,B,C..)
2017/11/11
8
(条件)独立
两个事件 A 与 B 相互独立如果
P(A) = P(A|B)P(A,B)=P(A)*P(B)
两个事件 A 与 B 是在条件C下相互条件独立如果:
P(A|C) = P(A|B,C)
2017/11/11
9
贝叶斯定理
Bayes’ Theorem是我们能够交换事件之间的条件依赖的顺序
由于
贝叶斯定理(Bayes’ Theorem):
2017/11/11
10