1 / 6
文档名称:

概率检索模型BM25系列-文档相关性检索的利器.docx

格式:docx   大小:29KB   页数:6页
下载后只包含 1 个 DOCX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

概率检索模型BM25系列-文档相关性检索的利器.docx

上传人:分享精品 2017/12/20 文件大小:29 KB

下载得到文件列表

概率检索模型BM25系列-文档相关性检索的利器.docx

相关文档

文档介绍

文档介绍:概率检索模型BM25系列-文档相关性检索的利器
给定一个用户需求(query),如果搜索系统展示的搜索结果是根据文档和query的相关性由高向低排序的,那么这个搜索引擎是最优的。在文档集合的基础上计算其相关性估计是其核心~
概率排序原理
以往的 向量空间模型 是将 query 和文档使用向量表示然后计算其内容相似性来进行相关性估计的,而 概率检索模型 是一种直接对用户需求进行相关性的建模方法,一个 query 进来,将所有的文档分为两类—- 相关文档 、 不相关文档 ,这样就转为了一个相关性的分类问题,赞!
对于某个文档DD来说,P(R|D)P(R|D)表示该文档数据相关文档的概率,则P(NR|D)P(NR|D)表示该文档属于不相关文档的概率,如果 query 属于相关文档的概率大于不相关文档P(R|D)>P(RN|D)P(R|D)>P(RN|D),则认为这个文档是与用户查询相关相关的.
现在使用贝叶斯公式将其转一下:
P(R|D)>P(NR|D)<=>P(D|R)P(R)P(D)>P(D|NR)P(NR)P(D)<=>P(D|R)P(D|NR)>P(NR)P(R)P(R|D)>P(NR|D)<=>P(D|R)P(R)P(D)>P(D|NR)P(NR)P(D)<=>P(D|R)P(D|NR)>P(NR)P(R)
在搜索排序过程中不需要真正的分类,只需要保证相关性由高到底排序即可,所以只需要P(D|R)P(D|NR)P(D|R)P(D|NR)降序即可,这样就最终转为计算P(D|R)P(D|R),P(D|NR)P(D|NR)的值即可.
二元独立模型(BIM)
词汇独立性假设:文档里面出现的词没有任何关联,这样一个文档的出现就可以转为各个单词出现概率的乘积(虽然这种假设有违实际,但是算起来简单的啊^_^)
上述提到的文档DD表示为 {1,0,1,0,1} ,用pipi来表示第ii个单词在相关文档出现的概率,则在已知 相关文档 集合的情况下,观察到DD的概率为:
P(D|R)=p1×(1−p2)×p3×(1−p4)×p5P(D|R)=p1×(1−p2)×p3×(1−p4)×p5
第 1,3,5 表示这个单词在DD中出现,所以其贡献概率为pipi,而第 2,4 这两个单词并没有在DD中出现,所以其贡献的概率为1−pi1−pi
同理在 不相关文档 中观察到的概率为:
P(D|R)=s1×(1−s2)×s3×(1−s4)×s5P(D|R)=s1×(1−s2)×s3×(1−s4)×s5
最终得到的相关性概率估算为:
P(D|R)P(D|NR)=p1×(1−p2)×p3×(1−p4)×p5s1×(1−s2)×s3×(1−s4)×s5P(D|R)P(D|NR)=p1×(1−p2)×p3×(1−p4)×p5s1×(1−s2)×s3×(1−s4)×s5
现在将其推广之后可以有通用的式子:
P(D|R)P(D|NR)=∏i:di=1pisi×∏i:di=01−pi1−siP(D|R)P(D|NR)=∏i:di=1pisi×∏i:di=01−pi1−si
di=1di=1表示在文档中出现的单词,di=0di=0表示没在文档中出现的单词:
在这里进一步对上述公式进行等价变换之后有:
$$\begin{equation}\begin{spl