文档名称：

概率检索模型BM25系列-文档相关性检索的利器.doc

格式：doc 大小：97KB 页数：7页

下载后只包含 1 个 DOC 格式的文档，没有任何的图纸或源代码，查看文件列表

如果您已付费下载过本站文档，您可以点这里二次下载

预览

下载此文档

概率检索模型BM25系列-文档相关性检索的利器.doc

上传人:小辰GG1 2022/1/16 文件大小：97 KB

下载得到文件列表

概率检索模型BM25系列-文档相关性检索的利器.doc

相关文档

文档介绍

文档介绍：概率检索模型BM25系列-文档相关性检索的利器
给定一个用户需求(query),如果搜索系统展示的搜索结果是根据文档和 query的相关性由高向低排序的，
那么这个搜索引擎是最优的。在文档集合的基础上计算其相关性估计是其核心〜
概率_i)}
\en d{split}\e nd{equatio n}$$
其中上面式子第三步的第二部分 ni1-pi1-sin i1-pi1-si表示各个单词在所有文
档中出现的概率，所以这个式子的值和具体文档并没有什么关系，在排序中不起作用，
才可以简化到第4步.
为了方便计算，将上述连乘公式取 loglog：
log(P(D|R)p(D|NR))= Ei：di=ilogpi(i-si)si(i-pi)log(P(D|R)P(D|NR))= 刀 i:di=
1logpi(1 -si)si(1 -pi)
有了上述最终可计算的式子之后，我们就只需要统计文档 DD中的各个单词在相
关文档/不相关文档中出现的概率即可：
相关文档
不相关文档
文档数量
di=1di=1
riri
ni- rini-ri
nini
di=0di=0
R- riR-ri
(N- R)-( ni-ri)(N-R)-(ni-ri)
N- niN-ni
文档数量
RR
N-RN-R
NN
上面的表格表示各个单词在文档集合中的相关文档/不相关文档出现数量，同时为
了避免log(0)log(0)出现，加上平滑之后可以计算得到：
pi=ri++i pi=ri++1
si=(ni- ri)+(N - R)+i si=(ni-ri)+(N-R)+1
则最终可以得到如下公式：
Eqi=di=1 log(ri+)((N - R)-( ni- ri)+)(ni- ri+)(R-ri+)X qi=di=1log(ri+)( (N-R)-(ni-ri)+)( ni-ri+)(R-ri+)
上面的公式表示对于同时出现查询 qiqi以及文档didi的时候，对qiqi在didi中
出现的单词在相关文档/不相关文档进行统计，即可得到查询与文档的相关性估计值.
在不确定哪些文档是相关的，哪些文档是不相关的的时候，可以给公式的估算因子直接赋予固定值，则该公式将会蜕化为 IDFIDF因子.
BM25模型
模型概述
上一小节中的BIM模型效果并不佳，也没有考虑单词权重，但是他给 BM25
模型打下了深深的基础
BM25模型在BIM模型的基础上考虑了查询词在 Query以及Doc中的权重，并通过实验引入了一些经验
参数。BM25模型是目前最成功的内容排序模型 .
改进之后的BM25模型的拟合公式如下：<br****br/>Qlog(ri+)((N- R)-( ni- ri)+)(ni- ri+)(R-ri+)?ki+1)fiK+f i?k2+1)qfik2+qfi刀 i
Qlog(ri+)((N-R)-(ni-ri)+)( ni-ri+)(R-ri+) 彳k1+1)fiK
+fi?k2+1)qfik2+qfi
上面的式子中：
第1部分即为上一小节的二元独立模型 BIM