1 / 7
文档名称:

概率检索模型BM25系列-文档相关性检索的利器.doc

格式:doc   大小:97KB   页数:7页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

概率检索模型BM25系列-文档相关性检索的利器.doc

上传人:小辰GG1 2022/1/16 文件大小:97 KB

下载得到文件列表

概率检索模型BM25系列-文档相关性检索的利器.doc

相关文档

文档介绍

文档介绍:概率检索模型BM25系列-文档相关性检索的利器
给定一个用户需求(query),如果搜索系统展示的搜索结果是根据文档和 query的相关性由高向低排序的,
那么这个搜索引擎是最优的。在文档集合的基础上计算其相关性估计是其核心 〜
概率_i)}
\en d{split}\e nd{equatio n}$$
其中上面式子第三步的第二部分 ni1-pi1-sin i1-pi1-si表示各个单词在所有文
档中出现的概率,所以这个式子的值和具体文档并没有什么关系,在排序中不起作用,
才可以简化到第4步.
为了方便计算,将上述连乘公式取 loglog:
log(P(D|R)p(D|NR))= Ei:di=ilogpi(i-si)si(i-pi)log(P(D|R)P(D|NR))= 刀 i:di=
1logpi(1 -si)si(1 -pi)
有了上述最终可计算的式子之后,我们就只需要统计文档 DD中的各个单词在 相
关文档/不相关文档中出现的概率即可:
相关文档
不相关文档
文档数量
di=1di=1
riri
ni- rini-ri
nini
di=0di=0
R- riR-ri
(N- R)-( ni-ri)(N-R)-(ni-ri)
N- niN-ni
文档数量
RR
N-RN-R
NN
上面的表格表示各个单词在文档集合中的 相关文档/不相关文档出现数量,同时为
了避免log(0)log(0)出现,加上平滑之后可以计算得到:
pi=ri++i pi=ri++1
si=(ni- ri)+(N - R)+i si=(ni-ri)+(N-R)+1
则最终可以得到如下公式:
Eqi=di=1 log(ri+)((N - R)-( ni- ri)+)(ni- ri+)(R-ri+)X qi=di=1log(ri+)( (N-R)-(ni-ri)+)( ni-ri+)(R-ri+)
上面的公式表示对于同时出现查询 qiqi以及文档didi的时候,对qiqi在didi中
出现的单词在 相关文档/不相关文档 进行统计,即可得到查询与文档的相关性估计 值.
在不确定哪些文档是相关的,哪些文档是不相关的的时候,可以给公式的估算因子 直接赋予固定值,则该公式将会蜕化为 IDFIDF因子.
BM25模型
模型概述
上一小节中的BIM模型 效果并不佳,也没有考虑单词权重,但是他给 BM25
模型打下了深深的基础
BM25模型在BIM模型的基础上考虑了查询词在 Query以及Doc中的权重,并通过实验引入了一些经验
参数。BM25模型是目前最成功的内容排序模型 .
改进之后的BM25模型的拟合公式如下:<br****br/>Qlog(ri+)((N- R)-( ni- ri)+)(ni- ri+)(R-ri+)?ki+1)fiK+f i?k2+1)qfik2+qfi刀 i
Qlog(ri+)((N-R)-(ni-ri)+)( ni-ri+)(R-ri+) 彳k1+1)fiK
+fi?k2+1)qfik2+qfi
上面的式子中:
第1部分即为上一小节的二元独立模型 BIM