1 / 67
文档名称:

向量空间模型课件.ppt

格式:ppt   大小:1,122KB   页数:67页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

向量空间模型课件.ppt

上传人:wwlgqnh 2022/6/25 文件大小:1.10 MB

下载得到文件列表

向量空间模型课件.ppt

相关文档

文档介绍

文档介绍:向量空间模型
向量空间模型是最常用的检索模型(Salton等人,1975年)
思想:文章的语义通过所使用的词语来表达
方法:每一篇文档用一个向量来表达,查询用一个向量来表达,通过向量的方式来计算相似度。
查询
文档1
文ment =
idffire = idftruck =
idfgold =
向量空间模型 —构建向量(举例)
向量空间模型 —构建向量(举例)
SC(Q, D1) = 0×0 + 0×0 + 0× + 0×0
+ 0× + × + 0×0 + 0×0
+ 0× + ×0 + ×0
=
类似地:
SC(Q, D2) = × +
SC(Q, D3) = +
因此,检索结果顺序为D2, D3, D1。
向量空间模型 —倒排索引
term1
term2
term3
termi
termn
d1, 1
d10, 2
dj, tfi,j
向量空间模型 ——构建向量
新问题:在已知的查询和文档中,词频很高的匹配词项淹没了其他匹配词项的效果。
为了避免这种现象,科研人员提出使用lg(tf ) + 1来缩小词频的范围。
新的权重:
基于该思想的修订版本是在查询和文档中的词项使用不同的权重。

:,其中qqq指查询权重,ddd指文档权重。这三个字母:qqq或ddd是xyz的形式。
向量空间模型 ——构建向量
向量空间模型 ——构建向量
第一个字母x可以是n、l或a。n表示原始词频或指tf。l表示通过取对数来降低权重,所以可以使用1+lg(tf)。a表示加强权重,所以权重为:
第二个字母y表示是否使用idf。n表示不使用idf,t表示使用idf。
第三个字母z表示是否使用文档长度归一化。通过归一化文档长度,我们试着减小检索中文档长度的影响(见公式2-1)。在文献[Singhal, 1997]中,n表示不使用归一化,c表示使用标准的余弦归一化,u表示使用临界点长度(pivoted length)归一化。
向量空间模型 ——相似度
文档向量: 查询向量:
(1)内积(Inner Product)
问题:通过内积方法,一个比较长的文档可能会得到一个比较高的分数,仅仅因为文档比较长,因此有更多的机会包含查询词——并不一定因为文档是相关的。
向量空间模型 ——相似度
(2)余弦(Cosine)
条件假设:余弦方法中假定文档长度对查询没有影响。
余弦方法通过将向量内积除以文档向量的长度来实现不同文档长度的归一化。除以文档向量长度就是不考虑文档长度。
向量空间模型 ——相似度
Dice系数:
Jaccard系数:
然而这种简单的假设是不正确的(至少对于TREC数据) 。
拿50个TREC查询集所有查找到的相关文档来说,Singhal发现实际上在长文档集中更多文档被判断为相关的[Singhal,1997]。
原因可能是长文档仅仅是有更多的机会包含那些与给定查询确实相关的词项。
向量空间模型 ——相似度
向量空间模型 ——相似度
(3)临界点余弦(Pivoted Cosine)
向量空间模型 ——相似度
相似度为:
这种方法