1 / 11
文档名称:

Web信息处理与应用复习笔记-GitHub.docx

格式:docx   大小:107KB   页数:11页
下载后只包含 1 个 DOCX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

Web信息处理与应用复习笔记-GitHub.docx

上传人:zhaojz4822 2022/6/22 文件大小:107 KB

下载得到文件列表

Web信息处理与应用复习笔记-GitHub.docx

相关文档

文档介绍

文档介绍:Web 信息处理与应用 复****笔记
2017-1 熊家靖 PB14011026
PART 1:Web Search
一、 Introduction
1、 web 搜索的挑战:
数据规模大、分布散
顺序存储、 Hash table 、 B+- 树、 Trie 树
7、 Zipf ’ Law:
任意一个词项,其频度和排名的乘积大致是一个常数
- 2 -
五、 Queries
1、查询表达的难点:
一个查询可以代表非常不同的信息需求
一个查询可能是其真正需求的一种非常差的表述
2、查询表达的优化:
局部优化:对用户查询进行局部分析,如相关性反馈
全局优化:进行全局分析来产生同 / 近义词词典,如查询扩展
3、相关性反馈的概念和过程:
用户在查询后标记相关 /不相关文档,然后迭代更新查询以获得更好的结果
4、相关性反馈的分类及其各自的概念和特点:
显式反馈: 定义:用户显式参加交互过程,即用户反馈
问题:开销大、查询长、用户不愿意、反馈逻辑难理解
隐式反馈: 定义:系统跟踪用户的行为来推测返回文档的相关性,从而反馈好处:省却了用户的显式参与过程
问题:对分析的要求高、准确度难保证、可能需要额外设备伪相关反馈: 定义:对于真实相关反馈的人工部分进行自动化
好处:不用考虑用户因素,处理简单,平均效果也不错
问题:准确率难以保证,可能出现查询漂移
5、 Ricchio 算法:
新查询向量 = α·原查询向量 + β·平均相关向量 –γ·平均不相关向量
计算过程中出现负值,全部设为 0
基本假设:用户知道使用文档集中的词项来表达初始查询;相关文档出现的词项类似
6、查询扩展的概念:
相关性反馈中,用户针对文档提供附加信息,查询扩展中,用户对词项提供附加信息
7、查询扩展的几种方法:
人工构建同 / 近义词词典、自动导出同 /近义词词典、基于查询日志挖掘查询等价类六、 Ranking
1、 Ranking 的难点:
Web 网页的质量参差不齐,大量的网页组织性、结构性比较差
大部分检索用户是没有任何经验的
用户的查询需求存在着巨大差异
2、信息检索模型的概念:
用来描述文档和用户查询的标识形式以及它们之间相关性的框架
形式化表示为: [ D, Q, F, R(Di,q) ] 即 [文档表达 , 查询表达 , 匹配框架 , 相关性度量函数 ]
3、信息检索的实质问题:
对于所有文档,根据其与用户查询的相关程度从大到小排序
4、信息检索模型与搜索引擎排序算法的关系:
好的信息检索模型在相关性上产生和人类决策非常相关的结果
基于好的检索模型的排序算法能够在排序结果顶部返回相关的文档
5、信息检索的分类:
基于集合论的模型:布尔模型
基于代数论的模型:向量空间模型
基于概率论的模型:概率模型、语言模型、推理网络
6、相关系数的概念和计算:
- 3 -
Jaccard : A 与 B 的交中元素的个数 / A 与 B 的并中元素的个数
未考虑词频、文档长度、罕见词信息量
tf( t, d ) : 词项 t 在文档 d 中出现的次数
# 相关度不会正比于词项频率
w( t, d ):
当 tf > 0 时, 1 + lg( tf ) ; 否则, 0
df( t ):
出现词项 t 的文档数目
idf( t ):
lg( N / df )
其中 N 是文档集中文档的数目
tf-idf:
( 1 + lg tf )
lg( N·/ df )
# 随着词项频率的增大而增大
# 随着词项罕见度的增大而增大
7、向量空间模型 SMART :
D: 每个文档是一个以词项为维度的向量,每个维度的值为词项的 tf-idf 值
Q: 每个查询是一个以词项为维度的向量,每个维度的值为词项的 tf-idf 值
F : 非完全匹配
R: 用文档向量和查询向量的相似度来估计相关性
前提假设:检索到的所有文档相关性不等价、相关性多元、查询关键字互相独立
8、余弦相似度:
两个向量夹角的余弦值,即:两向量的点乘 / 各自模的积
9、向量空间模型的操作过程:
文档和查询表示成 tf-idf 的权重向量
计算两向量余弦相似度
将余弦相似度 Top-K 的文档返回给用户
、向量空间模型