文档名称：

Web信息处理与应用复习笔记-GitHub.docx

格式：docx 大小：107KB 页数：11页

下载后只包含 1 个 DOCX 格式的文档，没有任何的图纸或源代码，查看文件列表

如果您已付费下载过本站文档，您可以点这里二次下载

预览

下载此文档

Web信息处理与应用复习笔记-GitHub.docx

上传人:zhaojz4822 2022/6/22 文件大小：107 KB

下载得到文件列表

Web信息处理与应用复习笔记-GitHub.docx

相关文档

文档介绍

文档介绍：Web 信息处理与应用复****笔记
2017-1 熊家靖 PB14011026
PART 1：Web Search
一、 Introduction
1、 web 搜索的挑战：
数据规模大、分布散
顺序存储、 Hash table 、 B+- 树、 Trie 树
7、 Zipf ’ Law：
任意一个词项，其频度和排名的乘积大致是一个常数
- 2 -
五、 Queries
1、查询表达的难点：
一个查询可以代表非常不同的信息需求
一个查询可能是其真正需求的一种非常差的表述
2、查询表达的优化：
局部优化：对用户查询进行局部分析，如相关性反馈
全局优化：进行全局分析来产生同 / 近义词词典，如查询扩展
3、相关性反馈的概念和过程：
用户在查询后标记相关 /不相关文档，然后迭代更新查询以获得更好的结果
4、相关性反馈的分类及其各自的概念和特点：
显式反馈：定义：用户显式参加交互过程，即用户反馈
问题：开销大、查询长、用户不愿意、反馈逻辑难理解
隐式反馈：定义：系统跟踪用户的行为来推测返回文档的相关性，从而反馈好处：省却了用户的显式参与过程
问题：对分析的要求高、准确度难保证、可能需要额外设备伪相关反馈：定义：对于真实相关反馈的人工部分进行自动化
好处：不用考虑用户因素，处理简单，平均效果也不错
问题：准确率难以保证，可能出现查询漂移
5、 Ricchio 算法：
新查询向量 = α·原查询向量 + β·平均相关向量 –γ·平均不相关向量
计算过程中出现负值，全部设为 0
基本假设：用户知道使用文档集中的词项来表达初始查询；相关文档出现的词项类似
6、查询扩展的概念：
相关性反馈中，用户针对文档提供附加信息，查询扩展中，用户对词项提供附加信息
7、查询扩展的几种方法：
人工构建同 / 近义词词典、自动导出同 /近义词词典、基于查询日志挖掘查询等价类六、 Ranking
1、 Ranking 的难点：
Web 网页的质量参差不齐，大量的网页组织性、结构性比较差
大部分检索用户是没有任何经验的
用户的查询需求存在着巨大差异
2、信息检索模型的概念：
用来描述文档和用户查询的标识形式以及它们之间相关性的框架
形式化表示为： [ D, Q, F, R(Di,q) ] 即 [文档表达 , 查询表达 , 匹配框架 , 相关性度量函数 ]
3、信息检索的实质问题：
对于所有文档，根据其与用户查询的相关程度从大到小排序
4、信息检索模型与搜索引擎排序算法的关系：
好的信息检索模型在相关性上产生和人类决策非常相关的结果
基于好的检索模型的排序算法能够在排序结果顶部返回相关的文档
5、信息检索的分类：
基于集合论的模型：布尔模型
基于代数论的模型：向量空间模型
基于概率论的模型：概率模型、语言模型、推理网络
6、相关系数的概念和计算：
- 3 -
Jaccard ： A 与 B 的交中元素的个数 / A 与 B 的并中元素的个数
未考虑词频、文档长度、罕见词信息量
tf( t, d ) ：词项 t 在文档 d 中出现的次数
# 相关度不会正比于词项频率
w( t, d ):
当 tf > 0 时， 1 + lg( tf ) ；否则， 0
df( t ):
出现词项 t 的文档数目
idf( t ):
lg( N / df )
其中 N 是文档集中文档的数目
tf-idf:
( 1 + lg tf )
lg( N·/ df )
# 随着词项频率的增大而增大
# 随着词项罕见度的增大而增大
7、向量空间模型 SMART ：
D：每个文档是一个以词项为维度的向量，每个维度的值为词项的 tf-idf 值
Q：每个查询是一个以词项为维度的向量，每个维度的值为词项的 tf-idf 值
F ：非完全匹配
R：用文档向量和查询向量的相似度来估计相关性
前提假设：检索到的所有文档相关性不等价、相关性多元、查询关键字互相独立
8、余弦相似度：
两个向量夹角的余弦值，即：两向量的点乘 / 各自模的积
9、向量空间模型的操作过程：
文档和查询表示成 tf-idf 的权重向量
计算两向量余弦相似度
将余弦相似度 Top-K 的文档返回给用户
、向量空间模型