1 / 43
文档名称:

信息检索-02信息检索模型.pdf

格式:pdf   页数:43页
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

信息检索-02信息检索模型.pdf

上传人:xwhan100 2015/2/8 文件大小:0 KB

下载得到文件列表

信息检索-02信息检索模型.pdf

文档介绍

文档介绍:第2章信息检索模型
主讲:张春元(信息学院213室)
联系电话:**********
课程邮箱:haidair2009@
密码:ir2009
提纲
„ 信息检索模型的定义和分类
„ 布尔模型*
„ 向量空间模型*
„ 概率模型*
„ 扩展布尔模型
„ 统计语言模型
„ 隐性语义索引模型
„ 基于本体论的模型
海南大学信息学院张春元主讲 2009秋季-2-
信息检索模型的定义和分类
„ 信息检索模型的定义
„ 信息检索模型的分类
海南大学信息学院张春元主讲 2009秋季-3-
信息检索模型的定义
„ 模型是采用数学工具,对现实世界某种事物或某种运动
的抽象描述。面对相同的输入,模型的输出应能够无限
地逼近现实世界的输出,能够透过现象看本质。
„ 举例:
天气预测模型
人口增长模型
海南大学信息学院张春元主讲 2009秋季-4-
信息检索模型的定义
用户
信息源
信息查询
查询接口信息采集
用户反馈查询请求 Q 文档集 D
查询处理文档处理
查询结果Ψ查询请求逻辑视图 Q 文档逻辑视图集 D'
相关匹配文档组织
组织好的文档逻辑
D
视图集(索引库)
关键问题:
信息查询信息组织
1. 从什么样的视角去看待查询式和文档
2. 基于什么样的理论去看待查询式和文档的关系图 1-1 信息检索系统一般结构图

3. 如何计算查询式和文档之间的相似度
海南大学信息学院张春元主讲 2009秋季-5-
信息检索模型的定义
„ 信息检索模型的一般定义
用一个四元组[D, Q, F, R(qi, dj)] 表示,其中:
„ D: 文档集的机内表示(词或字或短语或N元组)
„ Q: 用户需求的机内表示
„ F: D与Q之间的检索匹配框架(Frame)
„ R(qi, dj): 排序函数,计算qi 和 dj相关度
海南大学信息学院张春元主讲 2009秋季-6-
信息检索模型的分类
集合论
模糊集
扩展的布尔模型
信息检索模型
布尔
向量空间线性代数
概率扩展的向量空间
知识隐性语义索引
神经网络
人工智能
概率论与数理统计
基于本体论的模型语言模型
推理网络
信念网络
海南大学信息学院张春元主讲 2009秋季-7-
布尔模型(Boolean Model)
„ 布尔模型的定义
„ 布尔模型示例
„ 布尔模型应用情况
„ 布尔模型优缺点
海南大学信息学院张春元主讲 2009秋季-8-
布尔模型的定义
„ 布尔模型的定义
信息检索一般模型[D, Q, F, R(qi, dj)] 解释为:
z 文档D表示为标引项的集合,各标引项权值采用二值{0,1}表示。
z 用户查询Q表示查询项的布尔组合,用“与、或、非”连接起来,并
用括弧指示优先次序. 为了便于计算,一般采用析取范式表示。
z 检索匹配框架F
¾ 一个文档当且仅当它能够满足布尔查询时,才将其检索出来。
¾ 检索策略基于二值判定标准。
z 排序函数R
z 根据匹配检索框架F判定文档dj和qi是否二值{0,1}相关。
海南大学信息学院张春元主讲 2009秋季-9-
布尔模型检索示例
„ 例:文档集包含两个文档:
文档1:a b c f g h
文档2:a f b x y z
用户查询:文档中出现a或者b,但一定要出现z。
„ 检索过程:
a) 将查询表示为布尔表达式 qabz= ()∨∧, 并转换成析取范
式 qDNF =∨∨(1,0,1) (0,1,1) (1,1,1)
b) 文档1和文档2的三元组对应值分别为(1,1,0)和(1,1,1)
c) 经过匹配,将文档2返回
海南大学信息学院张春元主讲 2009秋季-10-