1 / 20
文档名称:

数据相关性与知识化服务研究.ppt

格式:ppt   大小:291KB   页数:20页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

数据相关性与知识化服务研究.ppt

上传人:260933426 2022/7/7 文件大小:291 KB

下载得到文件列表

数据相关性与知识化服务研究.ppt

相关文档

文档介绍

文档介绍:相关性和知识化服务
提纲
引子
关于相关性研究
图书馆的数据组织
引文关系和链接关系
内容相关
用户行为相关
结束语
问题的提出
获取文献信息的困惑
选择什么网络数据库,图书馆员的困惑
用户的困惑
面对大量文献信息的困惑相关性和知识化服务
提纲
引子
关于相关性研究
图书馆的数据组织
引文关系和链接关系
内容相关
用户行为相关
结束语
问题的提出
获取文献信息的困惑
选择什么网络数据库,图书馆员的困惑
用户的困惑
面对大量文献信息的困惑
如何取舍
判断权威和重要的信息的标准
谁是权威,谁有影响力
内容可靠吗
关于相关性的研究
系统相关性-Taube
检索出的文献就是与查询相关的文献,主题相关
关注噪音、索引、词汇的语义语法描述
用户相关- Vickery
用户检索相关信息的愿意程度
Gradra和katter研究用户兴趣领域与主题以及文献之间的关系,系统输出和用户需求之间的关系
Rees和Schultz研究显示个体差异对相关性判断影响很大
Maron和Kuhns用概率论的方法判断实现相关性排序
关于相关性的研究
Goffman基于集合论探讨查询表达式和文献信息间的相关关系
Goffman和Newill提出流行病学理论,相关性作为接触有效性的度量
Cooper的逻辑相关性理论
Wilson的情境相关理论
Harter的心理相关理论
Schember、Barry等人基于用户的相关性实证研究,对相关性涉及到方面深入论述,认为相关性可以归结为论题的、面向用户的、多维的、认知的和动态的
Saracevic提出信息检索的分层交互模型
小结
关于相关性
从系统为中心到用户为中心,user-central
用户的认知
用户的差异
用户的需求
从单维向多维,包括信息、环境、系统、用户
从静态到动态的变化
从单向输出到交互
图书馆的数据组织
图书馆书目系统
元数据的累积
单一的用户检索系统
分类和主题
相关性判断缺乏支持力度
缺少用户的参与
SirsiDynix代表在IFLA会上表示随着数字全文内容的逐渐普及和网络化数字挖掘能力和关联能力的日益提高,真正有意义的将不再是元数据本身,而是
关于用户行为(user-tagging, collabarative filtering)、
用户过程(用户教育研究管理的环境流程等)
内容关联的组织机制(引用、链接、逻辑语义)
引文关系和链接关系
引用关系和链接关系是广泛用来建立相关关系的方法
引用和被应用
链接和被链接
同引和同被引
同链接和同被链接
引用强度,耦合强度是计量关系强度的值
引用关系和链接关系
修正:
即时引用情况,最新链接情况
引用和链接权重,有影响力的引用和有影响力的链接应比影响力小的引用更具代表性
自引的影响 vs 恶意的链接
引用和链接关系的深化
研究前沿和热点
研究路径探索
同时该论文的作者或合作者还有什么文献
与该论文相同主题的文献有哪些
Web of Science、ScienceChina等基于引文的系统发现一篇论文引用了哪些文献,该论文被哪些文献引用了,强度如何;该论文和哪些论文共同引用相同参考文献,耦合度是多少
Google,百度等的PR( page rank)基于链接关系的强度和修正,让我们在一个搜索中可在首页发现重要的信息
基于引用和链接关系的系统
参考文献n
引证文献
相关关系
引文统计
单篇文献:
题名
作者
文摘
出处
关键词
年 1900 1930 1960 1990 2000 2002 2004 2006 2007
相关文献:
作者相关
关键词相关
参考文献相关
拆分、规范、归一化处理
内容概念相关
引用关系和链接关系体现的相关关系从某种程度上说是从形式上发现和计量相关关系,从文献信息内容看
共词:关键词和主题词
Tag,用户的标识词
概念抽取,算法和模型
聚类,cluster
用户行为相关
说的和做得那个更可靠?
Yahoo 统计到的用户行为证明用户做的和说的表现得非常不一致
数字图书馆的用户呢?从counter统计看,用户的使用和当初的强烈需求有一段不小的差距
在网络上更信任陌生人的推荐和意见
权威受到了挑战
关心看了这篇文章的人还看了什么文章
关于这篇文章有什么样的评论,好评和差评是多少
我要标记这篇文章的tag,谁的tag和我的一样
用户日志分析出的关系更为重要
用户行为的一些统计数字
用户查询行为
查询的长度主要指的是用户提交的查询中包含几个词语或字(用空格隔开的)
搜索引擎的分析结果表明, % ,,这说明用户输入的查询通常都比较短
一个session 指的是同一个用户在