文档介绍:该【国家科技创新平台规划 】是由【核辐射】上传分享,文档一共【34】页,该文档可以免费在线阅读,需要了解更多关于【国家科技创新平台规划 】的内容,可以使用淘豆网的站内搜索功能,选择自己适合的文档,以下文字是截取该文章内的部分文字,如需要获得完整电子版,请下载此文档到您的设备,方便您编辑和打印。台规划
大学
用户(社会)关心:培养能够为人类社会的进步充分发挥潜能的人
测试:政府高级官员的数量,大文豪、大科学家的数量,…
设计的具体追求:得奖数,发表论文数(影响因子),博士学位获得者人数,科研经费数,…
实践证明如何?
8
评估
不断地对现有的F,G,P(及其相互关系)提出疑问,提出改进,是研究评估的人们应该考虑的基本任务
我们需要了解现在的F,G,P是些什么(如何定义的,如何能得到),但仅此不够。
事物都是在一个“目的”和“手段”链中发展的,这种链接关系的紧密程度就决定了达到目的的优化程度(效果、效率)
9
信息获取技术评估的“森林”
10
以批判的眼光看Pr,Re,F
“,amorecarefulreflectionrevealsproblemswiththesetwomeasures.”(page81,ModernInformationRetrieval)
11
先回顾它们的定义和计算
要评价技术T,对于给定的查询,q,总体文档集合D
记
R:D中和q相关文档的集合,|R|:R的大小
A:算法T获取的文档集合,|A|:A的大小
|Ra|:R和A交集的大小
12
查准率和召回率基础定义图示
Collection
AnswerSet|A|
RelevantDocs|R|
RelevantDocsin
AnswerSet|Ra|
13
需要考虑的几个问题
定义了,不等于能算了
如何算得针对(Q,D)的Pr,Re?
另外,人们认为在一定的排序意义上考察Pr,Re更有意义。“rankedA”,沿着这个rank,考察“查准率(精度)随召回率变化的情况”
符合许多IR系统的实际情况,通常都会在结果集合上定义一个序
14
15
平均精度
对recall增加时对应的精度求平均值
和“原始定义”的区别?
这样的“平均精度”有什么不好?
16