1 / 10
文档名称:

结合计量分析和内容分析的科学数据集使用特征研究 杨宁.pdf

格式:pdf   大小:1,346KB   页数:10页
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

结合计量分析和内容分析的科学数据集使用特征研究 杨宁.pdf

上传人:十二官 2022/11/26 文件大小:1.31 MB

下载得到文件列表

结合计量分析和内容分析的科学数据集使用特征研究 杨宁.pdf

文档介绍

文档介绍:该【结合计量分析和内容分析的科学数据集使用特征研究 杨宁 】是由【十二官】上传分享,文档一共【10】页,该文档可以免费在线阅读,需要了解更多关于【结合计量分析和内容分析的科学数据集使用特征研究 杨宁 】的内容,可以使用淘豆网的站内搜索功能,选择自己适合的文档,以下文字是截取该文章内的部分文字,如需要获得完整电子版,请下载此文档到您的设备,方便您编辑和打印。图书情报工作
LibraryandInformationService
ISSN0252-3116,CN11-1541/G2
《图书情报工作》网络首发论文
题目:结合计量分析和内容分析的科学数据集使用特征研究
作者:杨宁,张志强
DOI:.0252-
收稿日期:2021-10-26
网络首发日期:2022-06-23
引用格式:杨宁,[J/OL].图
:///-
网络首发:在编辑部工作流程中,稿件从录用到出版要经历录用定稿、排版定稿、整期汇编定稿等阶
段。录用定稿指内容已经确定,且通过同行评议、主编终审同意刊用的稿件。排版定稿指录用定稿按照期
刊特定版式(包括网络呈现版式)排版后的稿件,可暂不确定出版年、卷、期和页码。整期汇编定稿指出
版年、卷、期、页码均已确定的印刷或数字出版的整期汇编稿件。录用定稿网络首发稿件内容必须符合《出
版管理条例》和《期刊出版管理规定》的有关规定;学术研究成果具有创新性、科学性和先进性,符合编
辑部对刊文的录用要求,不存在学术不端行为及其他侵权行为;稿件内容应基本符合国家有关书刊编辑、
出版的技术标准,正确使用和统一规范语言文字、符号、数字、外文字母、法定计量单位及地图标注等。
为确保录用定稿网络首发的严肃性,录用定稿一经发布,不得修改论文题目、作者、机构名称和学术内容,
只可基于编辑规范进行少量文字的修改。
出版确认:纸质期刊编辑部通过与《中国学术期刊(光盘版)》电子杂志社有限公司签约,在《中国
学术期刊(网络版)》出版传播平台上创办与纸质期刊内容一致的网络版,以单篇或整期出版形式,在印刷
出版之前刊发论文的录用定稿、排版定稿、整期汇编定稿。因为《中国学术期刊(网络版)》是国家新闻出
版广电总局批准的网络连续型出版物(ISSN2096-4188,CN11-6037/Z),所以签约期刊的网络版上网络首
发论文视为正式出版。
网络首发时间:2022-06-2317:39:42
网络首发地址:.
第66卷第10期 2022年5月
结合计量分析和内容分析的科学数据集使用特征研究
■杨宁1,2 张志强1,2
1中国科学院成都文献情报中心 成都610041
2中国科学院大学经济与管理学院图书情报与档案管理系 北京100190
摘 要:[目的/意义]从计量分析和内容分析两个视角对科学数据集的使用特征进行研究,定量化评估科学数据集对学科
发展的影响,为科学数据管理服务及政策研究提供参考。[方法/过程]综合运用文本挖掘和文献计量方法对
PubMedCentral的全文文献进行分析,从时间分布、使用强度等7个方面全面考察科学数据集的使用情况,并在此
基础上评估科学数据集对学科发展产生的实际影响。[结果/结论]研究结果表明,科学数据集对生物医学领域科
研产生的影响力与日俱增,数据出版和高水平期刊促进了科学数据集的开放和共享,科学数据集的使用集中在论
文的后半部分且正式引用较少,相应的标准规范还有待进一步加强。
关键词:计量分析 内容分析 科学数据集 使用特征
分类号:G203
DOI:.0252-
医学领域科学数据集的复用特征规律进行研究,并对
1 引言
高频复用数据集进行了详细分析。计量分析可以从宏
科学数据集是科研活动过程中产生或经过再加工观的角度对学科领域科学数据集的使用情况进行分
得到的,具有一定规范且可形成完整描述的数据资料析,进而度量数据集对整个学科发展产生的影响力;内
或数据产品,主要类型包括实验数据、观测数据和统计容分析法则深入到学术论文全文本内容层面,通过人
数据等[1]。随着开放科学运动的兴起,科学数据集的工判读或自然语言处理等方法研究文献内隐含的各种
共享和重用等使用行为变得日益普遍,其已逐渐成为知识实体的使用行为特征[5]。从内容分析角度出发,
贯穿科研全过程的重要研究对象和产出类型之一。对一般通过数据集的使用方式、使用位置、使用强度等指
科学数据集使用特征和所产生的影响进行研究,一方标研究其使用特征和影响力。王雪等[6]以CNKI中10
面可以了解数据使用现状、掌握当前科研人员对数据个学科的文献为研究对象,采用内容分析法从数据提
的需求特征和利用情况;另一方面也可以具象并量化及方式、使用位置、来源类型等角度分析比较了不同学
科学数据集对科研活动的实际贡献价值、合理规划科科数据重用行为的特征。李龙飞等[7]从替代计量学视
研资源配置、丰富科研评价指标。角出发,以地球系统科学数据共享平台的数据集为研
当前,对科学数据集使用特征的研究一般采用计究对象,利用内容分析方法对科学数据集使用方式进
量分析或内容分析的方法。计量分析法是一种基于数行研究并定量测度其价值。内容分析法的分析层面更
学和统计学,以各种知识实体的外部特征和宏观特征加微观,可以从细粒度的文章结构层面研究数据集使
为研究对象的定量分析方法[2]。从计量分析角度出用特征及影响力。从当前相关研究的现状来看,由于
发,一般采用数据集被引频次、使用下载量、被提及次科学数据集使用特征的学科差异性较大、文献中科学
数等指标对其使用特征和影响力进行研究评价。,对科学数据集使
[3]以海洋学领域数据集为研究对象,利用用特征和产生影响的研究还多采用人工标注或围绕小
被引次数研究数据集引用行为并对数据集的影响力进范围数据开展,分析层面和分析指标也较为宽泛。
行评估。焦红等[4]运用文献计量方法从多维度对生物 本研究将以生物医学领域大规模学术论文集作为
本文系国家社会科学基金重点项目“面向领域知识发现的学科信息学理论与应用研究”(项目编号:17ATQ008)研究成果之一。
作者简介:杨宁,副研究馆员,博士研究生;张志强,研究员,博士生导师,通信作者,E?mail:******@。
收稿日期:2021-10-26 修回日期:2022-01-28 本文起止页码:122-130 本文责任编辑:王传清
122

杨宁,[J].图书情报工作,2022,66(10):122-130.
分析样本,结合计量分析和全文本内容分析方法,对科放获取子集,PMC是美国国家生物技术信息中心NCBI
学数据集在学术论文中的使用特征进行综合考察和分(NationalCenterforBiotechnologyInformation)提供的免
析,并进一步从不同角度分析其对学科发展产生的实费生物医学期刊文献全文数据库[8]。除PMC之外,
际影响。本研究的意义在于,以全学科领域论文作为NCBI还提供60余种生物医学数据库以及相关的科研
分析样本,利用规则抽取和自然语言处理技术,从宏观工具,并且通过不同格式为数据库中的科学数据集分
和微观多个层面探讨数据集的使用特征,为科学数据配了唯一标识符———登录号(AccessionNumber)。本
管理和服务提供全新视角的参考,同时也为后续研究文将利用模式匹配的方法,基于自定义规则抽取登录
提供新的思路。号的方式,在全文中识别并获取数据集的提及信息,将
其作为论文对数据集的使用,通过计量分析和内容分
2 研究方法
析两个维度对数据集使用特征进行分析,并归纳总结
基本思路科学数据集对于生物医学领域科研和学科发展产生的
本研究全文数据来自于PubMedCentral(PMC)开实际影响力。整体研究思路如图1所示:
图1 整体研究思路
数据获取GEO[10]、RefSeq[11]、SRA[12]、CDD[13]和Assembly[14]5个
本文通过PMC提供的FTP服务批量下载了2021数据库中的数据集作为研究对象。其中,GEO是当前
年5月25日前的文件包,将索引文件合并后获取到文存储规模最大、数据最全面的基因表达数据库,收录了
献的基本信息及本地文件位置,PMC全文数据基于世界各国研究者提交并共享的基因芯片数据和高通量
XML格式存储,采用美国国立医学图书馆(NLM)的文测序数据;RefSeq是收录基因组、转录本等样本信息的
件类型定义(DTD)标准[9]。最终,共获取到3219908参考序列数据库,为多种生物提供序列的数据信息及
篇全文文献。相关资料;SRA数据库主要存储二代测序的原始数据
科学数据集的识别采用基于模式匹配的方法,通以及与其相关的质控报告;CDD是蛋白质保守结构域
过正则表达式在全文文本中进行抽取。由于NCBI各数据库,收集了大量保守结构域序列信息和蛋白质序
数据库的登录号规则各异,并且很大一部分数据库的列信息;组装数据库Assembly主要提供已组装基因组
登录号由纯数字组成,无法通过模式匹配方法进行自结构、相关元数据、组装报告等信息。根据各数据库登
动抽取。因此,本文选择其中较为常用、格式具备一定录号规则构造的数据集正则表达式如表1所示:
规范并且在系统说明中对登录号规则有详细描述的
表1 科学数据集登录号示例及正则表达式
数据库正则表达式示例
GEOG(?:SM|SE|PL|DS)\d+GSM22355
RefSeq(?:AC|AP|NC|NG|NR|NT|XR|NS)_\d{6}|(?:NM|NP|NW|XM|XP|YP)_\d{6}(?:\d{3})?|(?:ZP_|NZ_[ANP_012448
Z]{4})\d{8}
SRASR[PSXR]\d{5,8}SRS30216
CDD(?:[cC](?:d|l|OG|HL)|[pP](?:HA|LN|TZ|fam)|KOG|MTH|TIGR|smart|LOAD_)\d{4,5}|LOAD_)\d{4,5}MTH1747
AssemblyGC[AF]_\d{9}(?:[.]\d+)?
123
第66卷第10期 2022年5月
此外,部分文献还存在如“GSE4357GSE4380”信息作为间接指标进行使用特征分析,包括使用强度、
“SRX001799toSRX001808”等形式的数据集批量使用使用章节和使用位置。内容分析采用CountX方
行为,需要单独构建批量抽取规则,并设置最大抽取阈法[16],将某一数据集在一篇论文中出现的使用记录全
值为500,超出则忽略,从而提取出批量使用的数据集部纳入分析。各项指标的具体说明如表3所示,分析
登录号。最终经过识别抽取后发现,共有162200篇文内容包括:①使用强度:采用篇均使用次数作为使用强
献存在本文所涉及5个数据库中数据集的使用,数据度,对数据集在论文中的影响力进行评估;②使用章
集总量为435920条,使用次数合计2606552次,存在节:将数据使用按照章节类型详细划分5个部分,比较
数据集使用行为的文献数量占全部文献数量的分析数据集在论文不同章节的使用情况;③使用位置:
%。5个数据库中被论文使用的数据集数量分布较为常见的数据使用位置为正文中的文字描述、表格
如表2所示,其中,RefSeq数据库中有238023条数据列出、图片说明等方式,本文采用8种数据使用和呈现
集被使用,约占总量的55%,说明该数据库中的数据位置,比较分析数据集在论文中的使用特征。
集在生物医学领域得到了较多的关注和使用。表3 数据集使用的内容分析指标分类说明
表2 5个数据库中被论文使用的数据集数量分布情况分析指标类别或计算方法
数据库GEORefSeqSRACDDAssembly使用强度某个数据集总使用次数/使用该数据集的论文数
数量/条86580238023861441354911624使用章节摘要、引言、数据和方法、结果与讨论、结论
使用位置正文、表格、图片、参考文献、致谢、附录、脚注、注释
计量分析指标
计量分析利用数据集及使用数据集文献的直接指3 结果分析
标进行使用特征分析,包括时间分布、文献类型、学科
分布和高频数据集。计量分析采用CountOne方法[15], 计量分析结果
时间分布
1998—2021年,生物医学领域共有162200篇文
次。各项指标的具体分析内容包括:①时间分布:通过
对文献数量及使用数据集次数的年度变化趋势进行统献使用了435920条数据集,文献数量和数据集使用量
年度分布如图2所示。2006年以后,随着科研范式的
计,分析二者随时间的变化规律;②文献类型:使用数
据集的文献类型除研究论文和综述以外,还包括报告、转变以及生物信息学、医学信息学等数据驱动型学科
简报、评论等类型,对文献类型进行统计分析,发现各的兴起,使用数据集的文献以及数据集的使用数量都
开始呈急剧增长的态势。文献数量从2006年的724
类型文献在数据集使用上的特征规律;③学科分布:从
刊文期刊所属学科领域角度,探索不同学科领域在数据篇到2020年的27279篇,%。
数据集的使用次数从2006年的24783次到2020年的
使用方面的需求差异;④高频数据集:按照使用某一数
据集的论文篇数排序,分析高频使用数据集的特征,分400320次,%。科学数据的共享
析学科研究热点及科研人员使用数据集的****惯和偏好。和重用正在深度影响着生物医学相关科研领域的发
内容分析指标展,尤其是在近10年期间为生物医学开启了崭新的发
内容分析利用数据集在文献中提及和使用的详细展阶段。
图2 生物医学领域使用数据集文献及数据集使用次数年度分布情况
124
杨宁,[J].图书情报工作,2022,66(10):122-130.
文献类型评论、讨论、会议报告、协议、日历、附录、公告、撤稿、章
统计发现有数据集使用行为且标注了类型的文献节文章、关注声明、回复、书评、研究快报、描述、新闻。
共29种,按照各文献类型数量排序分别为:研究性论其中,研究性论文约占文献总量的92%,各种类型文
文、简报、综述、案例报告、其他、数据论文、通讯、更正、献数量分布如图3所示:
产品综述、摘要、方法论文、社论、系统综述、报告、文章
图3 有数据集使用行为的各种类型文献数量分布情况
除研究性论文外,其余7种使用数据集较多的文献类型年度发文量分布如图4所示:
图4 7种使用数据集较多的文献类型年度发文量分布情况
由图4可知,除研究性论文外,最早使用数据集的上,发文量最多的期刊为《PLOSONE》,共有20931篇
文献类型是2004年的两篇产品综述,分别使用了Ref文献存在对数据集的使用。为使研究具备广泛覆盖性
Seq和CDD的数据集用于基因数据库构建和蛋白质特并加强分析结果的可解释性,本文排除了发文量较少
异性比对排序软件的开发测试[17-18]。随后,科学数据的期刊,共得到229个发文量在100篇以上的期刊,总
集开始在简报、综述和案例报告等类型的文献中被使发文量为131359篇,约占文献总量的81%。本文以
用,尤其是综述文献对数据集的使用逐年平稳增长,说中国科学院文献情报中心2019年期刊分区表为参
明数据集已经成为一种参与到学科发展历程的科研资考[20],研究并评估前229名期刊的研究领域及影响
料被回顾和使用。此外,2014年开始出现的数据论文力。经过统计发现,其中共有181本SCI期刊,Q1和
也增长迅速,数据论文作为一种新型学术出版物形式,Q2期刊共120本,占全部SCI期刊的66%。学科分布
主要用于描述数据结构、数据处理方法、数据可重用性及分区见图5。
等内容,数据论文的出现和发展正在积极促进着科学 从学科分布来看,生物学领域期刊数量占比
数据的开发和利用[19]。56%,生物化学与分子生物学、遗传学、细胞生物学等
学科分布领域期刊对科学数据集的使用最为频繁。在医学领
存在数据集使用的文献共发表在3127种期刊域,研究与实验、肿瘤学、精神科学等领域期刊较多,是
125
第66卷第10期 2022年5月
图5 期刊所属学科分布及分区情况
医学领域使用科学数据集较多的学科。同时,结果中79%。以数据集使用次数为X轴,数据集个数Y轴,可
还出现了综合学科、食品科学和农林科学等学科,体现以得到图6的原始坐标及双对数坐标下的二者关系图。
了科学数据集使用的交叉性和跨学科性。对其进行一元线性回归后得到:log(数据集个数)=
高频数据集-(数据集使用次数),,两者呈
对数据集使用次数进行统计并排序后发现,使用现出明显的线性关系。结果表明,大量数据集只得到了
次数为1的数据集数量为346115条,占全部数据集的很少使用,而少数的数据集得到了大量使用。
图6 数据集个数和数据集使用次数关系
对使用次数排名前20的高频数据集进行详细分集的研究内容和对象来看,围绕肿瘤研究的数据集有
析,如表4所示。其中,有5条数据集来自GEO数据5条,研究肌动蛋白功能、人类基因组、3-磷酸甘油醛
库,其余15条数据集都来自RefSeq数据库。使用次数脱氢酶的数据集各3条,其余数据集与白介素、结核分
最多的“GPL570”数据集是由Affymetrix公司提供的商歧杆菌、大肠杆菌以及新冠病毒的研究相关,从数据集
业数据集,该公司是美国著名的生物芯片公司,其余4使用频次可以更直观地体现出学科研究的热点和
条GEO数据集也都出自该公司的芯片产品。从数据焦点。
表4 使用次数前20名的高频数据集
排序数据集物种次数排序数据集物种次数
1GPL570人类163511NC_012920人类546
2NM_002046人类128812NM_013693小鼠507
3NM_001101人类100113NC_000962结核杆菌465
4NM_007393小鼠87314NM_000546人类454
5NC_000913大肠杆菌84715NM_008361小鼠416
6GPL96人类70816NM_031168小鼠402
7NM_008084小鼠70517GSE31210人类395
8NM_017008大鼠65218GSE14520人类384
9NC_045512新冠病毒62719GSE2034人类366
10NM_031144大鼠61020NM_000600人类344
126
杨宁,[J].图书情报工作,2022,66(10):122-130.
内容分析结果计算结果来看,来自RefSeq数据库的数据集“NR_
使用强度033736”被一篇文献使用了768次,成为使用强度最大
传统使用频次仅能表明数据集在论文中是否出的数据集[21]。根据数据使用总体情况,本文将科学数
现,就一篇论文而言,数据集A在论文中被反复使用多据集使用强度划分为11个区间,结果如图7所示。其
次,而数据集B在论文只被使用一次,则数据集A对中“1”表示数据集在所有使用该数据集的文献中平均
于该文章的影响力应高于数据集B,因此本文采用使被使用1次,而“1-2”则表示使用强度大于1小于等
用强度分析数据集在文献中的使用特征及影响力。从于2,以此类推。
图7 数据集使用强度分布
由图7可以看出,生物医学领域的科学数据集使括摘要、引言、数据和方法、结果与讨论、结论。对于在
用强度大多分布在1-6之间。其中,使用强度2-3附录中列出的表格和图片,通过“id”标记可获取其在
之间的最多,其次是1、5-6、1-2这几个区间。这与正文中的使用位置,并将其划分到对应的章节。对于
论文引用有着较为明显的区别,相比较而言,科学数据非研究性论文如数据论文、产品综述等文献类型,个别
集出现较多高使用强度的现象,表明一条数据集在论章节无法对应划分到这5个章节,则通过人工判读将
文中会被反复使用,贯穿研究的全过程。其划分到功能或位置相近的章节。因为出现这种情况
使用章节的文献比例较小,对分析结果不会产生太多影响,因此
学术论文各章节的重要性不同,因此在不同章节实在无法划分的则排除统计范围之外。使用章节分布
使用的数据集重要性和影响力也不同。本文结合实证结果如图8所示:
性研究论文IMRDC结构将章节划分为5个部分[22],包
图8 数据集使用章节分布
由图8可知,生物医学领域49%的数据集在“数法”和“结果与讨论”部分主要围绕数据进行实验分析
据和方法”部分被使用,其次是“结果与讨论”部分。和结果解读,因此是使用数据集最多的两个部分,约
“摘要”部分是对研究目的、方法、结果和结论的概述,95%的数据集使用都出现在这两个章节;“结论”部分
由于篇幅问题,对于所使用的数据不会有过多阐述;会对全文大致流程和结果进行简要总结并对未来工作
“引言”部分会对使用的方法和数据集进行简单的背进行设想,对于具体数据集使用方面的描述较少。总
景介绍,因此会有一定频次的数据集使用;“数据和方体来看,使用数据集使用的章节分布呈现出极度不平
127
第66卷第10期 2022年5月
衡性,这与生物医学领域文献注重实证分析和结果解据集重要性和影响力也不同。本文将使用位置分为正
读有关,并且充分说明科学数据集对于该领域研究的文、表格、图片、参考文献、致谢、附录、脚注、注释8种,
重要性和影响力。正文包括出现在标题、摘要和正文中的数据集。使用
使用位置位置分布结果如图9所示:
与数据集使用章节类似,通过不同位置使用的数
图9 数据集使用位置分布
由图9可知,生物医学领域数据集最常出现的使布可以看出,科学数据集正在逐渐脱离论文,成为一种
用位置是通过表格列出,除此之外,正文文字描述、图独立的科研资料,在科学交流过程中发挥着关键作用。
片说明中也使用数据集较多。对于生物医学领域文献目前,数据出版的发展促进了科学数据集的开放和共
来说,表格和图片的信息同正文具备同样的重要性,在享,常见的数据出版模式包括数据仓储、数据期刊、数
相关研究中应重视表格和图片数据的识别和利用。此据与论文联合出版3种形式,尤其是数据期刊的出现,
外,注释、附录、致谢部分也部分存在数据集的使用。使得数据论文已经成为近年来发展最为迅速的科学数
最为值得注意的是参考文献中使用的数据集只占数据据发布载体,科学数据正式成为一种可评估、可计量的
%,这种情况说明在文献中被正式科研成果产出。从使用数据集论文的学科分布上看,
引用的数据集还较少,科学数据集的正式引用问题应生物医学领域对于数据集的使用非常广泛,数据集产
得到更多的关注。生的影响力正在向综合和交叉学科领域扩展。在进一
步对其中的Q1区期刊的详细调查中发现,51个Q1区
4 讨论
期刊全部都在作者说明或投稿指南中详细说明了数据
由前文的研究结果可以得出如下结论:集的提交要求和提交办法,高水平期刊在开放数据方
(1)科学数据集对生物医学领域科研产生的影响面的举措无疑加快了数据的共享与重用,推动了科研
力与日俱增。基于论文数和基于使用强度的统计可以的发展与进步。
分别代表科学数据集使用的广度和深度。可以设想, (3)科学数据使用集中在论文的后半部分且正式
一条数据集的影响范围越广,提及该数据集的论文数引用较少。从科学数据集的使用章节和使用方式可以
就会越多。因此,相比较而言数据集的使用广度更能看出,科学数据集出现最多的方式是通过表格列出,其
代表其产生的实际影响力,而近10余年使用科学数据次是正文中提及,在科学数据集使用的相关研究中应
集论文数量的急剧增长,说明数据集对生物医学领域注意表格和图片数据的挖掘和利用。而出现最多的章
科研产生的影响力正在与日俱增。同时,数据集的使节分别是“数据和方法”“结果与讨论”,这同样与论
用强度从另一个角度揭示了科学数据集独特的使用特文、图书等通常被引用在“引言”部分有着明显区
征。本文研究发现,科学数据集的使用强度要明显高别[25-26]。通过结果对比可以发现,不同于其他领域,
于论文[23]、图书[24]等被引强度,说明科学数据集在论生物医学论文在“结果与讨论”部分引用论文及使用
文中较少被当作引言或背景综述提及,而更多的是被数据集都较为频繁,说明这一部分是生物医学论文中
实际使用,与论文研究结果紧密相关。最为重要的部分,生物医学领域约有95%的数据集使
(2)数据出版和高水平期刊促进了科学数据集的用都发生在论文的后半部分。参考文献部分出现的被
开放和共享。从使用科学数据集的文献类型和学科分正式引用的科学数据集比例还较小,说明科学数据集
128
杨宁,[J].图书情报工作,2022,66(10):122-130.
在论文中仍然以提及等非正式引用方式进行列出或标参考文献:
注,这一方面说明生物医学研究中涉及的数据集数量[1]屈宝强,[J].情报理论
较多,无法通过参考文献一一列出。另一方面也说明与实践,2016,39(5):118-138.
[2]朱少强,———文献群中隐含信息
数据正式引用规范还有待发展和完善,数据规范引用
的挖掘[J].图书情报工作,2005(6):19-23.
对于增强数据价值、提高科研人员共享和重用数据的
[3]BELTERCW,
积极性都具有十分重要的现实意义。
data:acitationanalysisofoceanographicdatasets[J].Plosone,
5 总结2014,9(3):e92590.
[4]焦红,杨波,
本研究以生物医学领域科学数据集为研究对象,[J].情报理论与实践,2021,44(9):90-96.
通过时间分布、文献类型、学科分布和高频数据集等方[5]王曰芬,路菲,
究[J].图书情报工作,2005,49(9):72-75.
面的计量分析,利用数据集及使用数据集文献的直接
[6]王雪,马胜利,佘曾溧,
指标进行使用特征分析,揭示数据集在整个生物医学
研究[J].情报学报,2016,35(11):1132-1139.
领域的使用特征规律及产生的影响力;通过使用强度、
[7]李龙飞,余厚强,尹梓涵,
使用章节、使用位置等方面的全文本内容分析,利用数价值的定量测度研究[J].情报理论与实践,2020,43(9):47-
据集在文献中提及和使用的详细信息作为间接指标进52,71.
行使用特征分析,从而揭示科学数据集在具体文献中[8]沈锡宾,吕小东,郝秀原,
的使用特征及其产生的直接和间接影响力。同前人的刊的评估和收录[J].中国科技期刊研究,2006,17(5):866
-868.
研究相比,本研究从宏观和微观两个层面进行分析考
[9]沈锡宾,顾佳,包婧玲,
量,研究角度更加全面,所得结果也更加完备可靠,可
换标签集中参考文献的标记解读[J].中国科技期刊研究,
以为科学数据管理和服务工作提供参考依据。首先,
2013,24(2):233-237.
要进一步推进科学数据引用标准规范的建立,提高科[10][EB/OL].[2021-07-12].
学数据库对于唯一标识符、版本号的分配和管理,规范/.
的数据引用对于提高科研工作者的数据引用意识、追[11][EB/OL