文档介绍:中文网络学术数据库数据质量分析
作者:陈万寅金明华邹小筑
摘要对中文期刊全文数据库“重庆维普中文科技期刊”、“清华同方中国期刊网”和“万方期刊”收录核心期刊的种类数量、收录率以及它们之间重复收录的情况进行分析比较。对这3个期刊数据库和两个电子图书数据库进行检索测试。3个期刊数据库在收录核心期刊数量上差别不大,但重复建设突出。中文电子图书分类等有待规范统一。
关键词中文数据库网络数据库电子图书评价
分类号
目前国内学术文献信息服务市场上,利用率最高、影响范围最广、市场份额最大的基于互联网的中文期刊全文数据库主要有“重庆维普中文科技期刊”(以下简称VIP)、“清华同方中国期刊网”(KI)和“万方数据——中国数字化期刊群”(以下简称万方期刊)。中文电子图书全文数据库则有“超星”、“书生之家”、“方正电子图书”等。
本文着重对上述3个中文期刊数据库的基本情况,收录核心刊的种类数量、收录率和质量情况,它们之间数据重复情况以及各自的相关数据等进行统计、分析、比较与研究。并对它们和两个电子图书数据库进行检索和测试(文中所有原始数据截止2005年12月31日)。
1 三大期刊数据库收录总量与类别比较
为保证数据的可比性,KI、万方期刊与VIP镜像站点数据进行了更新,而且统一更新至同一时间结点。并采用人工批量复制静态数据即镜像数据的方法,复制导出三大数据库刊名列表。因为VIP在3个数据库中最早采用中图法对刊名分类,所以我们以它为参照蓝本,将CNKI、万方期刊进行计算机程序自动比对,KI、万方期刊中没有被VIP收录的刊名列表由我馆专业人员进行分类,最终形成三大库、且以中图法21个分类为统一分类标准的、类与类之间不重复的刊名种类数量比较信息(见表1)。
表1 三大数据库种类数量基本情况
中图法分类
VIP
CNKI
万方
收录量(种)
占总量(%)
收录量(种)
占总量(%)
收录量(种)
占总量(%)
总量
14415
7260
5016
A马克思主义、列宁主义、毛泽东思想、邓小平理论
7
5
1
B哲学、宗教
57
38
16
C社会科学总论
719
464
316
D政治法律事务
813
385
174
E军事
98
32
15
F经济
1601
620
286
G文化、科学、教育、体育
1870
996
511
H语言、文字
78
63
24
I文学
278
87
42
J艺术
189
102
37
K历史、地理
148
89
37
N 自然科学总论
642
483
391
O数理科学和化学
185