文档介绍:项目编号INFO-115-C01文档编号TR-REC-012中国科学院数据应用环境建设与服务数据资源加工指导规范(征求意见稿)中国科学院数据应用环境建设与服务项目组2009年12月I目录范围 4规范性引用文件 4术语和定义 4科学数据资源 4元数据 4数据类型 5数据集 5数据项 5数据产品 5数据资源加工 5科学数据资源加工总体要求 5数据资源加工内涵 6数据资源采集加工指导思想和一般原则 6统一领导,统筹规划 6突出重点,注重基础 6需求导向、务求实效 6前瞻性、科学性 6延续性 7组织管理 7文件要求 7数据约定 8数据资源加工流程 8过程策划 8数据采集 9数据采集的原则 10数据采集录入的技术要求 10数据采集工作流程 10数据录入 10数据采集录入的技术要求 10数据采集录入的方法 11原始数据的保存 11来源筛选 11原始数据标准化预处理 11数据清理 12数据集成 13消除冗余 13数据变换 13数据归约 14数据加工模型和算法 14数据处理加工与产品生产 14数据加工的级别 15数据加工处理的原则 15数据加工处理的技术要求 15数据审核 16数据更新 17 数据资源加工指导规范范围本规范提出中国科学院数据应用环境建设与服务项目中科学数据资源采集加工过程的规范化要求,包括对组织管理方面的要求、文档方面的要求、数据约定和数据采集加工流程方面的要求等。本规范是对中国科学院数据应用环境建设与服务项目中数据采集加工过程的指导性规范,适用于项目内各类数据资源的采集、加工或更新,各数据库主要承担建设单位应参照本规范建立本数据库的实施细则。规范性引用文件下列规范性引用文件通过本部分的引用而成为本规范的条款。凡是注日期的引用文件,其随后所有的修改(不包括勘误的内容)或修订版均不适用于本规范。但是,鼓励根据本规范达成协议的各方,研究是否可使用这些文件的新版本。凡是不注日期的引用文件,其新版本适用于本规范。TR-REC-014科学数据库核心元数据标准z TR-REC-017唯一标识符规范TR-REC-018科学数据分类规范与分类词表z TR-REC-062数据库建设技术文档参考规范术语和定义科学数据资源科学数据资源是科技活动或通过其它方式所获取到的反映客观世界的本质、特征、变化规律等的原始基本数据,以及根据不同科技活动需要,进行系统加工整理的各类数据集,用于支撑科研活动的科学数据的集合。元数据关于数据的数据。数据类型对数据的有效值域及对该值域中的值所允许的操作的规定。例如,整型、实型、布尔型、日期类型、字符串类型等。数据集由相关数据组成的可标识集合。数据集的大小在理论上是不确定的,一个简单的数据表可以成为一个数据库集,几个相同类型的表也可以被成为一个数据集。数据项属性数据中不可再分的小的单元。数据产品数据产品是遵从统一的标准规范,对基础数据进行集成、加工、处理后生成的新的数据集。该数据集的生产过程和数据质量控制措施可以被人工或计算机详细描述、记录,可被其他人或计算机重复操作。数据产品揭示数据间的内在联系,通过重新组合和再分析,表征某一规律性的现象或过程。数据资源加工生成数据产品的过程,包括数据加工模型、数据处理过程、数据产品质量评价等内容。科学数据资源加工总体要求数据资源采集加工过程中,数据库承建单位应采用数据应用环境建设与服务项目发布的有关标准规范,以及相关的国家标准、国际标准、学科领域标准规范或其应用方案,完成对采集加工工作的组织管理、制订数据约,规划数据资源加工流程,并严格贯彻实施,保质保量完成数据采集加工任务。对科学数据资源采集加工工作的要求包括多个方面,它规范人员操作,设备要求,数据采集、录入、筛选清理、预处理、处理加工、审核与更新等流程,是科学数据资源高质量建设的有效保障。数据资源加工内涵数据产品具有增值的普遍特征。作为数据产品,必须是经过实质性加工、具有智力投入的成果。有的数据虽然表达形式变化了,但由于没有进行实质性加工和智力投入,并未有效提高数据资源的信息量,也不能称之为数据资源加工。数据资源采集加工指导思想和一般原则统一领导,统筹规划数据资源采集加工工作应在数据库牵头建设单位的领导下,统一决策,同一数据库范围内工作方法统一,技术指标统一,从而达成数据产品的一致性。突出重点,注重基础数据资源的内容选择应在突出重点和注重基础两者之前取得平衡。数据库承建单位应根据当前具备的工作基础以及国内外相关数据库建设情况,确定所承建数据资源的特点和重点内容,对重点内容加以重视,适当提高质量规格。同事,数据库承建单位应注重基础性和共性数据的建设,确保所承建数据资源的广度,提升所承建数据资源的通用性、易用性,保证数据资源具有一定的用户范围。需求导向、务求实效确定资源采集的内容和范围时,既要考虑数据资源单位的数据资源特点以及工作的复杂