1 / 32
文档名称:

数据分类与编码标准介绍.ppt

格式:ppt   大小:5,777KB   页数:32页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

数据分类与编码标准介绍.ppt

上传人:文库新人 2022/2/9 文件大小:5.64 MB

下载得到文件列表

数据分类与编码标准介绍.ppt

文档介绍

文档介绍:数据分类与编码标准介绍
第1页,本讲稿共32页
主要内容
数据分类与编码的基本原则与方法
数据分类编码方案
数据分类与编码的背景意义
第2页,本讲稿共32页
!!
不能缺少
科学数据共享活动涉及科学数据的汇交、性,按其内在联系进行系统化排列,确保类目唯一、结构合理、层次清晰,减少冗余。
2)实用性原则
满足数据集分类编目的简便性、可操作和通用性需求和数据集查询的一致性理解。
3)可扩展性原则
保证分类体系框架适应数据集不断丰富的内容和日益增长的种类与数量。
第10页,本讲稿共32页

4)兼顾科学性原则
自顶向下,优先选择最能代表卫生信息数据集主题的语言、词条定义类目名称,编制受控分类体系表。
5)稳定性原则
使用稳定的因素作为分类依据,同时提高分类体系的可延展性或兼容性,促进稳定性。
第11页,本讲稿共32页
1)主题优先法

分类体系首先依据主题构建主分类框架,分类框架各层级类目可表示为一级、二级、三级类目等。
第12页,本讲稿共32页
第13页,本讲稿共32页

2)多属性复分法
数据集以相同主题构建,在若干相同主题数据集中,又根据其个性,如时间、地域、疾病、学科、机构等多属性,构成辅助分类体系,即复分类体系。
第14页,本讲稿共32页

2)多属性复分法
特有属性1
类目1
类目2
类目3
......
特有属性3
类目1
类目2
类目3
......
特有属性2
类目1
类目2
类目3
......
特有属性n
类目1
类目2
类目3
......
第15页,本讲稿共32页

3)组配分类法
组配分类法是按照多维度、交叉性方式,将数据集主分类框架与复分类表组合使用,对数据集进行分类的规则。在某个主分类下的卫生信息数据集的组配分类示意。
第16页,本讲稿共32页

3)组配分类法
第17页,本讲稿共32页

1)主分类目界定规则
类目名称与主题对应
类目名称规范
同位类互斥
数据集存在性
类目均衡
层次逐级隶属
第18页,本讲稿共32页

2)复分类目界定规则
复分类表的类目根据特有属性分区段设置,每个区段对应数据集的一个特有属性,构成一个复分类的类目。
复分类的类目间无层级、无关联,无顺序约束,属于分区段的松耦合约束。
复分类目区段个数可根据实际需要进行扩展。
第19页,本讲稿共32页

3)主分类目层级约束规则
分类体系的展开层次决定着分类导航系统的导航程度,层次越多越深,知识被组织得越细密,用户查找信息耗费的时间和精力就越多。
主分类层次应控制在3级-6级之间。
第20页,本讲稿共32页

4)复分属性有限性控制
复分类表属性宽度的控制应该充分考虑数据集内容的特有属性进行设置,详细描述、全面覆盖数据集内容信息,多属性组配,增加数据集管理维度、提高数据组织和生产的效率和质量,增强数据集聚类的灵活性、增加检索入口,适应计算机检索的需要。
第21页,本讲稿共32页
1)唯一性
在一个编码体系中,每一个编码对象仅应有一个代码,一个代码只唯一表示一个编码对象。
2)匹配性
代码结构应与分类体系相匹配。
3)可扩充性
代码应留有适当的后备容量,以便适应不断扩充的需要。

第22页,本讲稿共32页
4)简洁性
代码结构应尽量简单,长度尽量短。
5)区段性
在数据集编码体系设置若干区段,每个区段表达不同的类目属性,便于实现不同维度检索。

第23页,本讲稿共32页
代 码
有含义代码
无含义代码
缩写码
层次码
并置码
组合码
顺序码
无序码
递增顺序码
系列顺序码
约定顺序码

按GB/T 7027规定的方法
第24页,本讲稿共32页
1)主分类表码位设计
分类框架中每一个类目设定惟一的主分类编码,编码为11位混合码。
第1位
第2位
第3位
第4位
第5位
第6位
第7位
第8位
第9位
第10位
第11位
亚门类
大 类
小 类
一 级
二 级
三 级
字母码
数字码
数字码
数字码
数字码
数字码
A—Z
01—99
01—99
01—99
01—99
01—99