文档介绍:网络信息资源管理 DC 元数据应用方法
(管理学院信息管理系信息管理与信息系统专业李晰)
(学号:2001044040)
摘要:随着网络的飞速发展, 网络信息资源组织与整理的问题日益突出。人们急需解决网
络资源的无序化,因此当前元数据的研究重点主要是网络环境下的数据描述和数据管理。DC 元
数据(Dublin Core Element Set 都柏林核心元素集)就是针对这一问题由 OCLC (联机计算机图
书馆中心 puter Library Center)提出的解决方案之一,它是现今最好的解决方案。
本篇论文首先介绍了元数据的概念, 在此基础上分析 DC 元数据产生的背景和发展历程, 阐述其
基本功能、特点、技术特征和元素集, 并重点对 DC 元数据的主要应用实践方法做了详细的分析
和描述,主要包括基于 HTML 的 DC 应用描述、基于 RDF 的 DC 应用描述、中文在线资源联合编目
系统(UCCOR)介绍、UCCOR 系统操作实践等环节。最后介绍了 DC 元数据在全世界实施应用情况。
关键词: DC 元数据,RDF,中文在线资源联合编目系统(UCCOR),DC 简史。
教师点评: 本文着重研究了网络信息资源管理中的 DC 元数据的应用及方法,并就其基本功
能、特点、技术特征进行了较深入的分析。文章内容详实,文字流畅,具有自己的见解。达到本
科毕业论文要求。(点评教师:李丽教授)
一、引言
我们正在进入一个网络化时代,据美国微软公司 1999 年预测,10 年以后 50%的阅读材料将
是电子读物。现在互联网大约有 4800 万个知识来源,如果要给这些网页编目的话,有人估计需
要划去全美国编目人员 24 年的时间。由于互联网的大量普及,网页内容以每 12 个月翻一番的速
度向前发展。也就是说按照传统的信息组织方式是无法对电子资源进行很好的管理和合理利用
的。
元数据的研究与开发正成为当今信息网络发展的一个热点。元数据,从定义上来讲,是关于
数据的数据,或者说是关于数据的结构化数据。传统的图书馆卡片、图书的版权说明、磁盘的标
签等都是元数据,MARC(机读目录格式)AACR(英美编目条例)也是元数据的格式。尽管 MARC
和 AACR 也是元数据格式,但目前人们研究较多的元数据,更多的偏重于电子资源和网络资源的
应用。
传统的书目描述方式 MARC 和 AACR 有以下一些局限性:
a) 这种描述手段往往只适用于图书馆;
b) MARC 需要在专门的软件系统中使用,而且不太适应互联网的环境;
c) 修订程序相当复杂,而且也非常缓慢;
d) 适用于完整的、静止的信息内容的处理,不易处理动态的多媒体信息;
e) 编制一条机读记录不仅不要经过严格的专业训练,而且需要花一定的时间。
现今人们急需解决网络资源的无序化,因此当前元数据的研究重点主要还是网络环境下的数
据描述和数据管理。由此可见,在突飞猛进的网络化时代,传统的数据描述方式已经远远跟不上
形势发展的要求。
现在网上的信息检索主要是用 Yahoo、Lycos、AltaVista、Google、Baidu 等搜索引擎。这
些搜索引擎通过自动搜索程序来抓取网页信息,然后以自动拆字(词)做索引的方式建立数据库。
但检索效率底,检索结果数量大,而且有用的信息少,尽管这种方式也是用了标记语言,但这是
一种在 HTML(超连接标记语言)环境下的只注重页面表示形式而不注重内容的元数据,其主要
缺点是数据结构化能力差,无法深入到语义。
由此,元数据中的一个标准集――Dublin Core Element Set(都柏林核心元素集)简称为
1
都柏林核心,即 DC。既能解决数据的结构化问题,同时又能克服数据过于繁琐和复杂的新一轮
元数据项目应运而生。由于它简练、易于理解、可扩展、能与其他元数据形式进行桥接等特性,
能较好的解决网络资源的发现控制和管理问题,使之成为了一个较好的网络资源描述元数据集,
并正在逐步发展成为世界公认的标准。
经过了几年的研究发展, DC能较好地解决网络资源的发现、控制和管理问题,并且对于现在
的数字图书馆研究也很有意义。因此现在研究及采纳 DC 的各种项目已遍及美洲、欧洲、大洋洲、
亚洲等地,涉及社会学、政府、图书馆、教育、商业、科学研究等多个领域; DC 已被翻译成了泰、
日、德、法、葡、丹麦、挪威、芬兰、瑞典等 20 多种语言。芬兰、丹麦已选用 DC 作为电子资源
的官方描述方式。1998 年 9 月,因特网工程任务组(IETF)也正式接受了 DC 这一网络资源的描述
方式,将其作为一个正式标准予以发