1 / 9
文档名称:

元数据管理方案.docx

格式:docx   大小:34KB   页数:9页
下载后只包含 1 个 DOCX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

元数据管理方案.docx

上传人:百里登峰 2021/2/15 文件大小:34 KB

下载得到文件列表

元数据管理方案.docx

文档介绍

文档介绍:元数据管理方案
元数据管理方案
元数据抽取
为了简化元数据生成工作,系统提供白动生成元数据的功能,即元 数据抽取。经过元数据白动抽取,用户能够方便、快捷地获得大量的元 数据信息。
抽取的对象
元数据抽取主要针正确对象有以下几种:
已有目录:已建业务应用系统中现有的目录资源。
数据库:各种数据库资源,包括关系型数据库、 XML数据库
等。
格式化电子文件:电子文件,例如 Word、PDR XLS等文
件。
元数据抽取的流程
元数据抽取的流程有 4个主要步骤,分别为:
数据源信息获取:解决要从哪个数据源获得元数据的问题。
内容/结构分析:解决要从数据源中获得哪些元数据的问
题。
元数据提取:解决如何从数据源中获取元数据的问题。
存储入库:解决元数据存储的问题。
电子文档的元数据抽取
对于电子文档,首先各部门的文档格式不尽相同,另外它们的安全 级别也各不相同,同时由于信息化建设水平的不一致,有的部门文档分 散在各处,有的部门文档是集中存放的,甚至已经建立了完善的电子系 统进行管理。
针对以上状况,对于电子文档的元数据抽取需要进行以下的抽取流 程:
整理归档
对于分散在各处的电子文档 (纸质文档需要先进行电子化处理 ),必 须由专人进行统一整理,根据公开共享的前提进行集中,这种集中能够 是物理上集中的,也能够是逻辑上集中的。但要满足以下原则,第一根 据安全级别,便于外界访问;第二便于文档的增量发布;第三便于采集 工具的白动化采集编目。各部门只有在文档完全整理归档的情况下,进 行白动化采集才是切实可行的。在整理归档的时候,各部门根据各白情 况进行归档,没有必要千篇一律,也没有必要制定繁琐和呆板的规则, 只要能够满足以上的原则即可。
根据安全级别,建立相应的访问机制
由于受到安全级别的限制,因此对于需要共享的数据要进行安全方 面的限制,限制的手段能够有:用户名 /密码、数字证书、物理隔断等 等,根据实际情况建立安全访问机制,做到重要信息不泄露,不丢失。
编目处理
现阶段,主流格式的电子文档,主要包含: word、excel、ppt、
pdf等。对主流格式的电子文档,要提供白动采集工具进行编目处理。
采集的范围主要是文档的标题和内容,对于其它的元数据内容,要提供 手工配置的方式进行辅助。另外,在工具的采集效率上,要提高增量文 档发布后的米集效率。
对于格式特殊、内容有加密算法的文档,是很难经过抓取工具进行
采集的,这些文档主要经过手工编目的方式来处理。
对于存在管理库的文档,就需要对数据库来进行编目采集,详见数
据库元数据抽取部分。
保存元数据
采集后的数据要放到数据库或者保存到硬盘上,另外要根据目录体
系标准,把数据分解为元数据,然后进行存储
数据库元数据抽取
数据中心需要抽取的数据库类型主要为 Sql server ,首先利用ETL
工具从源数据库中将所需数据抽取至中心数据库基础业务库中,在利用 元数据著录工具对抽取出来的数据进行元数据著录。
元数据著录
根据〈〈元数据标准》定义的元数据项,提供著录界面,针对每一个 著录项的特点,提供文本框、列表框、复选框等录入形式。
元数据内容录入
元数据内容录入用于元数据内容的录入处理,根据元数据