文档介绍:基于RDF的数据集成信息科学罗耀约50()3字摘要数据集成关注解决异构信息资源的共享问题致力于将一个一个信息孤岛连接起來。基JRDF技术的数据集成解决传统数抑集成方法不能解决的复杂数据的问题。解决的方法被抽象成三层的逻辑结构这三层逻辑结构可以集成包括文本格式的数据源、XML格式数据源、html格式数据源以及其它类型的数据库等。关键词全局模式中间模式本地模式RDF数据集成屮图分类号TP3文献标识码A文章编号167175972008071005302一、引言数据集成是网络发展的耍求是数据共享的耍求是企业丿应用的耍求。由于不同用户提供的数据可能来自不同的途径其数据内容、数据格式和数据质量更是千差万别有时甚至会遇到数据格式不能互相转换或数据转换格式后丢失信息等棘手问题严重阻碍了数据在各部门和各软件系统中的流动与共享。为了改善这个局面利用数据集成的方法在各种数据Z间架起信息沟通和交换的桥梁已经越来越受人们关注。现在最常用的方法是使用XML作为数据集成的工具。虽然XML已经有了各种版本的解析器但是XML书写的随意性使得文件屮的词汇不具有通用性必须同时拥有一个处理器来处理词汇的语义。很显然这些程序Z间并不存在互换性和通用性。在RDFResourceDescriptionFramework简称RDF文件中大家趋于用统一词汇这使得拥有各种版本的解释器成为可能。XML虽然己经具备了类的某些特点例如封装但是与还同时拥有继承性特点的RDF相比XML能表达的数据就简单的多。XML存在问题的根本原因是XML不具备语义描述能力。为此W3C推荐以RDF标准来解决XML的语义局限。RDF提出了一个简单的模型用来表示任意类型的数拯。这个数拯类型由节点和节点Z间带有标记的连接弧所组成。节点用来表示Web上的资源弧用来表示这些资源的属性。因此这个数据模型可以方便地描述对象或者资源以及它们Z间关系。RDF的数据模型实质上是一种二元关系的表达由于任何复杂的关系都可以分解为多个简单的二元关系因此RDF的数据模型可以作为其他任何复杂关系模型的基础模型。二、数据集成模型设计在构建新系统的过程中经常碰到以下的问题。系统1数据服务器到系统n数据服务器所对应的系统1到系统n的数据•正是新系统所需要的数据而在当U寸构建I口系统的过程中所使用的数据的设计是按照对应系统的要求设计的不会也不可能考虑到集成使用的问题。基于RDF的数据集成正是致力于解决以上的问题。在基于RDF的数据集成的模型设计屮模型被设计成三层三层模型从高到低分别是全局层、中间层和本地层。三层模型分别对应于全局模式、屮间模式和本地模式。全局模式是而向应用的最终的模式是应用直接访问的模式这种模式己经消除了各个本地模式的差异全局模式对应的数据是通过应用和、差、并、投影等集合运算将中间模式的数据转换成用户可以直接使用的数据数据的格式是RDF。中间模式是将本地模式的数据转换成公共元数据模型表示的模式中间模式对应的数据是通过将一个数据源对应成一个对象再根据口定义的对应规则将局部模式的数据转换而成数据的格式也是RDFo它存在的冃的是为将异构的本地数拥转换成可实现共享的全局模式做必耍的准备。本地模式就是各个数据服务器上存在的异构的数据模式。三层模型中各个层次为比自己为更高一层提供服务。三个模式Z间存在着两级映射即全局模式/中间模式间的映象中间模式/本地模式间的