文档介绍:复旦大学
博士学位论文
半结构化数据集成系统中的查询处理研究
姓名:陶春
申请学位级别:博士
专业:计算机软件
指导教师:施伯乐;张亮
20040401
摘要本文的工作基于国家自然科学基金项目——电子图书馆的相关关键技术开挑战。数据集成的研究就是在这两种需求之下产生并不断发展的。问题之一。另外,菀驳贾铝税虢峁够莸难芯俊本体的上低持凶畲蟛檠葱蟹桨傅纳梢约坝呕侍狻在第一个方面,在基于檠镅缘腛半结构化数据集成系统中,对在这种形式化框架下,提出了基于本体的上低持凶畲蟛檠葱蟹桨干成算法:引入了非完整性角色的概念,并基于非完整性角色对最大查询执行方案生成算法进行了优化:另外文章还提出了查询执行方案网络代价优化算法。理论展。在这个项目中,作者参与了互操作接及查询处理的设计分析工作,文章研究的问题正是在这些工作积累的基础之上完成的。近年来由于因特网和电子商务的高速发展,企业可获取的信息数量和类型有了极大的增长;万维网上可用信息资源的爆炸式增长也给信息的访问带来了新的数据集成就是如何组合存在于不同数据源的数据,并且以一个统一的视图提供给用户使用的问题。研究者们在数据集成领域取得大量的研究成果;但是这个研究领域是如此的丰富,加之总有新的技术与它结合,所以仍有大量的问题期待人们解决。实际上,近十多年,关于数据集成的研究从未停止过。由于数据的访问多以查询的方式进行,而数据集成系统往往有多个底层数据源,它们被描述为全局模式上的视图,所以,数据集成系统的查询处理问题是数据集成研究的核心本文研究的问题集中于半结构化数据集成系统的查询处理,主要研究了两个韵蠼换荒P半结构化数据集成系统中于禽询的包含和等价以及最大包含重写进行了形式化定义;在这种形式化框架下,提出了基于檠陌虢峁够莶檠匦此惴ǎ渲杏τ昧丝缮焖醯关系查询重写的惴ǖ乃枷耄徊⑶掖永砺凵现っ髁怂惴ǖ恼沸浴在第二个方面,对于基于本体的菁上低辰辛送晟频男问交上也证明了算法的正确性。复旦大学博士学位论文问题:檠镅缘淖畲蟛檠匦次侍庖约盎基于《一’:%。”。”瑞窜弘●
复旦大学博士学位论文琣,甒琣猙——瑆.,甌..,瓵,.甌籾瑆籥—琤琫
..籥甀
第滦髀菁梢约捌洳檠淼难芯糠⒄.半结构化数据集成且是动态变化的。具有这些特征的数据通常称为≠劈荷纪我据当漪企业面临的一大挑战是竣籀≥是成。企业的应用程序要能与数据库、应用程序:出于管理这些数据的需要,半劈杓纪裁捃镆垄应运而生。由于其灵活性,服务器、数据仓库、工作流管理系统、搜索引擎、数据挖掘与分析系统等各种企,可扩展的置标语言荳的一项国有了爆炸性的增长:因特网的迅速发展使得常规的工具和技术无法满足需要。许多企业发现它们的系统在面对所管理数据的数量和多样性方面很难更上一层楼。业级应用程序交互,就必然涉及广泛的编程界面,还可能与各种各样格式的数据打交道。因此,企业迫切需要一个能够为所有这些服务及它们提供的数据提供统数据集成的目的就是将存在于不同数据源的数据进行组合,并且以一个统一的视图提供给用户使用=昀矗琖数据的集成使得数据集成成为研究热点H嗣窃谑菁闪煊蛞丫〉煤芏嘌芯砍晒怯捎谑导需求和涉及领域中总有新的技术与它结合,所以仍有大量的问题期待人们解决。实际上,近十多年,关于数据集成的研究从未停止过。现今大量的电子数据并不是由数据库管理系统管理,它们往往存在于,标准通用置标语言冉峁够牡怠⒎潜曜嫉氖莞袷轿募以及遗留系统中。这些数据的结构经常是不规则的,不具有预先定义的结构,并一些数据集成系统鏢大学和献鞯腡采用它作为集成数据模型。际标准,提出它的目的是为了补充以用的电子数据交换复旦大学博士学位论文近些年由于因特网和电子商务的高速发展,企业内部可用的信息数量和类型一视图的平台。,超文本置标语言蚐第
.数据集成系统中的查询处理琇】数据集成系统中,这个问题就是香均重写数据集成系统中,蘑历砌圈回答套彩搴鲈被定义为“概念化系统的显式规约”【珿可以用于数据集成系统中描述数据源的语义,说明它们的内容。出于使用像本体数据管理问题有关,所以一直也是数据管理整个领域的研究热点之一。具体来说,这个问题就是在给定数据库模式之上的一组预先定义的视图,,⋯,5由于很多数据集成系统把底层数据源描述为全局集成模式之上的视图,数据集成由于历史的原因,这方面大量的研究工作集中于结构化,。而吭虼有阅芙嵌妊芯苛斯叵挡檠匦次侍猓岢隽幕居锓ǚ浅J屎厦枋霭虢峁够荨続】,牡岛诵钠涫稻褪⋯种半结构化数据。由于丫晌R蛱赝鲜萁换坏谋曜迹罅渴据源采用魑J涑龈袷剑虼薠数据的集成成为研究人员关注的一个问题。在这个方面,已有大量的研究原型,如法国腦、这样的概念数据模型作为集成数据模型有很多优点簧偈菁上统采用了基于本体的数据集成方案鏜珺珺】,本文的工作正是在半结构化数据集成系统的环境下