文档介绍:基于元数据的蛋白质组数据资源整合关键技术研究与应用平台开发——元数据库及元数据查询工具研究与开发国防科学技术大学研究生院年十一月工学硕士学位论文计算机科学与技术硕士生姓名刘文杰学科专业研究方向计算机应用技术指导教师宁洪教授分类号学号密级
摘要随着人类基因组计划的实施,生命科学研究已进入后基因组时代,人们基于指数形式治、异构的数据库给研究者对它们的整合应用造成了很大的困难,因此,研究~种通用的本课题以疾病蛋白质组学多实验室合作研究为应用背景,针对多数据源数据集成的共性问题,对蛋白质组学数据资源共享与整合的关键技术进行了研究,提出了通过元数据与一致的虚拟中心数据库。基于上述思想,我们提出了一个基于元数据的蛋白质组学数据资源整合的总体方案并设计了一个实现该方案的数据共享与整合平台。基于该方案,我们首先制定了一个适用于多数据源数据集成的公共元数据标准来对各数据源的元数据进行一致化描述,并依照该标准建立了~个存储各数据源元数据的元数据库,与此同时,我们提供了丰富、完善的存储过程以支持对元数据库的访问、管理和维护,并对这些存储过程进行了不同粒度的分类封装以方便用户使用,最后,:蛋白质组学,数据集成,元数据,元数据标准,元数据库,本体,原型工具增长的核酸、蛋白质序列和结构等数据,开发了数百种不同类型的数据库。这些分布、自分布异构数据源集成方法具有重要意义。本体相结合的方式来解决各数据源之间的结构异构与语义异构问题,从而形成一个逻辑上构和语义异构问题。针对不同用户的不同需求我们设计了几种基于元数据和本体的查询并为用户开发了取与导入、对元仓库的管理与维护以及基于元数据和本体的查询等功能,是平台的一个重要组成部分。国防科学技术大学研究生院妒垦宦畚第
—琣,,.瑆.,甦..,,.,,第页琱,.甌,,—琹甀瑆,:,琺琺猻琺猟‘
表目录表表导入表元数据的锞洹涌谀0濉砝嗄0濉道0濉亓D0濉表基于元数据词汇查询的核心代码⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.表裁剪前后的员惹榭觥虻ナ堇嘈偷挠成洹嗍迪质纠搿亓D0濉嗟腏接口的映射⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯表生成全局模式的核心代码⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯国防科学技术大学研究生院工学硕士学位论文第
图目录图典型的联邦数据库体系结构【】⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..图使用桥的元数据层的集成⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..图使用元数据存储库的元数据层的集成⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..图疾病蛋白质组学数据资源元数据的维护和管理⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯图枚举数据类型映射⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.图基于类的数据类型映射⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯图单值属性映射⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯图多值属性映射⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯篗关联映射⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.图元数据仓库访问接口⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..图使用本体对元数据进行标注⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯图基于蛋白质组学本体的查询⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯图元数据导入界面⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.图典型的数据仓库体系结构【】⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..图DP徒峁雇肌图基于DP偷脑J菁商逑到峁埂图基于元数据的数据集成体系结构⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯图基于元数据的蛋白质组学数据资源整合平台架构⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.图疾病蛋白质组学实验室数据分析人员整合数据的流程⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯图公共元数据标准涉及的嗪退谠2挚庵械墓潭ū怼关联映射⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯篘关联映射⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.图表及其对应的锞洹糠衷DP汀图既隤碓J莺笤J菘庵胁糠直砬榭觥图对各个数据源元数据的查询⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯图对各个数据源数据的查询⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.丫迪值墓δ苣?⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯国防科学技术大学研究生院工学硕士学位论文第页
图J蒌澜缑妗图褂肅中的四种关联生成全局模式⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..J莶檠缑妗图谠J荽驶愕牟檠缑妗惆涔叵怠包⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯