文档介绍:浙江大学
硕士学位论文
分布式数据库集群系统ZD-DDB的设计与实现
姓名:马明理
申请学位级别:硕士
专业:计算机应用
指导教师:陈刚;董金祥
20060215
摘要随着互联网迅速发展,对互联网海量数据的存储和检索成为搜索引擎等诸多的分布式数据库集群系统—捎弥屑浼男问较蛴τ闷帘胃涸鼐狻⑹莘表、数据迁移实现负载均衡,其中数据迁移支持在线迁移。分布式查询包括语法分析、计划生成、执行计划,其中语法分析得到语法分析树,查询计划将全局分协议,实现了协议,对事务处理过程中的故障和异常提供了容错机制,日志管理器支持分布式事务恢复。—集群系统为海量数据提供了良好的存储和检索骸缬τ孟低车氖滓8涸亍5蓖缡萘俊⒉檠丶本墼黾邮比菀椎贾潞筇ㄊ库服务器负载过大而成为整体性能的瓶颈。而现有的数据库集群系统很难满足海量数据存储和检索的性能要求,同时也需要付出昂贵的软件成本。本文设计实现区、分布式查询、分布式事务、数据迁移等细节,并提供一个统一的编程接口。该系统通过管理服务器和分布式数据库中间件来实现分布式数据库所具有的功能。管理服务器负责管理分布式数据库的全局信息,实施数据迁移和负载均衡,管理维护后台数据库节点和应用层服务器,提供对分布式存储、分布式事务、分布式查询等功能的全局支持。分布式数据库中间件包括负载均衡管理器、查询执行器、事务管理器,分别提供对负载均衡、分布式查询、分布式事务的支持。分布式存储采用了水平分区的方式来存储和定位元组,并通过均衡策略、存储映射布式查询语句解析成各节点可执行的子查询语句,计划执行器处理所有节点子查询返回的结果汇总后得到正确的全局查询结果。分布式事务处理支持两阶段提交性能,系统各部分性能均衡,不存在明显的性能瓶颈。具有较好的可扩展性,能够方便地进行存储和计算能力的扩展,为大型网络应用提供了较好的底层支持。关键字:集群分布式数据库中间件海量数据分布式存储负载均衡分布式查询分布式事务数据迁移规范两阶段提交容错浙江大学硕士研究生毕业论文
浙江大学硕士研究生毕业论文,.瓸,甌—甖狣琩,,甀..甌甌,甅..簒瓺瓼甌甖狣...—琩,,,
.课题的背景及意义第绪论随着互联网迅速发展,⒉嫉男畔⒈纫酝龃蠛芏啵别是博客、邮件、相册、论坛等成为个人发布信息的主要平台。根据次统计,我国网民数量已经达到了冢娑匀绱司薮蟮挠没海扛龌チM公司都面对着来自互联网的海量数据的挑战。在诸多挑战中,对互联网海量数据的存储和检索成为诸多网络应用服务器缢阉饕的首要负载。因为技术上、投资上等方面的原因,目前大多数网络服务器采用单节点服务的构架。比如用户登陆系统都被指定与一台服务器进行交互。这种一对一的计算模式存在着很多缺点,对一台服务器来说它的存储和计算能力永远都是受限的,当达到存储和性能的最大限值后,必须更换其他服务器提供服务给用户,如果该台服务器上保存着用户数据,那么该系统可能无法及时响应用户事件,使整个系统的可用性急剧降低,这对于用户来说是不可忍受的。在网络服务器上,典型的应用是前端衿骱陀τ梅衿鳎筇ㄊ鞘库服务器提供数据的存储和访问,比如用户的帐号信息等。比较流行的框架是采用开源软件构建的服务器,为了支持更多的访问,一般都使用了负载均衡的集群,负载均衡可由駻陨来完成。但是对于数据库来说,由于无法实现集群操作,每秒钟的请求不断增加,随着服务器负载的增加,响应单个请求的速度越来越慢,如果库文件比较大,出现写操作的时候还会出现锁表时间过长等影响访问效率的事情。特别的情况是当数据量、查询量急聚增加时,容易导致所有的数据访问基本上集中在对一台数据库服务器的大量查询、更新、插入操作,比如用于保存用户帐号信息的数据库服务器。这种保存着重要数据而且查询量非常的大的数据库服务器,往往负载过大而成为整个应用系统的性能瓶颈。这种负载很难有良好的方案使之分担到其他服务器上,利用集群支持并行分布式计算是其中较好的方案。但现有数据库产品提供的数据库集群功能隡都支持数据库集群谑萘亢艽蟆⒎梦量很大时数据库产品本身提供的数据库集群功能性能不能满足海量数据的应用要求。当数据不断增长时,这些数据库产品的集群系统需要付出更为昂贵的软件成本,网络数据是无限增长的,那么这种成本投入也是无限增长的。当整个网络应用系统中的数据库服务器是关键部分时,集群方案是第一选择。面实现数据库集群有两种方法:第一种是在数据库底层实现分布式并行计算功能,浙江大学硕士研究生毕业论文
.分布式数据库技术介绍这种方法面对巨大的技术挑战,使用这种方法实现集群的只有,但是是分散在不同的计算机上,但是这些数据并不是互不相关,在逻辑上它们却是一的解决方案对于大多数用户来说显得非常昂贵;第二种是以现有的数据库系统为基础构