文档名称：

大规模云计算平台的技术挑战阿里云.pdf

格式：pdf 页数：6页

下载后只包含 1 个 PDF 格式的文档，没有任何的图纸或源代码，查看文件列表

如果您已付费下载过本站文档，您可以点这里二次下载

预览

下载此文档

大规模云计算平台的技术挑战阿里云.pdf

上传人:drp539608 2015/9/8 文件大小：0 KB

下载得到文件列表

大规模云计算平台的技术挑战阿里云.pdf

相关文档

文档介绍

文档介绍：大规模云计算平台的技术挑战
刘缙,朱家稷,张海勇阿里云公司

正如单机操作系统的内核,在阿里云 OS 中,飞天大规模分布式计算平台起到了承上启
下的关键作用。飞天运行在通过网络互联的通用服务器集群上,隐藏了海量硬件所带来的复
杂度和不可靠,向云 OS 的其他组件提供可信赖的的计算能力和存储能力。
具体来讲,飞天本身是一个由多个组件所构成的复杂的分布式系统,其中的核心组件是
以下两个子系统:
- 计算资源调度系统(又称伏羲):管理和调度集群计算资源;在多个云服务间动态分配
计算资源,以满足用户的计算需求;自动检测服务器故障并迁移故障服务器上的服务。
- 分布式文件系统(又称盘古):管理集群的所有硬盘;合理地安排数据存放位置以兼顾
性能和数据安全性;自动检测磁盘故障并复制数据以保证安全。
在实现飞天云计算平台的过程中,工程师们面临了许多技术挑战,包括:
- 在不可靠硬件基础上提供高可靠的计算能力和存储能力
- 提供高可用服务
- 低成本运维海量硬件
- 在线应用与离线应用并存
- 克服节点间带宽的限制
- 最大化利用计算资源,等等

其中,不可靠的硬件是最基本的挑战。集群规模达到上千台后,单机上的小概率事件变
成了必然的、频繁发生的事件。硬盘、硬盘控制器、CPU、内存、主板、电源等故障造成的
宕机每天都会发生。这类硬件失效故障,我们称之为“硬”故障(fail-stop 故障)。此外,
还有一类故障现象不那么明显,称之为“软”故障,例如,磁盘可访问但速度只有正常的
1/10,服务器没有宕机但程序运行缓慢,网络时好时坏,等等。这类“软”故障同样会影响
服务质量,因为在线服务如果执行缓慢会造成客户端超时,而对离线作业而言,哪怕只有
1%的数据处理任务缓慢,也会拖延整个数据分析作业的完成时间。
硬、软故障发生都会对系统的可靠性甚至可用性造成不良影响,因此如何及时有效的进
行故障检测和恢复就变的比较关键。对于硬故障的检测业界已经有成熟的方案,本文第一部
分只重点讨论软故障的检测;本文的第二部分将集中探讨故障恢复策略相关的问题;最后,
我们将介绍如何在保证数据可靠的同时满足在线应用的低延时需求。

云环境中的软故障检测
检测“软”故障有两种思路:
一种思路是针对每种具体故障设计检测方法。但“软”故障产生的原因可能很多,例如
执行缓慢可能是服务器硬件故障、网络故障、磁盘故障、操作系统软件故障等,逐一检测会
使系统过于复杂。
另一种思路是从宏观现象来检测,看两个例子:
例子一: 检测作业在某台服务器上执行特别缓慢的情况。
我们统计每个作业在每台服务器上的执行时间。因为输入数据被均匀地切片,每台服务
器上的执行时间应该大致相同。如果某台服务器上执行时间超过了平均时间的三倍,它就被
标记为“缓慢”。如果各种不同作业在某台服务器上都“缓慢”,那么我们有充分理由怀疑这
台服务器有问题(但不知道原因)。调度系统会自动把这台服务器加入黑名单,不再用它执
行作业。之后再自动或人工检查这些可疑服务器的具体故障原因。
例子二: 检测磁盘读写慢的情况。
我们在分布式文件系统里也会统计每次磁盘访问的时间。如果某块磁盘有大比率的访问
时间远远超过系