文档介绍:云计算&大数据关键技术与应用62
阿里技术架构总览
数据来源:阿里相关技术介绍ppt
腾讯大数据状况
数据来源:2012-12-1赵伟 《HIVE在腾讯分布式数据仓库实践分享》
腾讯技术架构
数据
OpenStack是由Rackspace和NASA共同开发的云计算平台,帮助服务商和企业内部实现类似于Amazon EC2和S3的云基础架构服务(IaaS)。
用Python语言编写
大型用户:
NASA
加拿大半官方机构CANARIE网络的DAIR项目
Rackspace Cloud
惠普云(使用Ubuntu Linux)
MercadoLibre的IT基础设施云,现以Openstack管理超过60000台服务器
OpenStack 社区
目 录
云计算&大数据技术架构
虚拟化技术
1
2
分布式数据处理技术
海量数据存储技术
3
4
大数据技术应用实例
5
Google分布式处理架构
Google云计算应用
BigTable
GFS
MapReduce
Chubby
组件调用关系分析
分布式文件系统
分布式计算模型
分布式文件系统-Google文件系统(GFS)
Google48%
MSN19%
Yahoo33%
客户端
客户端
客户端
互为备份
管理节点
GFS主节点
GFS主节点
C0
C1
C2
C5
数据结点1
C0
C2
C5
数据结点N
C1
C5
数据结点2
…
客户端
客户端
客户端
客户端
客户端
客户端
C1
分布式文件系统- HDFS
基本结构
采用主从架构,由一个Namenode和若干个Datanode组成
Namenode: 负责管理名字空间与客户端访问
Datanode: 管理附带的存储,存储文件的block
一个文件分成多个block,Block是HDFS最小存储与分配单位,,分布存储,典型块大小为64MB或128MB
一个block被复制存放于多个datanode
HDFS在Yahoo安装了14PB的在线磁盘
分布式文件系统- GlusterFS
分布式文件系统- Lustre
MDS: Metadata Server, 元数据管理器,管理名字空间和文件对象映射
OSS:Object Storage Server,I/O服务器
MDT:Metadata Target, MDS的本地磁盘存储
OST:Object Storage Target,OSS的本地磁盘存储
OST
MDT
分布式文件系统-写入性能比较
来源:中科院深圳先进技术研究院 熊文,喻之斌,须成忠的论文《几个常见分布式文件系统特征分析和性能对比》(《集成技术》2012年11月)
分布式文件系统-读取性能比较
来源:中科院深圳先进技术研究院 熊文,喻之斌,须成忠的论文《几个常见分布式文件系统特征分析和性能对比》(《集成技术》2012年11月)
分布式计算模型-概述
待处理数据量巨大
短时间处理
如何进行并行分布式计算?
如何分发待处理数据?
如何处理分布式计算中的错误?
MapReduce模型
Google 公司的核心计算模型
分布式计算模型- MapReduce
一个软件架构,是一种处理海量数据的并行编程模式,用于大规模数据集(通常大于100TB)的并行运算
适合要求: 待处理的数据集可以分解成许多小的数据集,而且每一个小数据集都可以完全并行地进行处理。
MapReduce实现了Map和Reduce两个功能
Map把一个函数应用于集合中的所有成员,然后返回一个基于这个处理的结果集
Reduce对结果集进行分类和归纳
Map()和 Reduce() 两个函数可能会并行运行
计算流程
分布式计算模型- MapReduce
提供数据的存储访问、数据块划分、计算节点调度管理、数据通信、结果收集、容错处理、负载均衡、性能优化等
JobTracker:主结点
接受用户提交的MR job
分派map任务和reduce任务
监管tasks和tasktrackers,重新执行失效任务
一般情况应该把JobTracker部署在单独的机器上
TaskTracker:任务的调度
多个运行于多个节点的slaver服务,一个Datanode节点一个。
按照jobtracker的要求执行map或者reduce任务
管理存储,传输中间结果
分布式计算模型- MapReduce