文档名称：

云计算&大数据关键技术与应用62.ppt

格式：ppt 大小：6,123KB 页数：62页

下载后只包含 1 个 PPT 格式的文档，没有任何的图纸或源代码，查看文件列表

如果您已付费下载过本站文档，您可以点这里二次下载

预览

下载此文档

云计算&大数据关键技术与应用62.ppt

上传人:我是药仙 2022/8/26 文件大小：5.98 MB

下载得到文件列表

云计算&大数据关键技术与应用62.ppt

相关文档

文档介绍

文档介绍：云计算&amp;大数据关键技术与应用62
阿里技术架构总览
数据来源：阿里相关技术介绍ppt
腾讯大数据状况
数据来源：2012-12-1赵伟《HIVE在腾讯分布式数据仓库实践分享》
腾讯技术架构
数据
OpenStack是由Rackspace和NASA共同开发的云计算平台，帮助服务商和企业内部实现类似于Amazon EC2和S3的云基础架构服务(IaaS)。
用Python语言编写
大型用户：
NASA
加拿大半官方机构CANARIE网络的DAIR项目
Rackspace Cloud
惠普云(使用Ubuntu Linux)
MercadoLibre的IT基础设施云，现以Openstack管理超过60000台服务器
OpenStack 社区
目录
云计算&大数据技术架构
虚拟化技术
1
2
分布式数据处理技术
海量数据存储技术
3
4
大数据技术应用实例
5
Google分布式处理架构
Google云计算应用
BigTable
GFS
MapReduce
Chubby
组件调用关系分析
分布式文件系统
分布式计算模型
分布式文件系统-Google文件系统(GFS)
Google48%
MSN19%
Yahoo33%
客户端
客户端
客户端
互为备份
管理节点
GFS主节点
GFS主节点
C0
C1
C2
C5
数据结点1
C0
C2
C5
数据结点N
C1
C5
数据结点2
…
客户端
客户端
客户端
客户端
客户端
客户端
C1
分布式文件系统- HDFS
基本结构
采用主从架构，由一个Namenode和若干个Datanode组成
Namenode: 负责管理名字空间与客户端访问
Datanode: 管理附带的存储，存储文件的block
一个文件分成多个block，Block是HDFS最小存储与分配单位,,分布存储，典型块大小为64MB或128MB
一个block被复制存放于多个datanode
HDFS在Yahoo安装了14PB的在线磁盘
分布式文件系统- GlusterFS
分布式文件系统- Lustre
MDS: Metadata Server, 元数据管理器，管理名字空间和文件对象映射
OSS:Object Storage Server,I/O服务器
MDT:Metadata Target, MDS的本地磁盘存储
OST:Object Storage Target,OSS的本地磁盘存储
OST
MDT
分布式文件系统-写入性能比较
来源：中科院深圳先进技术研究院熊文,喻之斌,须成忠的论文《几个常见分布式文件系统特征分析和性能对比》（《集成技术》2012年11月）
分布式文件系统-读取性能比较
来源：中科院深圳先进技术研究院熊文,喻之斌,须成忠的论文《几个常见分布式文件系统特征分析和性能对比》（《集成技术》2012年11月）
分布式计算模型-概述
待处理数据量巨大
短时间处理
如何进行并行分布式计算？
如何分发待处理数据？
如何处理分布式计算中的错误？
MapReduce模型
Google 公司的核心计算模型
分布式计算模型- MapReduce
一个软件架构，是一种处理海量数据的并行编程模式，用于大规模数据集（通常大于100TB）的并行运算
适合要求: 待处理的数据集可以分解成许多小的数据集，而且每一个小数据集都可以完全并行地进行处理。
MapReduce实现了Map和Reduce两个功能
Map把一个函数应用于集合中的所有成员，然后返回一个基于这个处理的结果集
Reduce对结果集进行分类和归纳
Map()和 Reduce() 两个函数可能会并行运行
计算流程
分布式计算模型- MapReduce
提供数据的存储访问、数据块划分、计算节点调度管理、数据通信、结果收集、容错处理、负载均衡、性能优化等
JobTracker：主结点
接受用户提交的MR job
分派map任务和reduce任务
监管tasks和tasktrackers，重新执行失效任务
一般情况应该把JobTracker部署在单独的机器上
TaskTracker：任务的调度
多个运行于多个节点的slaver服务，一个Datanode节点一个。
按照jobtracker的要求执行map或者reduce任务
管理存储，传输中间结果
分布式计算模型- MapReduce