文档介绍:云 计 算 与 大 数 据 的 关 键 技 术 及 应 用
云计算被以为是继个人电脑、互联网以后电子信息技术领域又一次重要改革,其经过虚构化有效地聚合各种资源,经过网络化按需供应资源,经过专业化供应丰富的应用服务,这类新式的计体制、虚构化集群的容错体制、虚构机安全体制等;
云计算多模式客户端技术。网络时代的计算以数据、用户和服务为3 大中
心,云端共存、云端互动是将来计算架构发展趋向。云客户端既包含传统的 PC机、笔录本,也包含手机、 PDA、汽车挪动终端和家电终端等智能挪动设备。主要研究
多种形态的云客户端 接入技术、多模式客户端服务环境。面向云计算典型行业应用需求,需要研制多种形态,支持三网交融的轻量级云客户端接入技术,为用户供应简单易用的云计算服务;面向典型行业应用众多用户的个性化需求,研究多模式
的客户端自适应云服务软件环境。
大数据并不是一项技术,其前身是商务智能 BI 。大数据是一系列信息技术的集
合,包含数据收集、数据管理、计算办理、数据剖析和数据显现 5 个要点技术环
节。此中,数据管理、计算办理和数据剖析 3 个环节的改革较大。
数据收集主假如从当地数据库、互联网、物联网等数据源导入数据,包含数据的提取、变换和加载。因为数据源不同样,数据收集的技术系统也不尽同样。其面对的挑战主要来自双方面,一是怎样自动实现对接收的海量数据依照特定策略进行过滤,进而大幅度降低后续储存和办理的压力;二是怎样自动生成元数据,正确描
述数据出处,获取门路和环境等背景信息,并且将公司内部的数据与互联网的元数据有关系,进行多维元数据剖析。不同行业关于元数据的录制要求不尽同样。
大数据对储存管理技术的挑战主要在于扩展性。第一是容量上的扩展,要求底
层储存架构和文件系统以低落本的方式及时按需扩展储存空间。传统的 NAS、SAN等储存架构下,储存和计算分别,进行数据计算时 I/O 简单成为瓶颈,文件系统也存在吞吐量和可扩展性差的问题。新的以谷歌 GFS和 Hadoop HDFS为代表的系统中,广泛采纳了散布式的储存架构,使得计算和储存节点合一,除去了 I/O 瓶颈,文件
系统也采纳散布式并行设计。但 GFS/HDFS主要针对大文件的追加( Append)写入和读取进行了优化。下一步的要点是打破 GFS/HDFS在写操作、小文件存取等方面的性能瓶颈,设计新的文件系统。其次是数据格式可扩展,知足各样非构造化数据的管
理需求。
对大数据进行剖析办理要耗费大批的计算资源,这对计算的速度和成本都提出
了更高要求。采纳并行计算是应付大计算量的广泛做法。但传统的并行计算系统,
一般由专用的性能强盛的硬件组成,造价昂贵,若想提高系统性能,需要采纳纵向
扩展( Scale Up )的方式,即经过提高单机 CPU性能、增添内存、扩展磁盘等达到
性能提高。这类扩展简单达到瓶颈,难以支支撑续的计算能力扩展,并且成本很
高。总结起来,下一步大数据计算技术的主要方向将集中在研发及时性高的大规模并行办理技术上,以支撑超大规模机器学习、超大规模流量计算等及时剖析需求。
目前大数据剖析技术面对的挑战,一方面是要对构造化和半构造化数据展开深度剖析,另一方面是要开发非