1 / 47
文档名称:

(云计算与大数据课件)第3章“大数据”关键技术与应用.ppt

格式:ppt   大小:856KB   页数:47页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

(云计算与大数据课件)第3章“大数据”关键技术与应用.ppt

上传人:autohww 2018/5/5 文件大小:856 KB

下载得到文件列表

(云计算与大数据课件)第3章“大数据”关键技术与应用.ppt

相关文档

文档介绍

文档介绍:云计算与大数据
西安电子科技大学出版社
第3章大数据关键技术与应用
大数据技术总体框架
大数据存储技术
大数据处理技术
大数据分析技术
重点:
大数据存储技术
大数据处理技术
大数据分析技术
本章重点
云计算是新的商业模式。大数据的本质是应需求驱动的,大数据的应用最终使云计算模式落地。
大数据来源于互联网、企业系统和物联网等信息系统,经过大数据处理系统的分析挖掘,产生新的知识用以支撑决策或业务的自动智能化运转。
大数据对数据存储、处理和分析三个环节影响较大,需要对技术架构和算法进行重构,是当前和未来一段时间大数据技术创新的焦点。
大数据技术总体框架

业务环节
业务需求
技术实现
产生
大数据操作
数据容量:每18个月翻一番
数据类型:多于80%的数据来自于非机构化数据
数据速度:数据来源不断变化,数据快速流通
采用一个统一的大数据处理方法,使得企业用户能够快速处理和加载海量数据,能够在统一平台上对不同类型的数据进行处理和存储
聚集
管理大数据的复杂性,需要分类、同步、聚合、集成、共享、转换、剖析、迁移、压缩、备份、保护、恢复、清洗、淘汰各种类型数据
一个数据集成和管理平台,集成各种工具和服务来管理异构存储环境下的各类数据
分析
当前数据仓库和数据挖掘擅长分析结构化的事后数据,在大数据环境下要求能够分析非结构化数据,包括流文件,并能进行实时分析和预测
建立一个实时预测分析解决方案,整合结构化的数据仓库和非结构化的分析工具
利用
满足不同的用户对大数据的实时的多种访问方式
任何时间、任何地点、任何设备上的集中共享和协同
需要理解大数据怎样影响业务,怎样转化为行动
对大数据影响业务和战略进行建模,并利用技术来实现这些模型
架构设计原则
总体架构的特点
大数据技术架构具备集成性、架构先进性和实时性等特点。
1. 统一、开发、集成的大数据平台
可基于开源软件实现Hadoop基础工具的整合;
能与关系型数据库、数据仓库通过JDBC/ODBC连接器进行连接;
能支持地理分布的在线用户和程序,并行执行从查询到战略分析的请求;
用户友好的管理平台,包括HDFS浏览器和类SQL查询语言等;
提供服务、存储、调度和高级安全等企业级应用的功能。

支持大规模可扩展性,到PB级数据源;
支持极大的混合工具负载,各种数据类型包括任意层次的数据结构、图像、日志等;
节点间无共享(sharing-nothing)的集群数据库体系结构;
可编程和可扩展的应用服务器;
简单的配置、开发和管理;
以线性成本扩展并提供一致的性能;
标准的普通硬件。

在声明或发现数据结构之前装载数据;
能以数据全载入的速度来准确更新数据;
可调度和执行复杂的几百个节点的工作流;
在刚装载的数据上,可实时执行流分析查询;
能以大于每秒1GB的速率来分析数据。
4. 可靠性
当处理节点失效时,自动恢复并保持流程连续,不需要中断操作。
大数据如何存储
大数据存储技术
按照数据的结构不同,数据可以被分为结构化的大数据、非结构化
的大数据和半结构化的大数据。
1、结构化数据存储
结构化数据通常是人们所熟悉的数据库中的数据,它本身就
是一种对现实已发生事项的关键要素进行抽取的有价信息。
数据库中积累的结构化数据越来越多,一些问题显现出来,
这些问题可以分为四类:
1)历史数据和当前数据都存在一个数据库中,导致系统处理
速度越来越慢;
2)历史数据与当前数据的期限如何界定;
3)历史数据应如何存储;
4)历史数据的二次增值如何解决。