1 / 39
文档名称:

大数据介绍.pptx

格式:pptx   大小:1,487KB   页数:39页
下载后只包含 1 个 PPTX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

大数据介绍.pptx

上传人:用户头像没有 2017/6/24 文件大小:1.45 MB

下载得到文件列表

大数据介绍.pptx

相关文档

文档介绍

文档介绍:大数据时代的背景
“大数据”的诞生:
半个世纪以来,随着计算机技术全面融入社会生活,信息爆炸已经累积到了开始引发变革的程度。它不仅使世界充斥着比以往更多的信息,而且其增长速度也在加快。如今,这个概念几乎应用到了所有人类智力与发展的领域中。
Facebook
社交网络
淘宝
电子商务
微博、Apps
移动互联
21世纪是数据信息大发展的时代,移动互联、社交网络、电子商务等极大拓展了互联网的边界和应用范围,各种数据正在迅速膨胀并变大
互联网(社交、搜索、电商)、移动互联网(微博)、物联网(传感器、智慧地球)、车联网、GPS、医学影像、安全监控、金融(银行、股市、保险)、电信(通话、短信)
大数据的定义
大数据(Big data或Megadata),或称巨量数据、海量数据、大资料,指的是所涉及的数据量规模巨大到无法通过人工在合理时间内截取、管理、处理、并整理成为人类所能解读的形式的信息。
GB
TB
PB
数据大爆炸
EB
ZB
地球上至今总共的数据量:
在2006年,个人用户才刚刚迈进TB时代,全球一共新产生了约180EB的数据;
在2011年,.
到2020年,整个世界的数据总量会增长44倍,达到35ZB
想要驾驭着庞大的数据必须先了解大数据的特征
多样性
(Variety)
大数据具有4V特征
速度
(Velocity)
价值
(Value)
容量
(Volume)
海量数据处理,难以集中存储和计算
TB
PB
EB
快速地数据传输
流模式
实时
准实时
批量
多种多样的数据类型
结构化
半结构化
非结构化
巨大的数据价值
高价值
低密度
碎片化
高离散化
传统数据与大数据对比
传统数据(DB)
大数据(BD)
数据规模
小(MB)
大(GB、TP、PB)
数据类型
单一(结构化)
繁多(结构化、半结构化、非结构化)
数据与模式关系
现有模式后有数据
现有数据后有模式,模式种类繁多
处理对象
数据
各种类型
相关技术
分析技术:
数据处理:自然语言处理技术
统计和分析:A/B test;top N排行榜
数据挖掘:关联规则分析;分类;聚类
大数据技术:
数据采集:ETL工具
数据存取:关系数据库;NoSQL;SQL等
基础架构支持:云存储;分布式文件系统等
计算结果展现:云计算;标签云;关系图等
存储:
结构化数据:
海量数据的查询、统计、更新等操作效率低
非结构化数据:
图片、视频、word等文件存储
不利于检索、查询和存储
半结构化数据:
转换为结构化存储
按照非结构化存储
解决方案:
Hadoop
流计算
数据源(互联网、物联网、企业数据)
数据收集(ETL(kattle)、提取、转换、加载)
数据存储(SQL和NoSQL)
资源管理
(1)、数据收集、准备
(2)、数据存储
批处理
交互式
流处理
数据挖掘(数据仓库、olap、商务智能等)
数据可视化
用户
(3)、资源管理
(4)、计算框架
(5)、数据分析
(6)、数据展示
Hbase的优劣
1、动态可扩展的,创建表的时候不需要知道有几列,只需要指定有几个column family,并且列为空就不存储数据,节省存储空间。
为什么列是动态的?统计淘宝访问量和购买量,新平台的统计,传统关系型数据库需要停机维护,而Hbase支持动态增加
2、多版本数据 根据Row key和Column key定位到的Value可以有任意数量的版本值,因此对于需要存储变动历史记录的数据,用HBase就非常方便了。
3、支持事务较弱,所以有事务支持的时候都会选择传统的关系型数据库,Hbase事务仅仅是针对某一行的一系列Put/Delete操作。不同行、不同表间一系列操作是无法放在一个事务中的。对一张多Region表来说,还是无法保证每次修改都能封装为一个事务。
计算框架
批处理: mapreduce 例:报表
实时性:(毫秒级)storm 例:信用卡欺诈
交互式分析:(秒级)spark