1 / 22
文档名称:

大数据技术分享.ppt

格式:ppt   大小:902KB   页数:22页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

大数据技术分享.ppt

上传人:lily8501 2018/1/23 文件大小:902 KB

下载得到文件列表

大数据技术分享.ppt

文档介绍

文档介绍:大数据技术分享
01
02
数据存储/Hbase,MongoDB
03
数据分析/Hive,MR,R
04
实时计算/Storm,Spark
05
数据传输/Sqoop,Kafka
演讲提纲
06
数据采集/Flume,Kafka
DPI大数据架构
NoSql数据库
Hbase是什么
HBase是Apache Hadoop中的一个子项目,Hbase依托于Hadoop的HDFS作为最基本存储基础单元,通过使用hadoop的DFS工具就可以看到这些这些数据存储文件夹的结构,还可以通过Map/Reduce的框架(算法)对HBase进行操作,如下图所示:
HRegionServer、HRegion、Hmemcache、Hlog、HStore之间的关系
HBase表中的数据与HRegionServer的分布关系
为什么采用HBase?
HBase 不同于一般的关系数据库,,这样方面读写大数据的数据。
hbase是基于列存储,查询速度为秒级
一个数据行拥有一个可选择的键和任意数量的列。表是疏松的存储的,因此用户可以给行定义各种不同的列
什么是列存储?
什么是列存储?列存储不同于传统的关系型数据库,其数据在表中是按行存储的,列方式所带来的重要好处之一就是,由于查询中的选择规则是通过列来定义的,因此整个数据库是自动索引化的。按列存储每个字段的数据聚集存储,在查询只需要少数几个字段的时候,能大大减少读取的数据量,一个字段的数据聚集存储,那就更容易为这种聚集存储设计更好的压缩/解压算法。这张图讲述了传统的行存储和列存储的区别:
MySQL中现有的表结构
迁移至HBase中的表结构
ment表,采用HBase后只有一张blogtable表,如果按照传统的RDBMS的话,blogtable表中的列是固定的,比如schema 定义了Author,Title,URL,text等属性,上线后表字段是不能动态增加的。但是如果采用列存储系统,比如Hbase,那么我们可以定义blogtable表,然后定义info 列族,User的数据可以分为:info:title ,info:author ,info:url 等,如果后来你又想增加另外的属性,这样很方便只需要 info:xxx 就可以了。