1 / 22
文档名称:

大数据技术分享.ppt

格式:ppt   大小:902KB   页数:22页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

大数据技术分享.ppt

上传人:feng1964101 2019/8/10 文件大小:902 KB

下载得到文件列表

大数据技术分享.ppt

文档介绍

文档介绍:大数据技术分享0102数据存储/Hbase,MongoDB03数据分析/Hive,MR,R04实时计算/Storm,Spark05数据传输/Sqoop,Kafka演讲提纲06数据采集/Flume,KafkaDPI大数据架构NoSql数据库NoSql (NotOnlySql)hbaseMongoDBLucene/Solr等Hbase是什么HBase是ApacheHadoop中的一个子项目,Hbase依托于Hadoop的HDFS作为最基本存储基础单元,通过使用hadoop的DFS工具就可以看到这些这些数据存储文件夹的结构,还可以通过Map/Reduce的框架(算法)对HBase进行操作,如下图所示:HRegionServer、HRegion、Hmemcache、Hlog、HStore之间的关系HBase表中的数据与HRegionServer的分布关系为什么采用HBase?HBase不同于一般的关系数据库,,这样方面读写大数据的数据。hbase是基于列存储,查询速度为秒级一个数据行拥有一个可选择的键和任意数量的列。表是疏松的存储的,因此用户可以给行定义各种不同的列什么是列存储?什么是列存储?列存储不同于传统的关系型数据库,其数据在表中是按行存储的,列方式所带来的重要好处之一就是,由于查询中的选择规则是通过列来定义的,因此整个数据库是自动索引化的。按列存储每个字段的数据聚集存储,在查询只需要少数几个字段的时候,能大大减少读取的数据量,一个字段的数据聚集存储,那就更容易为这种聚集存储设计更好的压缩/解压算法。这张图讲述了传统的行存储和列存储的区别:ment表,采用HBase后只有一张blogtable表,如果按照传统的RDBMS的话,blogtable表中的列是固定的,比如schema定义了Author,Title,URL,text等属性,上线后表字段是不能动态增加的。但是如果采用列存储系统,比如Hbase,那么我们可以定义blogtable表,然后定义info列族,User的数据可以分为:info:title,info:author,info:url等,如果后来你又想增加另外的属性,这样很方便只需要info:xxx就可以了。