文档名称：

hive入门基础知识.ppt

格式：ppt 大小：1,571KB 页数：55页

下载后只包含 1 个 PPT 格式的文档，没有任何的图纸或源代码，查看文件列表

如果您已付费下载过本站文档，您可以点这里二次下载

预览

下载此文档

hive入门基础知识.ppt

上传人:2623466021 2019/5/11 文件大小：1.53 MB

下载得到文件列表

hive入门基础知识.ppt

相关文档

文档介绍

文档介绍：Hive入门与实战一、Hive简介二、Hive体系结构三、Hive工作机制四、Hive应用场景五、Hive安装部署六、Hive开发使用Hive简介-Hive是什么?Hive是构建在Hadoop之上的数据仓库平台Hive是一个SQL解析引擎,它将SQL语句转译成MapReduce作业并在Hadoop上执行。Hive表是HDFS的一个文件目录,一个表名对应一个目录名,如果有分区表的话,则分区值对应子目录名。Hive简介-Hive的历史由来Hive是Facebook开发的,构建于Hadoop集群之上的数据仓库应用。2008年Facebook将Hive项目贡献给Apache,成为开源项目。目前最新版本hive--Hive的历史由来Hadoop和Hive组建成为Facebook数据仓库的发展史随着数据量增加某些查询需要几个小时甚至几天才能完成。当数据达到1T时,MySql进程跨掉。可以支撑几个T的数据,但每天收集用户点击流数据(每天约400G)时,Oracle开始撑不住。有效解决了大规模数据的存储与统计分析的问题,但是MapReduce程序对于普通分析人员的使用过于复杂和繁琐。对外提供了类似于SQL语法的HQL语句数据接口,自动将HQL语句编译转化为MR作业后在Hadoop上执行。降低了分析人员使用Hadoop进行数据分析的难度。Hive体系结构-Hive在Hadoop中的位置Avro(序列化)Zookeeper(协调服务)Pig(数据流)SqoopHive(SQL)MapReduce(分布式计算框架)Hbase(列存储)HCatalog(元数据)HDFS(Hadoop分布式文件系统)程序语言计算表存储对象存储Hive体系结构-Hive设计特征Hive做为Hadoop的数据仓库处理工具,它所有的数据都存储在Hadoop兼容的文件系统中。Hive在加载数据过程中不会对数据进行任何的修改,只是将数据移动到HDFS中Hive设定的目录下,因此,Hive不支持对数据的改写和添加,所有的数据都是在加载的时候确定的。Hive的设计特点如下。支持索引,加快数据查询。不同的存储类型,例如,纯文本文件、HBase中的文件。将元数据保存在关系数据库中,减少了在查询中执行语义检查时间。可以直接使用存储在Hadoop文件系统中的数据。内置大量用户函数UDF来操作时间、字符串和其他的数据挖掘工具,支持用户扩展UDF函数来完成内置函数无法实现的操作。类SQL的查询方式,将SQL查询转换为MapReduce的job在Hadoop集群上执行。编码跟Hadoop同样使用UTF-8字符集。Hive体系结构用户接口CLI:Cli启动的时候,会同时启动一个Hive副本。JDBC客户端:封装了Thrift,java应用程序,可以通过指定的主机和端口连接到在另一个进程中运行的hive服务器ODBC客户端:ODBC驱动允许支持ODBC协议的应用程序连接到Hive。WUI接口:是通过浏览器访问HiveThrift服务器基于socket通讯,支持跨语言。HiveThrift服务简化了在多编程语言中运行Hive的命令。绑定支持C++,Java,PHP,Python和Ruby语言。Hive体系结构解析器编译器:完成HQL语句从词法分析、语法分析、编译、优化以及执行计划的生成。优化器是一个演化组件,当前它的规则是:列修剪,谓词下压。执行器会顺序执行所有的Job。如果Task链不存在依赖关系,可以采用并发执行的方式执行Job。元数据库Hive的数据由两部分组成:数据文件和元数据。元数据用于存放Hive库的基础信息,它存储在关系数据库中,如mysql、derby。元数据包括:数据库信息、表的名字,表的列和分区及其属性,表的属性,表的数据所在目录等。HadoopHive的数据文件存储在HDFS中,大部分的查询由MapReduce完成。(对于包含*的查询,比如select*fromtbl不会生成MapRedcue作业)HadoopHive的运行机制用户通过用户接口连接Hive,发布HiveSQLHive解析查询并制定查询计划Hive将查询转换成MapReduce作业Hive在Hadoop上执行MapReduce作业hivesqlMap/Reduce用户用户接口