1 / 15
文档名称:

Hive培训ppt课件.ppt

格式:ppt   大小:942KB   页数:15页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

Hive培训ppt课件.ppt

上传人:相惜 2021/12/17 文件大小:942 KB

下载得到文件列表

Hive培训ppt课件.ppt

相关文档

文档介绍

文档介绍:*
Hive简介
Hive是基于Hadoop的一个数据仓库工具,将结构化的数据文件映射为一张数据库表,并提供完整的SQL查询功能,可以将SQL语句转换MapReduce计算任务。
其优点是学****成本低,可以通过类SQL语句(HQL)快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。
类似的工具还有Yahoo的pig。
*
Hive 和普通关系数据库的异同
*
HIVE的数据存储
Hive 没有专门的数据存储格式,也没有为数据建立索引,用户可以非常自由的组织 Hive 中的表,只需要在创建表的时候告诉 Hive 数据中的列分隔符和行分隔符,Hive 就可以解析数据。
Hive 中所有的数据都存储在 HDFS 中,Hive 中包含以下数据模型:Table,External Table,Partition,Bucket。
中的 Table 和数据库中的 Table 在概念上是类似的,每一个 Table 在 Hive 中都有一个相应的目录存储数据。
对应于数据库中的 Partition 列的密集索引,但是 Hive 中 Partition 的组织方式和数据库中的很不相同。在 Hive 中,表中的一个 Partition 对应于表下的一个目录,所有的 Partition 的数据都存储在对应的目录中。
对指定列计算 hash,根据 hash 值切分数据,目的是为了并行,每一个 Bucket 对应一个文件。
目录实例: /hive/data/http_temp/pt_data=1/pt_hour=2014040323
*
HIVE基本操作实例
1、登录生产环境,ssh 。
[******@hm-nn-ser-01 ~]$ hive
2、查看表
hive (default)> show tables;
*
HIVE基本操作实例
3、建表
create EXTERNAL table IF NOT EXISTS test(
sid bigint, ipsid string, reqteid string, respteid string, imsi string,
imei int, apn string, msisdn string, rattype string, lac string,
cellci string, area string, city string)
partitioned by (pt_date bigint) ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' ;
查看表结构
hive (default)> desc test;
*
HIVE基本操作实例
4、加载数据LOAD和LOCATION
LOAD:
HIVE装载数据没有做任何转换,加载到表中的数据只是进入相应的配置单元表的位置,纯粹的复制/移动操作。
load data inpath '/bigData/testData/http_session/’ into table
ipsession partition (pt_date=2013120300);
LOCATION:
location后面跟的是目录而不是文件,hive会把整个目录下的文件都加载到表中
alter table test add partition (pt_date=20131206) location '/bigData/testData/http_session/';
*
HIVE基本操作实例
5、查询数据
select * from test limit 10;
6、查询数据导出
查询数据导出
hive -e "select count(*) from test" >>
或者 hive -f >> ()
*
Hive RCFile数据加载方案
1、数据源文件清单加载到Hive数据仓库
使用Hive Load操作,将数据源文件清单加载到hive的数据仓库中(TEXTFILE),加载时根据节点、日期进行分区。
其操作实质在HDFS创建目录后将源文件移动其中,同时建立元数据关联。
加载一个数据源文件大概需要5-6秒。
语句实例:
load data inpath '/bigData/recordsCheck/data