1 / 86
文档名称:

大数据面试题.doc

格式:doc   大小:1,824KB   页数:86页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

大数据面试题.doc

上传人:今晚不太方便 2017/8/13 文件大小:1.78 MB

下载得到文件列表

大数据面试题.doc

文档介绍

文档介绍:Hive内部表与外部表的区别?
先来说下Hive中内部表与外部表的区别: 
Hive 创建内部表时,会将数据移动到数据仓库指向的路径;若创建外部表,仅记录数据所在的路径, 
不对数据的位置做任何改变。在删除表的时候,内部表的元数据和数据会被一起删除, 
而外部表只删除元数据,不删除数据。这样外部表相对来说更加安全些,数据组织也更加灵活,方便共享源数据。 
需要注意的是传统数据库对表数据验证是 schema on write(写时模式),而 Hive 在load时是不检查数据是否 
符合schema的,hive 遵循的是 schema on read(读时模式),只有在读的时候hive才检查、解析具体的 
数据字段、schema。 
读时模式的优势是load data 非常迅速,因为它不需要读取数据进行解析,仅仅进行文件的复制或者移动。 
写时模式的优势是提升了查询性能,因为预先解析之后可以对列建立索引,并压缩,但这样也会花费要多的加载时间。 
下面来看下 Hive 如何创建内部表: 
1
create table test(userid string);
2
LOAD DATA INPATH '/tmp/result/20121213' INTO TABLE test partition(ptDate='20121213');
这个很简单,不多说了,下面看下外部表: 
01
hadoop fs -ls /tmp/result/20121214
02
Found 2 items
03
-rw-r--r--   3 june supergroup       1240 2012-12-26 17:15 /tmp/result/20121214/part-00000
04
-rw-r--r--   1 june supergroup       1240 2012-12-26 17:58 /tmp/result/20121214/part-00001
05
-- 建表
06
create EXTERNAL table IF NOT EXISTS test (userid string) partitioned by (ptDate string) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t';
07
-- 建立分区表,利用分区表的特性加载多个目录下的文件,并且分区字段可以作为where条件,更为重要的是
08
-- 这种加载数据的方式是不会移动数据文件的,这点和 load data 不同,后者会移动数据文件至数据仓库目录。
09
alter table test add partition (ptDate=
'20121214') location '/tmp/result/20121214';
-- 注意目录20121214最后不要画蛇添足加/*,我就是linux shell用多了,加了这玩意,调试了一下午。。。
注意:location后面跟的是目录,不是文件,hive会把整个目录下的文件都加载到表中:
1
create EXTERNAL table IF NOT EXISTS userInfo (id int,sex string, age int, name string, email string,sd string, ed string)  ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' location '/hive/dw';
否则,会报错误:
FAILED: Error in metadata: MetaException(message:Got exception: : Parent path is not a directory: /hive/dw/record_2013-04-
最后提下还有一种方式是建表的时候就指定外部表的数据源路径,
但这样的坏处是只能加载一个数据源了:
CREATE EXTERNAL TABLE sunwg_test09(id INT, name string) 
ROW FORMAT DELIMITED 
FIELDS TERMINATED BY ‘\t’ 
LOCATION ‘/sunwg/test08′; 
上面的语句创建了一张名字为sunwg_test09的外表,该表有id和name两个字段, 
字段的分割符为tab,文件的数据文件夹为/sunwg/t

最近更新

连续时间系统的频域分析 101页

健康社区视角下的老旧社区公共空间改造研究 9页

设备控制基础课件 13页

2025年高中英语微课教案with的复合结构 2页

2025年高中物理-3-4-安培力的应用规范训练-粤.. 5页

2025年陕西16-17高二上期中考试--英语 22页

2025年部编版二年级下册语文句子专项练习 13页

2025年部编三年级下册语文《美丽的鹿角》教学.. 6页

2025年辽宁省沈阳市大东区中心中学中考数学二.. 18页

写小学的作文(7篇) 7页

农村垃圾处理社会实践报告全文 16页

2025年行政后勤人员绩效考核量化评分表 2页

2025年苏教版高中语文必修1-5重点字音字形梳理.. 6页

古汉台导游词(6篇) 9页

2025年苏教版-五上《复式统计表》教学反思 2页

嘉宾发言稿(8篇) 12页

城市无车日活动倡议书优秀【8篇】 11页

2025年职业生涯规划课心得体会 3页

公共卫生体系在疫情中的响应与调整-深度研究 34页

破解国产特斯拉智能汽车整车控制系统底层CAN数.. 2页

基于人工智能的智慧审计平台设计 9页

现代物流管理考试重点归纳 23页

水凝胶医用冷敷贴敷料产品技术要求标准2023年.. 9页

加强政务服务大厅运行管理工作方案 18页

福建省市政基础设施工程竣工验收报告 8页

高效能人士的七个习惯-第一章 由内而外全面造.. 16页

一对一门徒栽培训练精编版 65页

大蒜素提取工艺的研究 3页