1 / 18
文档名称:

MapReduce编程框架.pptx

格式:pptx   大小:139KB   页数:18页
下载后只包含 1 个 PPTX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

MapReduce编程框架.pptx

上传人:q1188830 2017/8/14 文件大小:139 KB

下载得到文件列表

MapReduce编程框架.pptx

相关文档

文档介绍

文档介绍:MapReduce编程框架
yufan@
MapReduce的优缺点
优点:
高度的并行性和可伸缩性
自动的容错和恢复
缺点:
受限的输入输出
受限的处理流程
受限的数据流向
缺乏对多重计算的原生支持
Map和Reduce的算法拆分有时并非显然
数据流
Chain
Dispatch
Join
Shuffle(Mapreduce)
Self Join
Map Reduce编程框架
开源:
Pig:面向日志处理(Yahoo)
Hive:面向数据库(Facebook)
Jaql:面向结构化数据(IBM)
Cloudbase:hive+jaql
Cascading:通用编程框架
闭源:
Sawzall:面向日志处理(Google)
DryadLinq:通用编程框架(Microsoft)
Map Reduce编程框架
Pig
Hive
Jaql
cascading
cloudbase
sawzall
dryadlinq
开源





语言







框架


内嵌脚本



Pig
Wordcount and top in pig
A = load '' using TextLoader();
B = foreach A generate flatten(TOKENIZE($0)) as word;
C = group B by word;
D = foreach C generate group, COUNT(B);
E = ORDER D BY $1 DESC;
F = Limit E 10;
dump F
Hive
CREATE TABLE user(userid BIGINT, page_url STRING) STORED AS SEQUENCEFILE;
INSERT OVERWRITE TABLE user_active SELECT user.* FROM user WHERE userid = 1;
Pig vs Hive
Feature
Hive
Pig
Language
SQL-like
PigLatin
Schemas/Types
Yes (explicit)
Yes (implicit)
Partitions
Yes
No
Server
Optional (Thrift)
No
User Defined Functions (UDF)
Yes (Java)
Yes (Java)
Custom Serializer/Deserializer
Yes
Yes
DFS Direct Access
Yes (implicit)
Yes (explicit)
Join/Order/Sort
Yes
Yes
Shell
Yes
Yes
Streaming
Yes
Yes
Web Interface
Yes
No
JDBC/ODBC
Yes (limited)
No
Pig vs Hive
Pig:
提供了大量现成的数据格式解析工具,如apache log
可以处理无结构的数据(word count)
Hive:
独立的meta系统可以储存表结构信息
必须将数据导入到表中才能处理
支持Insert
无法写出wordcount
Jaql
使用Json作为内部数据表示,支持结构化的复杂数据
可以完成复杂的数据变化
需要显示的指定mapreduce并行方法