1 / 43
文档名称:

大数据平台介绍.ppt

格式:ppt   大小:3,941KB   页数:43页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

大数据平台介绍.ppt

上传人:977562398 2022/6/30 文件大小:3.85 MB

下载得到文件列表

大数据平台介绍.ppt

文档介绍

文档介绍:大数据平台介绍
第一页,共43页。
1
2
目录
Hadoop大数据生态圈介绍
大数据应用介绍
3
Cloudera Manager介绍
第二页,共43页。
Hadoo结构话的数据。
不适合处理的任务
不适合一般web应用
不适合实时响应的任务
不适合小数据集的处理
不适合需要大量临时空间的任务
不适合CPU密集且具有许多交叉调用的任务
第十三页,共43页。
MapReduce工作原理
MapReduce执行流程
MapReduce 角色
Client :作业提交发起者。
JobTracker: 初始化作业,分配作业,与TaskTracker通信,协调整个作业。
TaskTracker:保持JobTracker通信,在分配的数据片段上执行MapReduce任务。
任务的分配
TaskTracker和JobTracker之间的通信与任务的分配是通过心跳机制完成的。
TaskTracker会主动向JobTracker询问是否有作业要做,如果自己可以做,那么就会申请到作业任务,这个任务可以使Map也可能是Reduce任务。
第十四页,共43页。
MapReduce工作原理
任务的执行
申请到任务后,TaskTracker会做如下事情:
拷贝代码到本地
拷贝任务的信息到本地
 启动JVM运行任务
状态与任务的更新
任务在运行过程中,首先会将自己的状态汇报给TaskTracker,然后由TaskTracker汇总告之JobTracker。
作业的完成
JobTracker是在接受到最后一个任务运行完成后,才会将任务标志为成功。
此时会做删除中间结果等善后处理工作。
第十五页,共43页。
MapReduce工作原理
第十六页,共43页。
Hadoop实例
根据URL的顶级域名进行分类统计
输入、输出格式:文件
源文件格式如下:
统计目标:
第十七页,共43页。
Hadoop实例
1. 编写MapReduce函数,客户端作业
Map函数
第十八页,共43页。
Hadoop实例
Reduce函数
Job设置
第十九页,共43页。
Hadoop实例
编译、打包成jar文件

3. 源文件提交到HDFS文件系统
文件从本地提交到HDFS文件系统[put命令]
查看HDFS文件系统中已提交的文件
第二十页,共43页。
Hadoop实例
使用Hadoop命令提交作业
提交作业
查看作业 http://localhost:50030
第二十一页,共43页。
Hadoop实例
查看执行结果
查看执行结果生成的文件
查看HDFS文件系统中的结果
HDFS文件拷贝到本地,查看结果
第二十二页,共43页。
Hive简介
Hive是什么
hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。其优点是学****成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。
Hive是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言,称为 HQL,它允许熟悉 SQL 的用户查询数据。同时,这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 reducer 来处理内建的 mapper 和 reducer 无法完成的复杂的分析工作。
第二十三页,共43页。
Hive实例
创建托管表
1. 在Hive命令行执行建表语句
2. 查看元数据库中的表信息、字段信息[sds、columns_v2]
第二十四页,共43页。
Hive实例
3. 从本地向net_addr_1表中导入数据
4. 查看导入的数据
第二十五页,共43页。
Hive实例
根据URL的顶级域名进行分类统计-Hive实现
1. 源数据入表[略],使用已生成的net_addr_1
2. 源数据加工转换,生成中间表
INSERT OVERWRITE TABLE net_addr_3 select net_id,regexp_replace(net_url,'(.+\\.)', '') from net_addr_1;
3. 根据中间表数据进行统计
第二十六页,共43页。
H