1 / 59
文档名称:

hadoop实战培训.ppt

格式:ppt   页数:59页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

hadoop实战培训.ppt

上传人:2286107238 2015/12/28 文件大小:0 KB

下载得到文件列表

hadoop实战培训.ppt

文档介绍

文档介绍:—高级软件人才实作培训专家!Hahoop培训讲师:刘刚北京传智播客教育件人才实作培训专家!海量数据处理平台架构?一般网站把用户的访问行为记录以apach 日志的形式记录下来了,这些日志中包含了下面一些关键字段: client_ip ,user_id,access_time,url,referer,status,page_size,agent?因为需要统一对数据进行离线计算,所以常常把它们全部移到同一个地方。简单算了一下:(1)网站请求数:1kw/天(2)每天日志大小:450Byte/行*1kw = ,(3)日志存储周期:2 的日志,2 * 2 * 365 = :①为了方便系统命令查看日志,不压缩, 的空间,刚好有一些2U 的服务器,每台共1T 的磁盘空间。②为了避免系统盘坏掉影响服务器使用,对系统盘做了raid1。③为了避免其他存放数据的盘坏掉导致数据无法恢复,对剩下的盘做了raid5。④所有的数据都汇聚到这几台LogBackup 服务器上来了。北京传智播客教育件人才实作培训专家!有了LogBackup 服务器,离线统计就可以全部在这些服务器上进行了。在这套架构上,用wc、grep、sort、uniq、awk、sed 等系统命令,完成了很多的统计需求,比如统计访问频率较高的client_ip,某个新上线的的页面的referer 主要是哪些网站。?当业务的迅猛发展,网站流量爆发增长,产品经理如果想从中获取更多的用户特征和用户信息,就需要我们这些数据分析人员从不同的日志中找到令他们满意的答案。如果(1)日志总行数:10 亿/天(2)每天日志大小:450Byte/行*10 亿= 420G,(3)日志种类:5 种北京传智播客教育件人才实作培训专家!Hadoop能解决哪些问题?海量数据需要及时分析和处理。?海量数据需要深入分析和挖掘。?数据需要长期保存问题:?磁盘IO成为一种瓶颈,而非CPU资源。?网络带宽是一种稀缺资源?硬件故障成为影响稳定的一大因素北京传智播客教育件人才实作培训专家!Hadoop在国内的情景?奇虎360:Hadoop存储软件管家中软件,使用CDN技术将用户请求引到最近的Hadoop集群并进行下载?京东、百度:存储、分析日志、数据挖掘和机器学习(主要是推荐系统)?广告类公司:存储日志,通过协调过滤算法为客户推荐广告?Yahoo:垃圾邮件过滤?华为:云计算平台?Facebook:日志存储,实时分析?某公安部项目:网民QQ聊天记录与关联人调查系统,使用Hbase实现?某学校:学生上网与社会行为分析,使用hadoop?淘宝、阿里:国内使用Hadoop最深入的公司,整个Taobao和阿里都是数据驱动的北京传智播客教育件人才实作培训专家!Hadoop开发人员市场需求和待遇北京传智播客教育件人才实作培训专家!Hadoop在国内的人才储备北京传智播客教育件人才实作培训专家!Hadoop介绍1)作者:Doug Cutting2)用Java编写的开源系统,能够安排在大规模的计算平台上,从而长进计算效率。3)Nutch搜索引擎里面的一个模块。4)受Google三篇论文的启发 ---MapReduce GFS Bigtable5)google hadoop mapreduce mapreduce GFS HDFS Bigtable Hbase北京传智播客教育件人才实作培训专家!Hadoop生态系统介绍?Hbase 1)Nosql数据库,Key-Value存储 2)最大化利用内存?HDFS 1) hadoop distribute file system分布式文件系统 2)最大化利用磁盘?MapReduce 1)编程模型,主要用来做数据的分析 2)最大化利用CPU北京传智播客教育件人才实作培训专家!HDFS篇