1 / 56
文档名称:

Hahoop 入门基础知识.ppt

格式:ppt   大小:1,422KB   页数:56页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

Hahoop 入门基础知识.ppt

上传人:lily8501 2018/3/2 文件大小:1.39 MB

下载得到文件列表

Hahoop 入门基础知识.ppt

相关文档

文档介绍

文档介绍:Hahoop 入门基础知识
海量数据处理平台架构
2
一般网站把用户的访问行为记录以apach 日志的形式记录下来了,这些日志中包含了下面一些
关键字段:
client_ip ,user_id,access_time,url,referer,status,page_size,agent
因为需要统一对数据进行离线计算,所以常常把它们全部移到同一个地方。
简单算了一下:
(1) 网站请求数:1kw/天
(2) 每天日志大小:450Byte/行* 1kw = ,
(3) 日志存储周期:2 年
的日志,2 * 2 * 365 =
解决方案:
为了方便系统命令查看日志,不压缩, 的空间,刚好有一些2U 的服务器,每台共1T 的磁盘空间。
为了避免系统盘坏掉影响服务器使用,对系统盘做了raid1。
为了避免其他存放数据的盘坏掉导致数据无法恢复,对剩下的盘做了raid5。
所有的数据都汇聚到这几台LogBackup 服务器上来了。
3
有了LogBackup 服务器,离线统计就可以全部在这些服务器上进行了。在这套架构上,用wc、grep、sort、uniq、awk、sed 等系统命令,完成了很多的统计需求,比如统计访问频率较高的client_ip,某个新上线的的页面的referer 主要是哪些网站。
当业务的迅猛发展,网站流量爆发增长,产品经理如果想从中获取更多的用户特征和用户信息,
就需要我们这些数据分析人员从不同的日志中找到令他们满意的答案。如果
(1) 日志总行数:10 亿/天
(2) 每天日志大小:450Byte/行* 10 亿= 420G,
(3) 日志种类:5 种
Hadoop能解决哪些问题
海量数据需要及时分析和处理。
海量数据需要深入分析和挖掘。
数据需要长期保存
问题:
磁盘IO成为一种瓶颈,而非CPU资源。
网络带宽是一种稀缺资源
硬件故障成为影响稳定的一大因素
Hadoop在国内的情景
奇虎360:Hadoop存储软件管家中软件,使用CDN技术将用户请求引到最近的Hadoop集群并进行下载
京东、百度:存储、分析日志、数据挖掘和机器学****主要是推荐系统)
广告类公司:存储日志,通过协调过滤算法为客户推荐广告
Yahoo:垃圾邮件过滤
华为:云计算平台
Facebook:日志存储,实时分析
某公安部项目:网民QQ聊天记录与关联人调查系统,使用Hbase实现
某学校:学生上网与社会行为分析,使用hadoop
淘宝、阿里:国内使用Hadoop最深入的公司,整个Taobao和阿里都是数据驱动的
Hadoop开发人员市场需求和待遇
Hadoop在国内的人才储备
Hadoop介绍
1)作者:Doug Cutting
2)用Java编写的开源系统,能够安排在大规模的计算平台上,从而长进计算效率。
3)Nutch搜索引擎里面的一个模块。
4)受Google三篇论文的启发
---MapReduce GFS Bigtable
5)google hadoop
mapreduce mapreduce
GFS HDFS
Bigtable Hbase
Hadoop生态系统介绍
Hbase
1)Nosql数据库,Key-Value存储
2)最大化利用内存
HDFS
1) hadoop distribute file system分布式文件系统
2)最大化利用磁盘
MapReduce
1)编程模型,主要用来做数据的分析
2)最大化利用CPU
HDFS篇