1 / 33
文档名称:

[ppt]淘宝-张轩丞 淘宝海量数据产品技术架构.ppt

格式:ppt   页数:33页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

[ppt]淘宝-张轩丞 淘宝海量数据产品技术架构.ppt

上传人:精品库 2015/12/24 文件大小:0 KB

下载得到文件列表

[ppt]淘宝-张轩丞 淘宝海量数据产品技术架构.ppt

文档介绍

文档介绍:淘宝海量数据产品技术架构
张轩丞(朋春)
淘宝网-数据平台与产品部
关于
张轩丞(朋春)
淘宝数据平台与产品部(杭州)
vi党,脚本语言爱好者
ode社区组织者之一
pengchun@
:我是aleafs
数据平台与产品
数据
产品
用户
淘宝网
淘宝卖家
供应商
消费者
搜索、浏览、收藏、交易、评价...
一些数字
淘宝主站:
30亿店铺、宝贝浏览
10亿计的在线宝贝数
千万量级交易笔数
数据产品:
50G统计汇总结果
千万量级数据查询请求
(6月1日)
海量数据带来的挑战
计算
计算的速度
处理吞吐量
存储
存储是为了更方便地查询
硬盘、内存的成本
查询
“大海捞针”
全“表”扫描
架构总览
主站备库
RAC
主站日志
数据源
MyFOX
Prom
存储

数据中间层/ glider
查询

数据魔方
淘宝指数
开放API
产品
Hadoop集群/ 云梯
计算层
实时流数据
DataX / DbSync / TimeTunnel
1500节点,每日40000 JOB,,凌晨2点结束,结果20T
今天的话题
关系型数据库仍然是王道
NoSQL是SQL的有益补充
用中间层隔离前后端
缓存是系统化的工程
关系型数据库仍然是王道
关系型数据库
有成熟稳定的开源产品
SQL有较强的表达能力
只存储中间状态的数据
查询时过滤、计算、排序
数据产品的本质
拉关系
做计算
SELECT IF(INSTR(,' ') > 0, UPPER(TRIM()), CONCAT(,' ',UPPER(TRIM()))) AS f0,
SUM() AS f1,
ROUND(SUM() / AVG(), 2) AS f3
FROM dm_fact_keyword_brand_d f
INNER JOIN dim_brand b ON =
WHERE keyword_cat_id IN ('50002535')
AND thedate <= '2011-07-09'
AND thedate >= '2011-07-07'
GROUP BY f0
ORDER BY SUM() DESC LIMIT 0, 100
存储在DB中的数据