1 / 8
文档名称:

揭秘淘宝286亿海量图片存储和处理架构.doc

格式:doc   页数:8页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

揭秘淘宝286亿海量图片存储和处理架构.doc

上传人:799474576 2016/7/18 文件大小:0 KB

下载得到文件列表

揭秘淘宝286亿海量图片存储和处理架构.doc

相关文档

文档介绍

文档介绍:专业资料参考首选【 IT168 专稿】8月 27 日下午,在 IT168 系统架构师大会存储与系统架构分论坛上, 淘宝网技术委员会主席, 淘宝网核心工程师章文嵩向我们详细介绍了淘宝网图片处理与存储系统的架构。章文嵩博士的演讲日程包括了淘宝的整个系统架构、淘宝图片存储系统架构, 淘宝网独立开发的 TFS 集群文件系统,前端 CDN 系统以及淘宝网在节能服务器方面的应用和探索。本文侧重介绍淘宝网后台的图片存储系统架构、包括 TFS 集群文件系统,以及前端处理服务器架构。解决海量并发小文件的系统噩梦对于淘宝网这类型访问量极高的电子交易网站来说, 对图片系统的要求和日常的照片分享完全不在一个级别。日常照片分享往往集中在几个有限的亲朋好友之间, 访问量不会特别高, 而淘宝网商铺中的商品照片, 尤其是热门商品, 图片的访问流量其实是非常大的。而且对于卖家来说,图片远胜于文字描述,因此卖家也格外看重图片的显示质量、上传时间、访问速度等等问题。根据淘宝网的流量分析, 整个淘宝网流量中, 图片的访问流量会占到 90% 以上,而主站的网页则占到不到 10% 。专业资料参考首选淘宝网电子商城首页截图,淘宝网的后端系统上保存着 286 亿多个图片文件,淘宝网整体流量中,图片的访问流量要占到 90% 以上。且这些图片平均大小为 ,小于 8K 的图片占整体图片数量 61% ,整体系统容量的 11% 与此同时, 这些图片的存储与读取还有一些头疼的要求: 例如, 这些图片要求根据不同的应用位置,生成不同大小规格的缩略图。考虑到多种不同的应用场景以及改版的可能性, 一张原图有可能需要生成 20 多个不同尺寸规格的缩略图。淘宝整体图片存储系统容量 1800TB ( ),已经占用空间 990TB (约 1PB )。保存的图片文件数量达到 286 亿多个,这些图片文件包括根据原图生成的缩略图。平均图片大小是 ; 8K 以下图片占图片数总量的 61% ,占存储容量的 11% 。这就给淘宝网的系统带来了一个巨大的挑战, 众所周知, 对于大多数系统来说, 最头疼的就是大规模的小文件存储与读取, 因为磁头需要频繁的寻道和换道, 因此在读取上容易带来较长的延时。在大量高并发访问量的情况下,简直就是系统的噩梦。分析自主研发和商用系统的经济效益淘宝网成立于 2003 年,在整个系统的构建和规划上也做过相当多的尝试和探索。下图是淘宝网 2007 年之前的图片存储系统。淘宝网之前一直采用的商用存储系统,应 App 公司的文件存储系统。随着淘宝网的图片文件数量以每年 2倍( 即原来 3倍)的速度增长, App 公司的存储系统也从低端到高端不断迁移, 直至 2006 年, App 公司最高端的产品也不能满足淘宝网存储的要求。专业资料参考首选淘宝网 2007 年以前的图片存储系统架构图,由于淘宝网图片速度已每年 2倍的速度增长,商用系统已经完全不能满足其存储需求,目前淘宝网采用自主研发的 TFS 集群文件系统来解决海量小图片的读取和访问问题。章文嵩博士在这里总结了几点商用存储系统的局限和不足: 首先是商用的存储系统没有对小文件存储和读取的环境进行有针对性的优化;其次,文件数量大, 网络存储设备无法支撑; 另外, 整个系统所连接的服务器也越来越多, 网络连接数已经到达了网络