文档介绍:网络存储论文
网络存储技术论文
(一)
课程名称:网络存储技术
姓名:梁霄
学号:2022211479
学院专业:计算机学院网络工程
摘要
本文首olumn group按列存储,从而高效地支持OLAP分析。动态数据采用copy-on-write的方式实现了单机内存中的B+树,在单写多读的应用场景下不需要加锁。
OceanBase静态数据构成一棵分布式B+树,动态数据为单机B+树。与线下MapReduce 批处理应用不同,在线存储应用的更新量一般比较小,动态数据服务器不会成为性能瓶颈。这也就意味着,淘宝Oceanbase用一种更为简便的方式在底层实现了和其他互联网巨头类似的B+树数据结构,并且能够高效地支持跨行跨表事务。当然,当数据量增长到万亿级或者数据更新更快时,需要考虑将动态数据服务器的方案由集中式修改为分布式。
(三)适用应用类型
OceanBase首先应用在淘宝收藏夹并取得了明显的效果。淘宝收藏夹最初采用MySQL 分库/分表的方式实现,通过使用OceanBase,机器数由原来的16台主加上16台备共32台减少到12台静态数据服务器加上2台动态数据服务器,大大节省了机器资源。另外,目前应用的很多问题在OceanBase中是通过更好的架构来解决,单机层面基本没做优化,相信后续还有很大的提升空间。
云存储听起来比较神秘,但实际上,对于大多数企业,需要设计好系统可扩展性发展的路线图。当数据规模比较小,可以采用传统的分库分表的方式构建同构系统;当数据规模逐步增加时,可以考虑构建符合企业需求的异构系统。
四、淘宝文件系统TFS
(一)架构简述
淘宝网成立于2022年,在整个系统的构建和规划上也做过相当多的尝试和探索。随着淘宝网的图片文件数量以每年2倍(即原来3倍)的速度增长,淘宝网后端NetApp公司的存储系统也从低端到高端不断迁移,直至2022年,即时是NetApp公司最高端的产品也不能满足淘宝网存储的要求。目前淘宝网采用自主研发的TFS集群文件系统来解决海量小图片的读取和访问问题。对于这点来说淘宝已经做到了一个新的纪元,非常超前。
TFS主要针对海量小文件的随机读写访问性能做了特殊优化,承载着淘宝主站所有图片、商品描述等数据的存储。其特点是,完全扁平化的数据组织结构,抛弃了传统文件系统的目录结构,在块设备基础上建立自有的文件系统,减少EXT3等文件系统数据碎片带来的性能损耗等。
TFS在淘宝的部署环境中前端有两层缓冲,到达TFS系统的请求非常离散,所以TFS 内部是没有任何数据的内存缓冲的,包括传统文件系统的内存缓冲也不存在。所以主要的性能参数不是I/O吞吐量,而是单台PCServer提供随机读写IOPS,基本上可以达到单块磁盘随机IOPS理论最大值的60%左右,整机的输出随盘数增加而线性增加。
(二)关键技术
淘宝网电子商城中的的图片在其网站占了最重要的部分,淘宝网的后端系统上保存着286亿多个图片文件,淘宝网整体流量中,图片的访问流量要占到90%以上。而与此同时,这些图片的存储与读取还有一些头疼的要求,例如,这些图片要求根据不同的应用位置,生成不同大小规格的缩略图。考虑到多种不同的应用场景以及改版的可能性,一张原图有可能需要生成20多个不同尺寸规格的缩略图。
淘宝整体图片存储系统容量1800TB(),已经占用空间990TB(约1PB)。保存的图片文件数量达到286亿多个,这些图片文件包括根据原图生成的缩略图。;8K以下图片占图片数总量的61%,占存储容量的11%。这就给淘宝网的系统带来了一个巨大的挑战,众所周知,对于大多数系统来说,最头疼的就是大规模的小文件存储
与读取,因为磁头需要频繁的寻道和换道,因此在读取上容易带来较长的延时。在大量高并发访问量的情况下,极易导致系统的崩盘。
(三)适用应用类型
对于原有系统的不足,首先是商用的存储系统没有对小文件存储和读取的环境进行有针对性的优化;其次,文件数量大,网络存储设备无法支撑;另外,整个系统所连接的服务器也越来越多,网络连接数已经到达了网络存储设备的极限。此外,商用存储系统扩容成本高,10T的存储容量需要几百万人民币,而且存在单点故障,容灾和安全性无法得到很好的保证。
其中商用软件很难满足大规模系统的应用需求,无论存储还是CDN还是负载均衡,因为在厂商实验室端,很难实现如此大的数据规模测试。再者,在研发过程中,将开源和自主开发相结合,会有更好