文档介绍:杭州电子科技大学硕士学位论文摘要随着互联网技术的发展与深入应用,出现了越来越多像“新浪”“腾讯”“淘宝”等大型门户网站或电子商务网站。这些网站都存储有大量图片资源,且图片数量呈爆炸式的增长。鉴于商业存储扩容成本太高,如何在满足高并发访问的前提下构建廉价高效的图片存储管理系统已经成为软件架构师在工作中遇到的最令人头疼的问题。云存储概念的提出给我们指出了一种解决思路,通过研究分析,我们可以采用分布式存储解决上述问题。本文在分析国内外现有的分布式存储系统实现的基础上,通过对Hadoop的HDFS、MapReduce技术的研究以及自身图片存储的业务需求分析和实际软硬件实力评估,提出了一种基于Hadoop的海量图片存储模型。该模型的实现以Hadoop的HDFS分布式文件系统为基础,硬件构筑在普通的Linux机器集群上,通过内部监控实现高容错、高响应、负载均衡,对外提供服务满足高并发高可靠的应用。它采用了HA架构和平滑扩容,保证了整个文件系统的可用性和扩展性。它同时采用扁平化的数据组织结构,抛弃了传统文件系统的目录结构,可将文件名映射到文件的物理地址,简化了文件的访问流程,提供了良好的读写性能。本文主要研究内容和创新点如下:首先,通过对现今互联网发展对图片存储的需求进行总结,分析了传统商业存储的不足,同时介绍分布式存储的国内外发展现状,提出基于Hadoop的海量图片存储模型。其次,根据图片存储的需求分析,基于Hadoop的MapReduce思想设计存储模型,优化编程实现,建立图片存储模型,实现图片存取在高并发高访问下的高可靠性。系统采用Master/Slave架构,通过Master的管理,实现在廉价PC机上部署系统前提下的高扩展性和高容错性。此外,通过设计负载均衡和缓存系统,实现各存储节点的存储优化和存储系统的稳定。然后,论文基于Hadoop的分布式列数据库Hbase,对图片元数据存储。通过图片文件名设计、索引优化,实现同一类型的图片存储物理位置尽可能相近或相邻,提高海量图片数据的查询效率。最后,论文搭建测试集群系统,通过一系列的实验数据、图表,分析了模型系统的可行性,验证了本文中所提方法的实用性和有效性。本课题的特点是针对特定的图片存储业务设计存储模型,该系统满足高可扩展、高可靠、高容错、低成本的设计要求。该模型利用最新的分布式技术实现,并将设计模型部署到Linux集群中,进行了可行性实验。在分析实验数据的基础杭州电子科技大学硕士学位论文上,验证了所提出的基于Hado叩的海量图片存储模型的合理性。关键词:Hadoop,分布式,云计算,图片存储模型杭州电子科技大学硕士学位论文ABSTRACTWiththedevelopmentandthoroughapplicationofIntemettechnology,mercesites,suchas“Sina’’“Tencent’’‘'Taobao”,,,,bytheresearchofHadoop’SHDFSandMapReduce,thebusinessneedsanalysisofimagestorageandthestrengthassessmentoftheactualhardwareandsoftware,’SHDFS,,highresponse,loadba