1 / 3
文档名称:

极限存储方案―――让1T空间存储100T数据.doc

格式:doc   页数:3页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

极限存储方案―――让1T空间存储100T数据.doc

上传人:xgs758698 2016/2/28 文件大小:0 KB

下载得到文件列表

极限存储方案―――让1T空间存储100T数据.doc

文档介绍

文档介绍:极限存储方案―――让1T空间存储100T数据!下面将介绍一种海量数据的存储方案,在适当的场合下使用该方案,可以大大节约存储空间。举个最简单的例子,比如有一张表,它有4个字段:用户注册日期,编号,姓名,地址该表5月1日的记录如下:当我们全量同步这张表的时候,则5月1日的分区中存在8条记录用户注册日期编号姓名地址5月1日001张三西湖区5月1日002李四西湖区5月1日003王五上城区5月1日004张1下城区5月1日005王1西湖区5月1日006王2西湖区5月1日007王3上城区5月1日008王4下城区该表5月2日的记录如下:当我们全量同步这张表的时候,则5月2日的分区中存在10条记录用户注册日期编号姓名地址5月1日001张三西湖区5月1日002李四西湖区5月1日003王五下城区(王五搬到了下城区)5月1日004张1下城区5月1日005王1西湖区5月1日006王2西湖区5月1日007王3上城区5月1日008王4下城区5月2日009张2上城区5月2日010张3下城区该表5月3日的记录如下:当我们全量同步这张表的时候,则5月3日的分区中存在12条记录用户注册日期编号姓名地址5月1日001张三上城区(张三这个人搬家了,因此地址变换了)5月1日002李四西湖区5月1日003王五下城区5月1日004张1下城区5月1日005王1西湖区5月1日006王2西湖区5月1日007王3上城区5月1日008王4下城区5月2日009张2上城区5月2日010张3下城区5月3日011张4上城区5月3日012张5下城区数据仓库中的数据,存放的是反应历史变化情况的快照数据,一般一旦数据进入数据仓库,都会保留相当长的一段时间。因此当一些大表,而且每天增长量又相当大的情况下,传统的存储方式就会占用相当大的存储空间。(我们不能只保留最近一份全量数据,把之前的都删除,这样就不能反应历史情况了。)就比如上面这个例子中,5月1号的数据存放了8条记录;5月2号的数据存放了10条记录,5月3号的数据,存放了12条记录,而且随着时间的推移,每天的全量数据将不断的增加。为了解决这个存储问题,于是就引发了一个思考:如何才能节约存储空间,而又能反应数据的历史情况?我们看一下上面3天的记录数,其实一共就是从编号001到012的12个人的记录,其中张三和王五因为搬家变更了一次地址。如果我们给记录加上一个生命期的概念,那么就能达到既节约存储空间,又能反应数据历史变化情况的效果了。用户注册日期编号姓名地址Begin_dateEnd_date5月1日001张三西湖区2011-05-012011-05-025月1日001张三上城区2011-05-032011-05-035月1日002李四西湖区2011-05-012011-05-035月1日003王五上城区2011-05-012011-05-015月1日003王五下城区2011-05-022011-05-035月1日004张1下城区2011-05-012011-05-035月1日005王1西湖区2011-05-012011-05-035月1日006王2西湖区2011-05-012011-05-035月1日007王3上城区2011-05