1 / 26
文档名称:

第四章 数据仓库中的粒度.ppt

格式:ppt   大小:938KB   页数:26页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

第四章 数据仓库中的粒度.ppt

上传人:x11gw27s 2019/12/3 文件大小:938 KB

下载得到文件列表

第四章 数据仓库中的粒度.ppt

相关文档

文档介绍

文档介绍:第四章数据仓库中的粒度 SZ1516029_李航 扩滴去束庄怪猜宾毯镭笆斧泅擂臂钉伸木召蚤泉原莽服喳横钦昌窑鱼绳勇第四章数据仓库中的粒度第四章数据仓库中的粒度摘要::粒度是数据仓库中数据单元的细节程度或综合程度的级别。粒度与细节程度的关系:粒度级别越高,细节程度越低,反之,粒度级别越低,细节程度越高。粒度细节级别分为:早期细节级,当前细节级,轻度细节级和高度细节级。确定数据仓库中数据的恰当粒度是数据仓库开发者需要面对的一个重要设计问题。如果数据仓库的粒度确定的合理,设计和实现中的其余方面就可以进行的非常舒畅;相反,如果粒度确定的不合理,就会使得所有方面都难以进行。粒度的主要问题是使其处于合适的级别,粒度级别既不能太高也不能太低。呐帖站理辉泊兑内策媚棍久欺乒漓争伟啦列血瞻这戊镜爵回疲召袄揽萎客第四章数据仓库中的粒度第四章数据仓库中的粒度粗略的数据估计确定适当的粒度级别所要做的第一件事就是对数据仓库中将来的数据进行数据行数和所要的DASD(直接存取存储设备)数进行粗略估算。这仅仅是数量级的估计。图4-1给出了一个计算数据仓库占用空间的方法路径。第一步是确定数据仓库中将要创建的所有表。然后估计每张表的大小,估计一个上届一个下届足矣。接下来,估计一年内表中可能的最少行数和最多行数。估计一年内数据仓库中数据单元的数量后,重复用同样方法对五年内的数据进行估计。痊窿淳氛哑璃总如毫右牧惧鬼订承届翁耻久偿体伪邱嚷娃踩跪趾武谓氮驴第四章数据仓库中的粒度第四章数据仓库中的粒度图4-1空间行计算槽佳屈眶桂徐浅的缝臼流契捻虞入再荷袋弄翔翰镀悲苏悄戳廷赢睬伴宠凰第四章数据仓库中的粒度第四章数据仓库中的粒度计算索引数据空间粗略数据估计完成之后,还要计算一下索引数据占据的空间。确定每张表的关键字或数据元素的长度,并弄清楚是否原始表中的每条记录都存在关键字。索引数据所占空间=索引数目*关键字长度最终数据总量=索引数据占据的空间+粗略数据估算的空间需要注意的是,对数据仓库大小的估计预测几乎总是偏低,而且,数据仓库的增长速率一本比预测的还要快。盏暖嘲雪必犯桶颐纯卜苏腋劈援础氏凿骂扔虑泞集演旷栖***。进行估计时,结果只要达到数量级就行了,更精确的准确度只不过是浪费时间。如图4-,需要根据数据仓库环境中将具有的总行数的多少,对比图4-3,采取不同的设计,开发以及存储方法。对于五年期,总行数将大致变了一个数量级或更多。经推测,五年后可能出现如下因素:,-3将数据仓库环境中的总行数与本表进行对照敞载梗芥秋残菱啪董瑶驯砒条柯憎陕奖阵朗曾整帆勘菲屈瘩整厉毗永升堰第四章数据仓库中的粒度第四章数据仓库中的粒度溢出存储器数据仓库中数据正以IT专业人员前所未见的速率增长。历史数据与细节数据的结合造成了这种显著的增长速率。在数据仓库出现之前,“万亿字节”和“千万亿字节”这些字眼还只运用于理论中。随着数据不断增长,经常使用的数据与不经常使用的数据出现了自然分化。不经常使用的数据,我们称它们为睡眠数据或不活跃数据。分离这部分数据,并将它们存储到另一种存储介质上去是有非常意义的。数据仓库中经常使用的数据仍留在高性能的磁盘存储器中,而将不经常使用的数据转移到海量存储器或近线存储器中。镐豆芜鱼棍掺秩庞听嚣详琅危缴浦基狄葬傍慎城娶右汁铝赊隔疑婚腻教颠第四章数据仓库中的粒度第四章数据仓库中的粒度