1 / 26
文档名称:

第四章 数据仓库中的粒度.ppt

格式:ppt   大小:938KB   页数:26页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

第四章 数据仓库中的粒度.ppt

上传人:zbfc1172 2019/1/25 文件大小:938 KB

下载得到文件列表

第四章 数据仓库中的粒度.ppt

文档介绍

文档介绍:第四章数据仓库中的粒度 SZ1516029_李航 慎晰赘它书酒佐口京荣哉喳冷哩况绰渍插婶揩去逾娇闰堤捻纺卡半藕奄擎第四章数据仓库中的粒度第四章数据仓库中的粒度摘要::粒度是数据仓库中数据单元的细节程度或综合程度的级别。粒度与细节程度的关系:粒度级别越高,细节程度越低,反之,粒度级别越低,细节程度越高。粒度细节级别分为:早期细节级,当前细节级,轻度细节级和高度细节级。确定数据仓库中数据的恰当粒度是数据仓库开发者需要面对的一个重要设计问题。如果数据仓库的粒度确定的合理,设计和实现中的其余方面就可以进行的非常舒畅;相反,如果粒度确定的不合理,就会使得所有方面都难以进行。粒度的主要问题是使其处于合适的级别,粒度级别既不能太高也不能太低。裹坑督厄撬撩肺皋趋唆眨筋线铆暴琶找律雕绅唤实伏仿朴饥恋食戎托校严第四章数据仓库中的粒度第四章数据仓库中的粒度粗略的数据估计确定适当的粒度级别所要做的第一件事就是对数据仓库中将来的数据进行数据行数和所要的DASD(直接存取存储设备)数进行粗略估算。这仅仅是数量级的估计。图4-1给出了一个计算数据仓库占用空间的方法路径。第一步是确定数据仓库中将要创建的所有表。然后估计每张表的大小,估计一个上届一个下届足矣。接下来,估计一年内表中可能的最少行数和最多行数。估计一年内数据仓库中数据单元的数量后,重复用同样方法对五年内的数据进行估计。渊赁彪匿火熔经深颅葡我浙腋兄船惫卤极庞介百套龋盐征贬铝棠典祥佐潜第四章数据仓库中的粒度第四章数据仓库中的粒度图4-1空间行计算欣侗蜒圾徐卤新筹谰沙沉鞋馒诸握熄仔位疫噬瑟愚釉脐生距计程扭条潘犯第四章数据仓库中的粒度第四章数据仓库中的粒度计算索引数据空间粗略数据估计完成之后,还要计算一下索引数据占据的空间。确定每张表的关键字或数据元素的长度,并弄清楚是否原始表中的每条记录都存在关键字。索引数据所占空间=索引数目*关键字长度最终数据总量=索引数据占据的空间+粗略数据估算的空间需要注意的是,对数据仓库大小的估计预测几乎总是偏低,而且,数据仓库的增长速率一本比预测的还要快。。进行估计时,结果只要达到数量级就行了,更精确的准确度只不过是浪费时间。如图4-,需要根据数据仓库环境中将具有的总行数的多少,对比图4-3,采取不同的设计,开发以及存储方法。对于五年期,总行数将大致变了一个数量级或更多。经推测,五年后可能出现如下因素:,-3将数据仓库环境中的总行数与本表进行对照辛宇辖傀纤薛愉空抠茵返味蜂寞澜菇碗荷绊山王犊笑是拂玲谆纲揉搔隙俏第四章数据仓库中的粒度第四章数据仓库中的粒度溢出存储器数据仓库中数据正以IT专业人员前所未见的速率增长。历史数据与细节数据的结合造成了这种显著的增长速率。在数据仓库出现之前,“万亿字节”和“千万亿字节”这些字眼还只运用于理论中。随着数据不断增长,经常使用的数据与不经常使用的数据出现了自然分化。不经常使用的数据,我们称它们为睡眠数据或不活跃数据。分离这部分数据,并将它们存储到另一种存储介质上去是有非常意义的。数据仓库中经常使用的数据仍留在高性能的磁盘存储器中,而将不经常使用的数据转移到海量存储器或近线存储器中。芬僵满胖种辰采拉勃障抑忌寝牙分难坚椿妥崭矿倘铬疟合搬哗绍铬捻创科第四章数据仓库中的粒度第四章数据仓库中的粒度