文档介绍：数据仓库的粒度(原创)
博客分类:
DataWarehouse
 
概述
粒度问题是设计数据仓库的一个最重要方面。粒度是指数据仓库的数据单位中保存数据的细化或综合程度的级别。细化程度越高,粒度级就越小;相反,细化程度越低,粒度级就越大。数据的粒度一直是一个设计问题。数据仓库环境中粒度之所以是主要的设计问题,是因为它深深地影响存放在数据仓库中的数据量的大小,同时影响数据仓库所能回答的查询类型。粒度的大小需要数据仓库在设计时在数据量大小与查询的详细程度之间作出权衡。
粒度的双重级别
很多时候,十分需要提高存储与访问数据的效率,以及非常详细地分析数据的能力。当一个企业或组织的数据仓库中拥有大量数据时,在数据仓库的细节部分考虑双重(或多重)粒度级是很有意义的。事实上,需要多个粒度级而不是一个粒度级的需求,是因为粒度级设计采用双重级别应该是几乎每个机构默认的选择。
下图表明了在数据仓库的细节级上的两种粒度级。
我们所称的双重粒度设计,在这个例中的数据仓库体现为两种类型数据:轻度综合数据和“真实档案”细节数据。数据仓库中的数据能回溯十年。从数据仓库中提取的数据是流向电话公司不同地区的“地区”数据,然后各地区独立地分析各自的数据。在个体级上进行各自的启发式分析处理。现在来回答两个问题,什么是轻度综合,什么是“真实档案”?
轻度综合
下图为轻度综合的实际例子
当数据从操作型环境(存储3 0天的数据)载入时,它就被顾客综合成可能用于DSS分析的数据域。J . J o n e s的记录显示她每月打电话的次数、每个电话的平均长度、长途电话的次数、接
线员帮助呼叫的次数,等等。在轻度综合数据库中的数据量比细节数据库中的数据量少得多。当然,在轻度综合级数据库中,对能访问的细节级存在一定的限制。
真实档案
数据仓库中数据的第二层—最低粒度级—存放在数据的真实档案层上,如下图所示
在数据的真实档案层上,存储的所有的细节来自于操作型环境。在这一层上确实有大量的数据。由于数据量太大,因此有必要将数据存放在如磁带这样的介质上。通过在数据仓库的细节级上创建两种粒度级,D S S设计者可一举两得。大部分DSS处理是针对被压缩的、存取效率高的轻度综合级数据进行的。如果什么时候需要分析更低的细节级( 5 %时间或更少的可能),可以到数据的真实档案层。在粒度真实档案层上,访问数据将是昂贵的、麻烦的和复杂的事情,但如果必须进入这一细节级也只得如此。
随着时间的迁移,如果需要开发某种搜索数据的真实档案级的模式,设计者可能要在轻度综合级上创建某些新数据域。
鉴于费用、效率、访问便利和能够回答任何可以回答的查询的能力,数据双重粒度级是大多数机构建造数据仓库细节级的最好选择。只有当一个机构的数据仓库环境中只有相对较少的数据时,才应尝试采用数据粒度的单一级别。
确定粒度级别
确定粒度级别开始时是需要一些常识和直觉的。在很低的细节级上建立轻度汇总的数据级
是没有意义的,因为需要太多的资源来处理数据。而在太高的细节级上建立轻度汇总的数据级,则意味着许多分析必须在真实档案级上进行。因此确定轻度汇总的粒度级的第一件事是进行有根据的猜测。
但进行有根据的猜测也只是一个开端。还需要一定数量的反复分析来改进这个猜测。如下图所示,对于轻度汇总的数据为了确定合适的粒度级别,唯一