文档介绍:计 算 机 工 程 2008 年 6 月
第 34 卷 第 11 期 根据采样数据分析,可以得出金融机构数据的 3 个特点:
提出压缩数据库技术[1−4]来提高海量数据的存储效率和数据 (1)纯文本字符,数据分散,不是单个大文件,数据项是大量
库性能[3-4]。目前对压缩数据库技术的研究主要包括适应于数 最大长度为 80 B 的中文字符串;(2)各个数据项内部重复很
据库存取特征的数据压缩方法、压缩数据上的操作算法、压 少,每个数据项的存储空间固定为 40 B,因此,要求数据项
缩数据库的查询优化技术等。本文研究了压缩数据上的操作 压缩率超过 50%;(3)数据项间存在大量重复性字段,以“公
算法。 司名称”字段为例,数据库中保存了大量公司名称,公司名
在海量关系中常存在一些属性,关系在这些属性上的投 称很少重复,但数据项中“有限”、“股份”、“责任”、
影结果很小,称这样的属性组为小值域属性组(Small-Range “公司”等词出现频率极高。
Attributes Combination, SRAC)[5]。在银行等金融领域,SRAC 根据上述特点,以哈夫曼编码为基本编码方式,对出现
情况更普遍,例如在银行的交易管理数据库中有一个记录公 概率大的中文字符编以短字长的码,对出现概率小的信息符
司收/发账目情况的关系,包括公司名、账户号、操作员号、 号编以长字长的码。根据哈夫曼编码原理,若码字长度严格
现金数、汇率、利息等诸多属性值,在这个关系中,由公司 按符号概率大小的相反顺序排列,则平均码字长必小于按任
名、账户号、收账人标识、发账人标识等属性构成 1 个SRAC。 何其他符号顺序排列方式得到的码字长度,因此,本文根据
SRAC通常是数据关系中的键值表示,大部分查询、修改、删 采样,构造一个哈夫曼树。因为采样数据量大,所以可认为
除等数据库操作均与这些属性相关。如