1 / 6
文档名称:

数据压缩的方法和装置的制作方法.docx

格式:docx   大小:25KB   页数:6页
下载后只包含 1 个 DOCX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

数据压缩的方法和装置的制作方法.docx

上传人:421989820 2022/6/25 文件大小:25 KB

下载得到文件列表

数据压缩的方法和装置的制作方法.docx

文档介绍

文档介绍:数据压缩的方法和装置的制作方法
专利名称:数据压缩的方法和装置的制作方法
技术领域:
本发明实施例涉及数据存储领域,并且更具体地,涉及数据压缩的方法和装置。
背景技术:
经过多年的系统建设和优化完善,电信领域经营分析系统已经建立了示意图。图4A和图4B是本发明实施例的数据压缩的装置的示意框图。图5是本发明实施例的一个应用场景的原始数据。图6是图5的原始数据进行用于数据相似性检测的数字指纹算法后的数据。
具体实施例方式下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。现有技术中主流的关系型数据库基本采用行方式存储数据,压缩的方法为通过顺序扫描整个表,找到重复的字符和字符串后,将上述字符和字符串存储在一个压缩字典中,然后用一个存储在字典中对应数据字符串的替代符号来替代表中的实际数据,从而达到了压缩数据的目的。由于顺序扫描的数据行中的数据重复程度不高,导致数据无法获得较高压缩率。此外,因为无有效手段判断数据行之间的数据相似性和重复分布,从而无法将相似数据保存到同一个块中,以提升压缩比。进一步地,按行存储的模式,对低基数列和上述提及的电信领域特有的近线数据无法实现高压缩比。上述低基数列是指该列中只有很少的可选取值,比如性别属性中的可选取值包括男、女和未知。列式数据库常用的提高压缩比的方法为利用列数据库架构优势,按数据类型特点压缩,如按照基数的聚合度范围,建立搜索(英文为lookup)表,动态优化不同基数聚合度的压缩比;直接采用位图索引(英文为bitmap index)表达列值,同时提高扫描效率和压缩存储效率。基数聚合度定义指在该列上取值的可能的个数,在一定的范围内呈现出的聚 合规律。如在一段数据中,一列数据只出现3种可选值红、蓝和绿,则lookup表可用单字节编码,起到压缩作用。位图索引主要针对低基数列。针对每一个可选值,如性别属性,可选值“男”的位图索引可以表示为〃010111",每一位比特值为I时代表〃是〃,为O时代表“否”。列式数据库可以直接将低基数列使用位图索引表示,因此能提高扫描效率和压缩率。列式数据库由于架构上的特点,在数据压缩和扫描性能上有优势,但针对电信领域中具有近线数据的特点1、3和4的数据无法对行间存在的重复数据进行有效去重。因此,仅从通用性角度出发,未能从重复数据的检测方面进一步提升压缩比。本发明中“数据块的压缩进程”表明了在本发明中使用了主控模块为每一个数据块分配压缩进程方式,但这并不是唯一方式,本发明还可以采用多个数据块共用一个压缩进程的方式。本发明实施例提供了一种数据压缩的方法,能够提高数据压缩的压缩比。图I是本发明实施例的数据压缩的方法10的示意流程图。方法10包括以下内容。11,根据原始数据生成用于数据相似性检测的数字指纹;。12,根据所述数字指纹确定与所述原始数据具有数据相似性的数据块,将所述原始数据路由到确定的数据块的压缩进程。13,执行所述确定的数据块的压缩进程,完成原始数据的压缩;本发明实施例中可以利用数据生成的数字指纹的数据相似性,将数据压缩到指定的数据块,从而提高数据压缩的压缩比。可选的,所述根据所述