1 / 13
文档名称:

数据处理方法、数据处理装置及计算机可读存储介质的制作方法.docx

格式:docx   大小:41KB   页数:13页
下载后只包含 1 个 DOCX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

数据处理方法、数据处理装置及计算机可读存储介质的制作方法.docx

上传人:421989820 2022/6/25 文件大小:41 KB

下载得到文件列表

数据处理方法、数据处理装置及计算机可读存储介质的制作方法.docx

文档介绍

文档介绍:数据处理方法、数据处理装置及计算机可读存储介质的制作方法
专利名称::数据处理方法、数据处理装置及计算机可读存储介质的制作方法
技术领域:
:本发明涉及数据归档(profling)。
背景技术:
:存储的数据集经常包括事先未知各种模块的归档图表。图4为用于说明数据格式类型对象的层级树形图。图5A-C为实施归档图表的调查进行组件、调查分析组件以及采样组件的子图表的示意图。图6为上滚过程的流程图。图7为规范化过程的流程图。图8A-C例示了显示归档结果的用户界面屏幕的输出。图9为不范性的归档过程的流程图。图10为示范性的归档过程的流程图。图IlA-B为对来自两对字段的记录进行的汇合操作的两个范例。图12A-B为对来自两对字段的调查记录进行的调查汇合操作的两个范例。图13为用于对两对字段进行单个调查汇合操作的扩展记录的范例。图14为用于产生扩展记录的扩展组件。图15A-C为用于进行汇合-字段分析的图表。图16为具有函数依赖性关系的字段的范例表格。图17为用于进行函数依赖性分析的图表。具体实施方式I概述参照图1,数据处理系统10包括归档和处理子系统20,其用于处理来自数据源30的数据,更新数据存储子系统40中的元数据存储器112和数据存储器124。然后,所存储的元数据和数据对于使用接口子系统50的用户是可访问的。一般而言,数据源30包括多种独立的数据源,每个数据源具有独有的存储格式和接口(例如,数据库表格、电子数据表(spreadsheet)文件、平面文本文件或主机110使用的固有格式)。各独立的数据源对于归档和处理子系统20可以是本地的,例如,位于相同的计算机系统(例如,文件102),或者对于归档和处理子系统20可以是远端的,例如,位于通过局域或广域数据网访问的远端计算机(例如,主机110)。数据存储子系统40包括数据存储器124和元数据存储器112。元数据存储器112包括与数据源30中的数据相关的信息和关于数据存储器124中的数据的信息。这种信息可包括记录格式和确定这些记录中字段值的有效性的规范(有效性规范)。元数据存储器112可以用于存储关于待归档的数据源30中的数据集的初始信息,以及在归档过程中获得的关于此数据集的信息,和从该数据集获取的数据存储器124中的数据集。数据存储器124可以用于存储已从数据源30读取的、使用从数据归档过程中获取的信息随意转换后的数据。归档和处理子系统20包括归档模块100,其以离散工作元素例如单独记录为单位直接从数据源读取数据,而不必在归档之前装载(landing)数据的完整副本至存储介质。一般地,一个记录与一组数据字段相关联,并且对于每个记录,每个字段具有特定值(可能包括零值)。数据源中的记录可以具有固定的记录结构,即,每个记录包括相同的字段。可替换地,记录可以具有可变记录结构,例如,包括可变长度矢量或条件字段。在可变记录结构的情况下,处理记录,不必在归档前存储数据的“展平(flattened^S卩,固定的记录结构)副本即可处理记录。首先,当从数据源读取数据时,归档模块100—般利用关于数据源中的记录的某些初始格式信息启动。(注意,在某些情况下,甚至不知道数据源的记录结构)。关于记录的初始信息可包括表示相异值(例如,16位(=2字节))的位数;值(包括与记录字段相关联的值和与标志符或分隔符相关联的值)的顺序;以及由位表示的值的类型(例如,串、带符号/不带符号的整数)。此关于数据源的记录的信息在元数据存储器112所存储的数据操纵语言(DML)文件中说明。归档模块100可以使用预定义的DML文件,来自动说明来自各种通用数据系统格式(例如,SQL表格、XML文件、CSV文件)的数据,或使用从元数据存储器112获得的DML文件描述定制化的数据系统格式。部分地,可能不精确地,在归档模块100初始读取数据之前,归档和处理子系统20可以得到关于数据源的记录的初始信息。例如,与数据源相关联的副本簿(copybook)可以作为存储的数据114得到,或者由用户118通过用户接口116输入得到。这种已有信息由元数据输入模块115处理并存储在元数据存储器112中和/或用于定义访问数据源时使用的DML文件。当归档模块100从数据源读取记录时,其计算统计数字和反映数据集内容的其他描述性信息。然后,归档模块100将这些统计数字和描述性信息以“归档”的形式写入到元数据存储器112中,然后,通过用户接口116或其他任何可以访问元数据存储器112的模块来检查元数据存储器112。归档中的统计数字优选包括每个字段中的值的直方图、最大值、最小值及平均值,最小公共值和最大公共值的采样。通过读取数据源所获得的统计数字可以用于各种用途。这些用途包括发现不熟悉数据集的内容、建立与数据集相关联的元数据的集合、在购买或使用之前检查第三方数据,