1 / 7
文档名称:

数据清洗需求设计V1.1.docx

格式:docx   大小:20KB   页数:7页
下载后只包含 1 个 DOCX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

数据清洗需求设计V1.1.docx

上传人:guoxiachuanyue006 2022/8/19 文件大小:20 KB

下载得到文件列表

数据清洗需求设计V1.1.docx

文档介绍

文档介绍:创作编号:
GB8878185555334563BT9125XW
创作者:凤呜大王*
数据清洗(时间序列数据TSD(timeseriesData)需求设计
DataCleaningModule
DCM应该属于DAX的一个模块。
分布的规律,如果一些占比少的数据存在问题,则可以通过比较其他数量少的数据比例,来做出判断。
及时性Timeliness不同的应用场景对数据的及时性要求不同,在线控制条件下,假如某个关键性的输入数据无法及时获得,会影响后后续的过程控制。在事后分析中,对及时性的要求就大大降低。
合理性Validation
关联性Integration
7)绝对质量
8)过程质量
数据标注的方法
源数据序列ODS
N=Normal正常
U=Unchecked未检验
E=Estimated估计数据
M=Missing丢失数据
生产数据序列PDS
G=Good优质
Estimated估计,包括自动修改及人工修改,标注方法
S=Suspect可疑数据
U=Unchecked未检查
L=Loss丢失数据
M=Manualinput人工输入数据
C=Checkpoint质控检查点(用于和鸿海配合)
衍生时序数据DDS
D=Derived衍生的,这个部分设计请参考测点数据管理(计算任务)
数据标记除了上述表述数据分析结果的项次外,建议还记录标记数据的算法名称、版本、计算时间等。
对时间序列数据整体质量的定义
时间序列数据表现为按照一定频率不断记录的数据,如每秒记录1次的时间序列数据在1小时内会有3600个记录,每分钟记录1次的数据每天会有1440个记录。需要有一种方法整体性的评估某个时间区间内的时间序列数据的整体质量。
例如:某个采集频率为1/min的源数据在10天时间内的整体数据质量,根据自动
检验的方法检验后,结果为:%,%,%,检测率100%;没有经过自动检测的数据,统计标记为未检测。
某个采集频率为1/min的生产序列数据在10天时间内的整体数据质量,根据自动检验的方法检验后,结果为:%,%,%,检测率100%;没有经过自动检测的数据,统计标记为未检测。
根据数据的自动检测情况,可以将源数据或者生产序列数据分类为优质、正常、较差、不可用等类别【这个部分尚需讨论】
在后续的大数据分析中,如果采用了较差、不可用等标记的数据,会极大的影响分析结果,导致错误的结论。
用于在线控制的数据清洗功能
在线数据清洗的基本功能如下:
1)数据清洗任务应该在轮巡任务中,循环一周,该任务就会执行一次。
2)该场景下的数据清洗任务主要是目标是加工生成:生产序列数据。
3)如当前某测点的检测结果生成的数据标记,对应措施如下表:
数据标记
作编号:GB8878185555334563BT9125XW
作者:凤呜大王*
风险
类型
措施
G
采用原值

PDS
E
采用估计值
较小
PDS
S
采用上一个标记为G的原值
较小
PDS
U
不做清洗处理,采用原值

PDS
M


4)每个控制器既可以有自控程序判断启动,也可以由人工启动(S2);
5)当前控