1 / 7
文档名称:

数据清洗需求设计(共6页).docx

格式:docx   大小:24KB   页数:7页
下载后只包含 1 个 DOCX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

数据清洗需求设计(共6页).docx

上传人:bb21547 2022/3/30 文件大小:24 KB

下载得到文件列表

数据清洗需求设计(共6页).docx

文档介绍

文档介绍:精选优质文档-----倾情为你奉上
精选优质文档-----倾情为你奉上
专心---专注---专业
专心---专注---专业
精选优质文档-----倾情为你奉上
专心---专注---专业
数据清洗(时间序列数据TSD(time s不仅仅只是规则上的不一致。最为常见的数据准确性错误就如乱码。其次,异常的大或者小的数据也是不符合条件的数据。
一般而言,仅仅靠一些简单规则无法判断数据的准确性,通常会借助人工或自动系统的检验,或者在检测过程中增加一些标准样的测量。比较特定样品的检测值就可以判断该批次检测的数据质量。
数据质量的准确性可能存在于个别记录,也可能存在于整个数据集,例如数量级记录错误。这类错误则可以使用多种方法去审核。
一般数据都符合正态分布的规律,如果一些占比少的数据存在问题,则可以通过比较其他数量少的数据比例,来做出判断。
及时性 Timeliness
不同的应用场景对数据的及时性要求不同,在线控制条件下,假如某个关键性的输入数据无法及时获得,会影响后后续的过程控制。在事后分析中,对及时性的要求就大大降低。
合理性 Validation
关联性 Integration
绝对质量
过程质量
数据标注的方法
源数据序列ODS
N = Normal 正常
U = Unchecked 未检验
E = Estimated 估计数据
M = Missing 丢失数据
精选优质文档-----倾情为你奉上
精选优质文档-----倾情为你奉上
专心---专注---专业
专心---专注---专业
精选优质文档-----倾情为你奉上
专心---专注---专业
生产数据序列 PDS
G = Good 优质
E = Estimated 估计,包括自动修改及人工修改,标注方法
S = Suspect 可疑数据
U = Unchecked 未检查
L = Loss 丢失数据
M = Manual input 人工输入数据
C = CheckPoint 质控检查点(用于和鸿海配合)
衍生时序数据 DDS
D = Derived 衍生的,这个部分设计请参考测点数据管理(计算任务)
数据标记除了上述表述数据分析结果的项次外,建议还记录标记数据的算法名称、版本、计算时间等。
对时间序列数据整体质量的定义
时间序列数据表现为按照一定频率不断记录的数据,如每秒记录1次的时间序列数据在1小时内会有3600个记录,每分钟记录1次的数据每天会有1440个记录。需要有一种方法整体性的评估某个时间区间内的时间序列数据的整体质量。
例如:某个采集频率为1/min的源数据在10天时间内的整体数据质量,根据自动检验的方法检验后,结果为:%,%,%,检测率100%;没有经过自动检测的数据,统计标记为未检测。
某个采集频率为1/min的生产序列数据在10天时间内的整体数据质量,根据自动检验的方法检验后,结果为:%,%,% ,检测率100%;没有经过自动检测的数据,统计标记为未检测。
根据数据的自动