1 / 23
文档名称:

第5章_审计数据预处理.ppt

格式:ppt   大小:1,547KB   页数:23页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

第5章_审计数据预处理.ppt

上传人:fy5186fy 2016/8/26 文件大小:1.51 MB

下载得到文件列表

第5章_审计数据预处理.ppt

文档介绍

文档介绍:第五章审计数据预处理第五章第五章审计数据预处理审计数据预处理计算机辅助审计原理及应用计算机辅助审计原理及应用计算机辅助审计原理及应用南京审计学院南京审计学院 2017 年4月 2017 年4月陈伟陈伟 Email: chenweich @ nau . edu . cn Email: chenweich @ nau . edu . cn第五章第五章审计数据预处理审计数据预处理?概述?审计数据预处理理论分析?数据预处理应用实例?数据预处理阶段的数据验证?其它数据预处理方法介绍?数据质量概念及分类?单数据源数据质量问题?多数据源集成时数据质量问题?审计数据质量实例?数据预处理的意义?数据预处理的内容审计数据预处理理论分析审计数据预处理理论分析什么是数据质量呢? 数据质量问题并不仅仅是指数据错误。有的文献把数据质量定义为数据的一致性( consistency )、正确性( correctness )、完整性( completeness )和最小性( minimality )这4个指标在信息系统中得到满足的程度,有的文献则把“适合使用”作为衡量数据质量的初步标准。数据质量的概念数据质量的概念?准确性( Accuracy ) 准确性是指数据源中实际数据值与假定正确数据值的一致程度; ?完整性( Completeness ) 完整性是指数据源中需要数值的字段中无值缺失的程度; ?一致性( Consistency ) 一致性是指数据源中数据对一组约束的满足程度; ?唯一性( Uniqueness ) 唯一性是指数据源中记录以及编码是否唯一; ?适时性( Timeliness ) 适时性是指在所要求的或指定的时间提供一个或多个数据项的程度; ?有效性( Validity ) 有效性是指维护的数据足够严格以满足分类准则的接受要求。评价数据质量的指标评价数据质量的指标数据质量问题分类数据质量问题分类数据质量问题单数据源问题多数据源问题模式级问题缺乏完整性约束、差的模式设计实例级问题数据输入错误模式级问题异构的数据模型和模式设计实例级问题冲突和不一致的数据拼写错误重复的数据冲突的数据命名冲突结构冲突唯一值参照完整性不一致的汇总不一致的时间选择... ... ... ...单数据源数据质量问题单数据源数据质量问题单数据源数据质量问题单数据源数据质量问题当多个数据源集成时,发生在单数据源中的这些问题会更加严重。这是因为每个数据源都是为了特定应用,单独开发、部署和维护的,这就很大程度上导致数据管理系统、数据模型、模式设计和实际数据的不同。每个数据源都可能含有脏数据,多数据源中的数据可能会出现不同表示、重复、冲突等现象。在模式级,模式设计的主要问题是命名冲突和结构冲突。命名冲突主要表现为不同的对象可能使用同一个命名,而同一对象可能使用不同的命名;结构冲突存在很多种不同的情况,一般是指在不同数据源中同一对象有不同表示,如不同的组成结构、不同的数据类型、不同的完整性约束等。多数据源集成时数据质量问题多数据源集成时数据质量问题除了模式级的冲突,很多冲突仅出现在实例级上,即数据冲突。由于不同数据源中数据的表示可能会不同,单数据源中的所有问题都可能会出现,比如重复的记录、冲突的记录等。此外,在整个数据源中,尽管有时不同的数据源中有相同的字段名和类型,仍可能存在不同的数值表示,如对性别的描述,一个数据源中可能用“0/1 ”来描述,另一个数据源中可能会用“F/M ”来描述,或者对一些数值的不同表示,如一个数据源中度量单位制可能用美元,另一个数据源中可能会用欧元。此外,不同数据源中的信息可能表示在不同的聚集级别上,如一个数据源中信息可能指的是每种产品的销售量,而另一个数据源中信息可能指的是每组产品的销售量。多数据源集成时数据质量问题多数据源集成时数据质量问题