文档介绍:文 档 名
单数据源数据质量问题
当多个数据源集成时,发生在单数据源中的这些问题会更加严重。这是因为每个数据源都是为了特定应用,单独开发、部署和维护的,这就很大程度上导致数据管理系统、数据模型、模式设计和实际数
文 档 名
单数据源数据质量问题
当多个数据源集成时,发生在单数据源中的这些问题会更加严重。这是因为每个数据源都是为了特定应用,单独开发、部署和维护的,这就很大程度上导致数据管理系统、数据模型、模式设计和实际数据的不同。每个数据源都可能含有脏数据,多数据源中的数据可能会出现不同表示、重复、冲突等现象。
在模式级,模式设计的主要问题是命名冲突和结构冲突。命名冲突主要表现为不同的对象可能使用同一个命名,而同一对象可能使用不同的命名;结构冲突存在很多种不同的情况,一般是指在不同数据源中同一对象有不同表示,如不同的组成结构、不同的数据类型、不同的完整性约束等。
多数据源集成时数据质量问题
除了模式级的冲突,很多冲突仅出现在实例级上,即数据冲突。由于不同数据源中数据的表示可能会不同,单数据源中的所有问题都可能会出现,比如重复的记录、冲突的记录等。此外,在整个数据源中,尽管有时不同的数据源中有相同的字段名和类型,仍可能存在不同的数值表示,如对性别的描述,一个数据源中可能用“0/1”来描述,另一个数据源中可能会用“F/M”来描述,或者对一些数值的不同表示,如一个数据源中度量单位制可能用美元,另一个数据源中可能会用欧元。此外,不同数据源中的信息可能表示在不同的聚集级别上,如一个数据源中信息可能指的是每种产品的销售量,而另一个数据源中信息可能指的是每组产品的销售量。
多数据源集成时数据质量问题
不完整数据
不完整数据
不一致的数据
不正确的数据
重复的数据
为下一步的审计数据分析提供准备
帮助发现隐含的审计线索
降低审计风险
数据预处理的意义
数据转换
数据清理
数据预处理的内容
数据预处理的内容
采用Access
采用AO
数据预处理应用实例
(1)确信数据预处理的目标实现
(2)确认数据预处理工作没有损害数据的完整性、正确性
数据预处理阶段的数据验证
不完整数据的清理
相似重复记录的清理
其它数据预处理方法
思考题
为什么要对被审计数据进行数据预处理?
什么是数据质量?
评价数据质量的主要指标有哪些?
感谢您的关注