1 / 12
文档名称:

数据挖掘统计分析操作指引.pdf

格式:pdf   大小:190KB   页数:12页
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

数据挖掘统计分析操作指引.pdf

上传人:贾敬 2022/8/4 文件大小:190 KB

下载得到文件列表

数据挖掘统计分析操作指引.pdf

相关文档

文档介绍

文档介绍:: .
数据挖掘布在不同的数据库中。数据可能分布在公司不同的部门、不同
的应用中,甚至在公司外面的数据库中。
数据合并也整合把来自不同数据源的数据和并到同一个数据挖掘库中,并且
要使那些本来存在冲突和不一致的数据一致化。不恰当的一致化是数据质量问题
的一个主要来源。不同的数据库建在数据定义和使用上通常都存在巨大的差异。
有些不一致问题是容易解决的,但是有些问题并不是很容易解决,但是无论解决
容易与否首先要注意数据整合的正确性和一致性。
6、构建元数据
数据收集报告和数据描述报告是建立元数据的基础。本质上,这是一个描述
数据库的数据库。它用于建立实际的数据库和为分析数据和建立模型提供辅助信
息。
7、加载数据挖掘库
大多数情况下,用于挖掘的数据应该放到他自己独立的数据库中。如果数据
量大并且复杂,那么它通常是一个 RDMS,反之只是一个简单的平面文件即可。
经过前面所有的搜集、整理之后,下载开始把这些数据实际的加载过来。这一步
骤很是复杂,一般要这方面的专家辅助完成。8、维护数据挖掘库
数据挖掘库一旦建好,就需要对他进行维护。需要定期备份;监视他的性能;
不时地增加存储空间或提高性能。对存放在 DBMS 内的复杂的挖掘库来说,维
护他需要计算机专业人员来完成。
这些步骤并不需要一定要按部就班执行,而是应该按需要进行。这一方面我
们一般都有做好的专门应用的数据库,这里不再累书。
三、数据清洗
这是我们建模好坏的非常关键的一个步骤。我们对数据进行分析应从哪几个
步骤入手呢?
当我们有了数据挖掘数据库之后,而对其中的数据进行数据挖掘时我们应该
从哪几个方面入手呢?因为这后面的工作和前面的工作有所不同,前面工作的人
员要求对数据库操作以及计算机方面的知识比较扎实,而后面的部分要求操作人
员对数据分析有较强的分析能力。这样就可能造成一个人很难从头到尾的做完整
个工作。如何对数据进行分析和探索以及建模的问题对非专业的业务人员或其他
应用人员来说都是一个很困惑的事情。现在在这里将这一部分的操作流程作一个
简单的介绍。
首先确定数据挖掘主题的商业理解包括商业目标,成功评价标准,挖掘主
题细分,挖掘模型成功评价标准,术语定义,相关因素的商业定义和物理定义,
资源分析(数据和人力资源)。这些东西已经在一个挖掘分析之前确定好,现在
再拿来重温一下。一方面可能前后工作可能并不是由同一个人做下来,这样可以
提供过程的衔接性。另一方面,再一次强调这部分内容可以减少挖掘工作的盲目
性。
我们用各种方法搜集来的资料,一般是零散的,它只反映个别现象的个别特
征,必须经过整理加工,使之系统化,才能计算统计指标,进行统计分析,为进
一步研究提供有用的信息,虽然我们前面在建立数据挖掘仓库时已经对其进行了
整合与整理,但是那些工作都是针对数据库进行的,是非常的粗糙的。在我们建
立模型前还需对数据进行进一步的清洗、整理、转换、探索分析等工作。
1、获取数据挖掘项目相关方面的业务信息。
比如,做电信方面的项目,要对电信的业务有一定的了解。只有这样才能挖
掘出真正有价值的东西。这一方面的资料可以通过很多途径获得,比如与业务人
员进行沟通等等。
2、数据各字段和各观察量的取值进行了解。
。从而对数据得到一个初步的印象。
这一过程是很重要的,也是很难做的事情。它需要对业务进行了解,同时要
清楚每个字段的实际意义和取值方法以及每个值所代表的含义。这个过程我们可
以通过平时对业务的了解和查看建立数据仓库的“数据描述报告”来了解。
3、数据清理
前面在数据仓库建立的时候已经做了此工作,但这是不完全相同的,前面主
要是针对数据库中各个表之间进行的整合与清洗。脏数据的普遍存在,使得在大
型数据库中维护数据的正确性和一致性成为一个及其困难的任务。在此部分我们
要是对数据各字段进行处理,减少所用数据机械错误的存在,而后对后面工作的
结果产生影响。此过程非常重要,是做好一个模型和整个数据挖掘工作的前提,
不可忽略。
脏数据形成的原因:滥用缩写词、数据输入错误、数据中的内嵌控制信息、
不同的****惯用语(如:ASAP 对“a