文档介绍:: .
图 确定主题和定义数据挖掘任务
首先确定与任务相关的数据,即我想挖掘什么数据集
确定数据挖掘研究的范围,即想挖掘什么类型的知识,什么背
景知识在这里可能有用, 确定主题
保持力控制、风险预测、收益率分析、数据趋势分析、雇员分
析、区域分析、分类、聚类和可视化研究都可作为主题的类
型。 定义数据挖掘任务
1)首先定义与任务相关的数据,即要确定数据选择的条件、
数据分组条件、相关属性或维等。要使得挖掘效率高,可建立
视图进行挖掘,数据仓库可满足这些条件。
2)确定与数据挖掘任务相关的知识类型,即从特征化和判别
式、关联、分类、预测、聚类和演变分析等中找出一种或几种
类型。模式模板,包括元模式(元规则或元查询)可以指导知
识的发现过程。
3)获取一定的背景知识,背景知识是正确的作出概念分层和
用户对数据保持联系。概念分层包括模式分层、集合分组分
层、操作导出的分层和基于规则的分层。
4)度量与数据挖掘任务相关的模式兴趣度:兴趣度度量包括
评估模式的简洁性(如规则长度)、确定性(置信度)、实用
性(支持度)和新颖性。
数据的收集和准备是开展数据挖掘的最大障碍。
数据准备一般包含两方面:
从多种数据源中去综合数据挖掘所需要的数据,保证数据质量的综合
性、易用性和时效性,这有可能要用到数据仓库的思想和技术;
如何从现有数据中衍生出所需要的指标,这主要取决于数据挖掘者的分
析经验和工具的方便性。 数据清理(data cleaning)
数据清理要解决如下的一些问题:
(1)数据质量
(2)冗余数据
(3)过时数据
(4)术语定义的变化
数据清洗将会使数据集产生哪些问题
1)一致性问题
2)失效数据的清洗问题
3)印刷错误的清洗问题
4)数值缺失
5) 数据集成(data integration)
数据集成的关键是获取数据,如访问数据仓库。通过如下几种
方法访问数据:
1)通过基于事务的关系数据库或基于PC的数据库访问数据
2)通过数据转换工具访问数据
3)用查询工具访问数据
4) 数据变换(data transformation)
数据变换就是将数据进行规范化和聚集。
规范化可以改进涉及距离度量的挖掘算法的精度和有效性。常
用的方法有平滑(包括分箱、聚类和回归)来去掉噪声数据;
聚集来对数据进行汇总;数据概化使用高层次概念替换低层次
“原始”数据来进行概念分层;规范化将属性数据按比例缩放,
使之落入一个小的特定区间;属性构造(特征构造)来帮助提
高精度和对高维数据结构的理解。 : .
第5章数据挖掘过程
数据挖掘的方法与基本流程
SEMMA方法
数据挖掘的基本流程
确定主题和定义数据挖掘任务
确定主题
定义数据挖掘任务
数据预处理