1 / 20
文档名称:

《数据仓库与数据挖掘技术》第5章:数据挖掘过程.pdf

格式:pdf   大小:167KB   页数:20页
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

《数据仓库与数据挖掘技术》第5章:数据挖掘过程.pdf

上传人:tiros009 2022/7/16 文件大小:167 KB

下载得到文件列表

《数据仓库与数据挖掘技术》第5章:数据挖掘过程.pdf

文档介绍

文档介绍:: .
图 确定主题和定义数据挖掘任务
 首先确定与任务相关的数据,即我想挖掘什么数据集
 确定数据挖掘研究的范围,即想挖掘什么类型的知识,什么背
景知识在这里可能有用, 确定主题
 保持力控制、风险预测、收益率分析、数据趋势分析、雇员分
析、区域分析、分类、聚类和可视化研究都可作为主题的类
型。 定义数据挖掘任务
 1)首先定义与任务相关的数据,即要确定数据选择的条件、
数据分组条件、相关属性或维等。要使得挖掘效率高,可建立
视图进行挖掘,数据仓库可满足这些条件。
 2)确定与数据挖掘任务相关的知识类型,即从特征化和判别
式、关联、分类、预测、聚类和演变分析等中找出一种或几种
类型。模式模板,包括元模式(元规则或元查询)可以指导知
识的发现过程。
 3)获取一定的背景知识,背景知识是正确的作出概念分层和
用户对数据保持联系。概念分层包括模式分层、集合分组分
层、操作导出的分层和基于规则的分层。
 4)度量与数据挖掘任务相关的模式兴趣度:兴趣度度量包括
评估模式的简洁性(如规则长度)、确定性(置信度)、实用
性(支持度)和新颖性。
 数据的收集和准备是开展数据挖掘的最大障碍。
 数据准备一般包含两方面:
 从多种数据源中去综合数据挖掘所需要的数据,保证数据质量的综合
性、易用性和时效性,这有可能要用到数据仓库的思想和技术;
 如何从现有数据中衍生出所需要的指标,这主要取决于数据挖掘者的分
析经验和工具的方便性。 数据清理(data cleaning)
 数据清理要解决如下的一些问题:
 (1)数据质量
 (2)冗余数据
 (3)过时数据
 (4)术语定义的变化
 数据清洗将会使数据集产生哪些问题
 1)一致性问题
 2)失效数据的清洗问题
 3)印刷错误的清洗问题
 4)数值缺失
 5) 数据集成(data integration)
 数据集成的关键是获取数据,如访问数据仓库。通过如下几种
方法访问数据:
 1)通过基于事务的关系数据库或基于PC的数据库访问数据
 2)通过数据转换工具访问数据
 3)用查询工具访问数据
 4) 数据变换(data transformation)
 数据变换就是将数据进行规范化和聚集。
 规范化可以改进涉及距离度量的挖掘算法的精度和有效性。常
用的方法有平滑(包括分箱、聚类和回归)来去掉噪声数据;
 聚集来对数据进行汇总;数据概化使用高层次概念替换低层次
“原始”数据来进行概念分层;规范化将属性数据按比例缩放,
使之落入一个小的特定区间;属性构造(特征构造)来帮助提
高精度和对高维数据结构的理解。 : .
第5章数据挖掘过程
 数据挖掘的方法与基本流程
 SEMMA方法
 数据挖掘的基本流程
 确定主题和定义数据挖掘任务
 确定主题
 定义数据挖掘任务
 数据预处理