1 / 20
文档名称:

《数据仓库与数据挖掘技术》第5章:数据挖掘过程.pdf

格式:pdf   大小:167KB   页数:20页
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

《数据仓库与数据挖掘技术》第5章:数据挖掘过程.pdf

上传人:tiros009 2022/7/10 文件大小:167 KB

下载得到文件列表

《数据仓库与数据挖掘技术》第5章:数据挖掘过程.pdf

相关文档

文档介绍

文档介绍:: .
图 确定主题和定义数据挖掘任务
 首先确定与任务相关的数据,即我想挖掘什么数据集
 确定数据挖掘研究的范围,即想挖掘什么类型的知识,什么背
景知识在这里可能有用, 确定主题
 保持力控制、风险预测、收益率分析、数据趋势分析、雇员分
析、区域分析、分类、聚类和可视化研究都可作为主题的类
型。 定义数据挖掘任务
 1)首先定义与任务相关的数据,即要确定数据选择的条件、
数据分组条件、相关属性或维等。要使得挖掘效率高,可建立
视图进行挖掘,数据仓库可满足这些条件。
 2)确定与数据挖掘任务相关的知识类型,即从特征化和判别
式、关联、分类、预测、聚类和演变分析等中找出一种或几种
类型。模式模板,包括元模式(元规则或元查询)可以指导知
识的发现过程。
 3)获取一定的背景知识,背景知识是正确的作出概念分层和
用户对数据保持联系。概念分层包括模式分层、集合分组分
层、操作导出的分层和基于规则的分层。
 4)度量与数据挖掘任务相关的模式兴趣度:兴趣度度量包括
评估模式的简洁性(如规则长度)、确定性(置信度)、实用
性(支持度)和新颖性。
 数据的收集和准备是开展数据挖掘的最大障碍。
 数据准备一般包含两方面:
 从多种数据源中去综合数据挖掘所需要的数据,保证数据质量的综合
性、易用性和时效性,这有可能要用到数据仓库的思想和技术;
 如何从现有数据中衍生出所需要的指标,这主要取决于数据挖掘者的分
析经验和工具的方便性。 数据清理(data cleaning)
 数据清理要解决如下的一些问题:
 (1)数据质量
 (2)冗余数据
 (3)过时数据
 (4)术语定义的变化
 数据清洗将会使数据集产生哪些问题
 1)一致性问题
 2)失效数据的清洗问题
 3)印刷错误的清洗问题
 4)数值缺失
 5) 数据集成(data integration)
 数据集成的关键是获取数据,如访问数据仓库。通过如下几种
方法访问数据:
 1)通过基于事务的关系数据库或基于PC的数据库访问数据
 2)通过数据转换工具访问数据
 3)用查询工具访问数据
 4) 数据变换(data transformation)
 数据变换就是将数据进行规范化和聚集。
 规范化可以改进涉及距离度量的挖掘算法的精度和有效性。常
用的方法有平滑(包括分箱、聚类和回归)来去掉噪声数据;
 聚集来对数据进行汇总;数据概化使用高层次概念替换低层次
“原始”数据来进行概念分层;规范化将属性数据按比例缩放,
使之落入一个小的特定区间;属性构造(特征构造)来帮助提
高精度和对高维数据结构的理解。 : .
第5章数据挖掘过程
 数据挖掘的方法与基本流程
 SEMMA方法
 数据挖掘的基本流程
 确定主题和定义数据挖掘任务
 确定主题
 定义数据挖掘任务
 数据预处理

最近更新

初中物理 第2节核能教学设计学情分析教材分析.. 6页

危险化学品安全管理条例内容 38页

外研版英语五年级下册第九单元检测卷及答案(2.. 11页

小学六年级数学《圆柱的认识》说课稿 22页

工程造价鉴定申请书 9页

建筑工程施工技术资料手册范本 327页

数学五年级说课稿《平行四边形面积》(共2篇) 16页

普速线路成组更换道岔施工组织方案探讨 8页

毕业论文答辩演讲稿(精选13篇) 19页

端口+STP+VRRP基础知识及典型组网实例分析 73页

生产经营单位安全生产事故应急救援预案编制导.. 17页

继电保护实训心得3篇 7页

药物化学形考册-答案(系统下载) 18页

质量控制的目标,方法和措施 21页

配电线路及电气装置 24页

(中职)《汽车电气设备构造与维修》AB卷模拟试.. 6页

人教版英语教材分析 14页

挡土墙工程专项施工方案 12页

沪科版八年级物理下册第9-10章达标测试卷附答.. 17页

统编湘教版高中必修第二册《第一节 交通运输与.. 9页

仁爱版九年级英语下单词表 5页

人事管理信息系统 20页

《温度不同的物体相互接触导学案-2023-2024学.. 5页

口算天天练100题打印 16页

房屋交房委托书 3页

个人用电开户申请书 4页

海姆立克急救技术考核评分 1页

最新TSG-D0001-2022压力管道安全技术监察规程.. 43页

一对一就业指导谈话记录(学院)(精) 1页

立磨安装施工方案 13页