1 / 86
文档名称:

数据挖掘算法.ppt

格式:ppt   大小:888KB   页数:86页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

数据挖掘算法.ppt

上传人:文库新人 2018/9/11 文件大小:888 KB

下载得到文件列表

数据挖掘算法.ppt

文档介绍

文档介绍:一、概念和术语
数据挖掘/ 知识发现
(1)数据挖掘是从存放在数据集中的大量数据挖掘出有趣知识的过程。
(2)数据挖掘,又称为数据库中知识发现(Knowledge Discovery in Databases)或知识发现,它是一个从大量数据中抽取挖掘出未知的、有价值的模式或规律等知识的非平凡过程,它与数据仓库有着密切的联系。
(3)广义的数据挖掘是指知识发现的全过程;狭义的数据挖掘是指统计分析、机器学****等发现数据模式的智能方法,即偏重于模型和算法。
(4)数据库查询系统和专家系统不是数据挖掘!在小规模数据上的统计分析和机器学****过程也不应算作数据挖掘。
机器学****br/>(1)对于某类任务T和性能度量P,如果一个计算机程序在T上以P衡量的性能随着经验E而自我完善,那么这个计算机程序被称为在从经验E学****br/>(2)机器学****是知识发现的一种方法,是指一个系统通过执行某种过程而改进它处理某一问题的能力。
数据挖掘的对象
(1)关系型数据库、事务型数据库、面向对象的数据库;
(2)数据仓库/ 多维数据库;
(3)空间数据(如地图信息)
(4)工程数据(如建筑、集成电路的信息)
(5)文本和多媒体数据(如文本、图象、音频、视频数据)
(6)时间相关的数据(如历史数据或股票交换数据)
(7)万维网(如半结构化的HTML,结构化的XML以及其他网络信息)
数据挖掘的步骤
(1)数据清理(消除噪音或不一致数据,补缺);
(2)数据集成(多种数据源可以组合在一起);
(3)数据选择(从数据库中提取相关的数据);
(4)数据变换(变换成适合挖掘的形式);
(5)数据挖掘(使用智能方法提取数据模式);
(6)模式评估(识别提供知识的真正有趣模式);
(7)知识表示(可视化和知识表示技术)。
支持数据挖掘的关键技术
(1)数据库/ 数据仓库/ OLAP
(2)数学/ 统计(回归分析:多元回归、自回归;判别分析:Bayes判别、Fisher判别、非参数判别;主成分分析、相关性分析;模糊集;粗糙集)
(3)机器学****聚类分析;关联规则;决策树;范例推理;贝叶斯网络;神经网络;支持向量机;遗传算法)
(4)可视化:将数据、知识和规则转化为图形表现的形式。
数据仓库
(1)数据仓库是一个面向主题的、集成的、随时间变化的、非易失性数据的集合,用于支持管理人员的决策。
(2)数据仓库是一种多个异种数据源在单个站点以统一的模式组织的存储,以支持管理决策。数据仓库技术包括数据清理、数据集成和联机分析处理(OLAP)。
(3)数据仓库的逻辑结构是多维数据库。数据仓库的实际物理结构可以是关系数据存储或多维数据方(Cube)。
(4)数据方是由维度(Dimension)和度量(Measure)定义的一种数据集,度量存放在由维度索引的数据方单元中。维度对应于模式中的属性组,度量对应于与主题相关的事实数据。数据方的物化是指预计算并存储全部或部分单元中的度量。
数据仓库的模型
(1)星形模式:最常见模型;其中数据仓库包括一个大的、包含大批数据、不含冗余的中心表(事实表);一组小的附属表(维表),每维一个。
(2)雪花模式:雪花模式是星型模式的变种,其中某些维表是规范化的,因而把数据进一步分解到附加的表中。
(3)星系模式:多个事实表共享维表。这种模式可以看作星形模式集,因此称为星系模式,或事实星座。
典型的OLAP操作
(1)OLAP是一种多维数据分析技术。包括汇总、合并和聚集等功能,以及从不同的角度观察信息的能力。
(2)上卷:从某一维度的更高概念层次观察数据方,获得更概要的数据。它通过沿维的概念分层向上或维归约来实现。
(3)下钻:下钻是上卷的逆操作。它从某一维度的更低概念层次观察数据方,获得更详细的数据。下钻可以通过沿维的概念分层向下或引入新的维来实现。
(4)切片和切块:切片操作在给定的数据方的选择一个维的部分属性,获得一个较小的子数据方。切块操作通过对选择两个或多个维的部分属性,获得一个较小的子数据方。
(5)转轴:是一种改变数据方二维展现形式的操作。它将数据方的二维展现中的某些维度由行改为列,或由列改为行。
二、数据准备
现实世界的数据是不完整的(有些感兴趣的属性缺少属性值,或仅包含聚集数据),含噪音的(包含错误,或存在偏离期望的异常值),不一致的(例如,用于商品分类的部门编码存在差异)。
需要数据清理、数据集成、数据选择、数据变换等技术对数据进行处理。
维归约/ 特征提取
-1 决策树归约
(1)决策树归约构造一个类似于流程图的结构:其每个非叶子结点表示一个属性上的测试,每个分枝对应于测试的一个输出;每个叶子结点表示一个决策类。
(2)在每个结点,算法选择“当前对分类最有帮助”

最近更新

2022高考志愿填报指南手册 高考志愿填报指南 6页

2023年物理中考总复习阶段测试卷三 (热学)专题.. 8页

531问效法学用5条收获 5页

HR月度工作总结报告5篇 12页

《中学生上网问题及解决办法的研究》结题报告.. 12页

《应用文写作》教学大纲 19页

《父亲名荣芳》的阅读答案 5页

《设计学概论》填空、名词解释、简答考研题型.. 10页

【实验报告】家兔动脉血压的神经体液调节影响.. 9页

一次性使用医用口罩(非无菌)医疗器械安全有效.. 16页

三年级语文下册《阅读理解》练习题(含答案) 10页

专题03 句子排序-2022-2023学年三年级英语上册.. 6页

中华人民共和国招标投标法解读 6页

中学生心理健康访谈记录 12页

中西文化差异对我国跨文化传播的影响及相关策.. 5页

书籍《城南旧事》读书心得体会10篇 12页

五年级科学上生物与环境第7课 设计和制作生态.. 8页

人工智能应用技术基础期末试卷及答案AB卷2套 6页

人教版六年级下册数学小升初模拟试卷二(含答案.. 8页

企业信息管理第二次形考答案 7页

传染病名词解释、简答题、病例分析(含答案) 25页

保险公司车商部工作总结 11页

免疫学基础和病原生物学《病原生物学与免疫学.. 7页

六年级作文我的心愿400字【七篇】 5页

关于施工企业项目成本管理的分析 4页

冀教版四年级数学上册第五单元综合素质达标附.. 7页

分割车间述职报告范文3篇 述职报告 7页

初中物理100个必考知识点 7页

肝功能衰竭HepaticFailure课件 36页

历史文物保护单位的规划与利用——以北海第五.. 6页