文档介绍:Quiz
Q1 什么是数据挖掘?
Q2 什么是数据挖掘四部曲?
Q3 列举三个常见的数据挖掘类型?
Q4 什么是数据挖掘系统三层的C/S结构?
Q5 什么是人工神经网络?
Q6 数据挖掘生命周期CRISP-DM是什么?
2
数据挖掘
数据挖掘(Data Mining) :又称为数据库中的知识发现( Knowledge discovery from databases (KDD) ),是基于AI、机器学****统计学等技术,高度自动化地分析原有的数据,进行归纳性推理,从数据仓库或数据库中提取可信的、新颖的、有效的、人们感兴趣的、能别人理解的知识的高级处理过程。这些知识是隐含的、事先未知的有用信息,提取的知识表现为概念、规则、模式、规律等形式,以帮助管理者作出正确的决策。
模式:它给出了数据特性或数据之间的关系,是对数据所包含的信息更抽象的描述。模式按功能可以分为预测型模式和描述型模式。在实际应用中,可以细分为关联模式、分类模式、聚类模式和序列模式等。
数据挖掘四部曲
数据挖掘的类型
5
DM系统的体系结构
(1)DW 的步骤:
数据准备:
数据集成
数据选择
预分析
挖掘
表述
评价
(2)DW 系统的结构:
用户界面
结果输出
数据挖掘核心
知识库
数据仓库
数据库
文件系统
其他
数据源
ODBC或其他专用数据库接口
7
生物学方法-神经网络方法
神经网络是人工智能领域的一个重要的分支。采用神经网络设计的系统模拟人脑的结构,而与传统的系统截然不同。由医学可知,人的大脑中有几十亿个大脑细胞(称为神经元),这些神经元通过神经中枢的导电神经纤维互相连接,从而形成一个复杂的脑神经网络。人在学****某一件事的时候,某些神经元的连接得到强化。
在人工神经网络中,用计算机处理单元来模拟人脑的神经元,并将这些处理单元象人脑的神经元那样互相连接起来,构成一个网络。神经网络并非使用编程的方式让计算机去做某项工作,而是采用所谓“训练”的方法让神经网络进行“学****完成某项工作的正确动作,使得神经网络的某些连接或模式得到强化;而错误的动作则使神经网络的相应连接或模式不被强化。从而让神经网络“学会”如何去做这项工作。
CRISP-DM(CRoss-Industry Standard Process for Data Mining)
业务理解(Business Understanding)
数据理解(Data Understanding)
数据准备(Data Preparation)
建模(Modeling)
评估(Evaluation)
实施(Deployment)
Quiz
Q1 什么是有监督学****br/>Q2什么是无监督学****br/>Q3什么是聚类分析?
Q4 什么是什么是一个好的聚类方法?
Q5 什么是S-0-I模型?
Q6 什么是麦肯锡七步法?
什么是聚类分析?
簇(Cluster):一个数据对象的集合
聚类分析
把一个给定的数据对象集合分成不同的簇;
在同一个簇(或类)中,对象之间具有相似性;
不同簇(或类)的对象之间是相异的。
聚类是一种无监督分类法: 没有预先指定的类别;
典型的应用
作为一个独立的分析工具,用于了解数据的分布;
作为其它算法的一个数据预处理步骤;