文档介绍:QuizQ1什么是数据挖掘?Q2什么是数据挖掘四部曲?Q3列举三个常见的数据挖掘类型?Q4什么是数据挖掘系统三层的C/S结构?Q5什么是人工神经网络? Q6数据挖掘生命周期CRISP-DM是什么?2数据挖掘数据挖掘(DataMining):又称为数据库中的知识发现(Knowledgediscoveryfromdatabases(KDD)),是基于AI、机器学习、统计学等技术,高度自动化地分析原有的数据,进行归纳性推理,从数据仓库或数据库中提取可信的、新颖的、有效的、人们感兴趣的、能别人理解的知识的高级处理过程。这些知识是隐含的、事先未知的有用信息,提取的知识表现为概念、规则、模式、规律等形式,以帮助管理者作出正确的决策。模式:它给出了数据特性或数据之间的关系,是对数据所包含的信息更抽象的描述。模式按功能可以分为预测型模式和描述型模式。在实际应用中,可以细分为关联模式、分类模式、聚类模式和序列模式等。数据挖掘四部曲数据挖掘的类型5DM系统的体系结构(1)DW的步骤:数据准备:数据集成数据选择预分析挖掘表述评价(2)DW系统的结构:用户界面结果输出数据挖掘核心知识库数据仓库数据库文件系统其他数据源ODBC或其他专用数据库接口6数据挖掘常用技术生物学方法人工神经网络遗传算法信息论方法决策树集合论方法约略集模糊集最邻近技术统计学方法可视化技术7生物学方法-神经网络方法神经网络是人工智能领域的一个重要的分支。采用神经网络设计的系统模拟人脑的结构,而与传统的系统截然不同。由医学可知,人的大脑中有几十亿个大脑细胞(称为神经元),这些神经元通过神经中枢的导电神经纤维互相连接,从而形成一个复杂的脑神经网络。人在学习某一件事的时候,某些神经元的连接得到强化。在人工神经网络中,用计算机处理单元来模拟人脑的神经元,并将这些处理单元象人脑的神经元那样互相连接起来,构成一个网络。神经网络并非使用编程的方式让计算机去做某项工作,而是采用所谓“训练”的方法让神经网络进行“学习”。完成某项工作的正确动作,使得神经网络的某些连接或模式得到强化;而错误的动作则使神经网络的相应连接或模式不被强化。从而让神经网络“学会”如何去做这项工作。CRISP-DM(CRoss-IndustryStandardProcessforDataMining)业务理解(BusinessUnderstanding)数据理解(DataUnderstanding)数据准备(DataPreparation)建模(Modeling)评估(Evaluation)实施(Deployment)QuizQ1什么是有监督学习?Q2什么是无监督学习?Q3什么是聚类分析?Q4什么是什么是一个好的聚类方法?Q5什么是S-0-I模型? Q6什么是麦肯锡七步法?什么是聚类分析?簇(Cluster):一个数据对象的集合聚类分析把一个给定的数据对象集合分成不同的簇;在同一个簇(或类)中,对象之间具有相似性;不同簇(或类)的对象之间是相异的。聚类是一种无监督分类法:没有预先指定的类别;典型的应用作为一个独立的分析工具,用于了解数据的分布;作为其它算法的一个数据预处理步骤;