文档介绍：数据挖掘方法概述一、主要概念 1二、主要方法概述 11、神经网络方法概述 12、聚类方法概述 93、主成分分析 144、决策树概述 175、关联分析 216、遗传算法概述 23一、主要概念1、数据挖掘(datamining,简记DM):采取专门算法对数据库中潜在的、不明显的数据关系进行分析与建模。2、CRISP-DM(CRoss-IndustryStandardProcessforDataMining):各企业中被广泛采用的数据挖掘标准流程。包括6个步骤:商业理解、数据理解、数据准备、模型建立、结果评估、应用部署。3、Clementine:SPSS公司推出的企业级数据挖掘软件产品,其包括的数据挖掘主要方法为:神经网络、聚类分析、主因子分析、决策树分析、关联分析、回归分析。二、主要方法概述1、神经网络方法概述主要问题:(1)什么是神经网络?(2)神经网络有什么用?(3)如何建立神经网络?(4)如何应用神经网络?(1)人工神经网络“人工神经网络”(WORK,.)是基于模仿大脑神经网络结构和功能而建立的一种信息处理系统。神经网络在一定学****规则下,对提供的学****样本进行学****从中获取特征信息,并存储(记忆)在相应的权值及参数上。学****后,对于新的输入数据,网络可通过已获取的权值及参数,计算网络的输出。神经网络具有高度的非线性、容错性与自学****自适应更新等功能,能够进行复杂的逻辑操作和非线性关系实现。目前神经网络模型在辅助管理与决策中,应用广泛。(2)神经网络的作用已证明结论:对于函数,在满足一定条件下,可以找到函数和实常数和,构造函数:使对于任意小的,满足(3)简单神经网络模型(感知机模型)的建立问题引入:设想对购买手机的顾客制定销售方案,用购买量与购买频率两个指标来判别,即:购买量大,购买频率大,则给予优惠折扣;购买量大,购买频率小,则给予优惠折扣;购买量小,购买频率大,则给予优惠折扣;购买量小,购买频率小,则不给予优惠折扣问题:这样的销售方案判别是否可以建立模型表示?设想:分别对购买量、购买频率以及是否优惠的两种取值定义为1,0,则上述四种方案可以用四个样本表示,设每一样本具有两个评价指标X1,X2,一个评价结果Y:样本号X1,X2Y11112**********构造两个输入节点、一个输出节点、二层结构的神经网络模型:(*)O1=f(xj取值1或0,w1j(j=1,2)待求作用函数:f(x)=1x>00x≤0结构:X1○W11X1○YX2○W12X2学****样本:(x1(k),x2(k),Y1(k)),k是样本数,k=1,2,3,4关键问题:如何获取模型(*)中的权数w1j,使计算结果与样本的评价结果的误差最小?计算w1j方法:随机赋予w1j初始值,通过对每一样本的学****获取计算结果与样本评价结果的误差,修正w1j的取值,使经过一定次数的学****后,总误差能达到期望值,此时修正得到的w1j就是所要获取的权数,即设δ(k)=∣Yk-Ok∣,Yk是第k个样本评价结果(称期望输出或实际输出),Ok是计算结果。通过第k个样本的输出误差修正权数的公式为:(k+1)=(k)+△(k),△=αδ(k)Xj其中,α>0,α称收敛因子。第k个样本的误差为:误差ek=|δ(k)|,总误差E(k)=E(k-1)+ek计算过程:1)设α=1,随机赋予w1j的初始值为0,即w11(k=1)=0,w12(k=1)=02)对第一个样本进行学****把X1=1,X2=1代入(*),有O=f(w11×X1+w12×X2)=f(0×1+0×1)=f(0)=0δ(k=1)=∣Yk-Ok∣=1修正权数:△w1j=αδ(k)Xj△=δ(k=1)X1=1×1=1△w12=δ(k=1)X2=1×1=1(k=2)=(k=1)+△=0+1=1,w12(k=2)=w12(k=1)+△w12=0+1=1总误差E(K=1)=E(K=0)+ek=0+δ(k=1)=13)对第2个样本:X1=1,X2=0,O=f(1×1+1×0)=f(1)=1δ(k=2)=∣Yk-Ok∣=0修正权数:△w1j=αδ(k)Xj△=δ(k=2)X1=0×1=0△w12=δ(k=2)X2=0×0=0(k=2)=(k=1)+△=1+0=1,w12(k=2)=w12(k=1)+△w12=1+0=1总误差E(K=2)=E(K=1)+ek=1+δ(k=2)=14)对于获取的权数=1,w12=1,有对第3个样本:X1=0,X2=1,O=f(1×0+1×1)=f(1)=1=Y对第4个样本:X1=0,X2=0,O=f(1×0+1×0)=f(0)=0=Y5)结论:=1,w12=1是使计算结果与样本的评价结果误差最小的权数。将=1,w12=代入模型(*),则模型建立完毕。可以利用这个建立的模型,对任一组输入的X1,X2,在未知其输