文档介绍:文档名
Those who adhere to the principles of wisdom, have right attitudes, and true to their words and discharge their dut 任务
数据挖掘任务以及工具
-分类:
k-最近邻点,简单贝叶斯(Naïve Bayes),分类树,判别分析,Logistic回归,神经网络,支持向量机
-预测:
回归,神经网络,时间序列
-关联法则:
关联分析
-数据精简:
主成分分析、相关分析、粗糙集
-探索性分析
聚类分析
*
一 数据挖掘介绍 数据挖掘步骤
把数据划分为
训练数据和验证数据
两个部分
只用训练数据
训练模型
得到结果,看一下
结果是否令人满意
检查在验证数据上的
结果是否也令人满意
研究在验证数据
上的各种输出结果
尝试几种备择模型
选择和部署
最佳模型
二 数据挖掘算法思想和应用 决策树
几何思想:把预测变量空间划分为多个多维空间的“长方形”,每一个“长方形”对应一个类别。
*
*
二 数据挖掘算法思想和应用 决策树
*
二 数据挖掘算法思想和应用 决策树
Iris花
*
例如:输入变量有X1,X2,…,Xk, 输出变量y有3个类别y1,y2,y3.
假定所有的输入变量和输出变量都是随机变量。假定在每一个输出类别上输入变量相互独立。
针对每一个观测记录,计算给定输入变量值时输出变量等于每一个类别的条件概率。在某一个类别上的条件概率最大,该观测记录就划为某一类。
对每一个观测记录计算:
P(Y=y1|X1=x1,X2=x2,…,Xk=xk)
P(Y=y2|X1=x1,X2=x2,…,Xk=xk)
P(Y=y3|X1=x1,X2=x2,…,Xk=xk)
*
二 数据挖掘算法思想和应用 简单贝叶斯分类思想
*
二 数据挖掘算法思想和应用 简单贝叶斯
输出变量只有2个类别,即:1和0
对每一个观测记录的输入变量,计算其输出变量等于1的概率。该概率是输入变量某线性组合的单调函数。
当该概率大于某个值时划分到一个类;否则划分到另一个类。
*
二 数据挖掘算法思想和应用 Logistic回归
*
二 数据挖掘算法思想和应用 Logistic回归
Logistic 回归模型
拟和的P
贝叶斯判别
fisher判别函数分类思想:
在输入变量空间中找一条直线,使得几个输出类别在这条直线上的投影尽可能地分开。
*
二 数据挖掘算法思想和应用 判别分析
*
二 数据挖掘算法思想和应用 判别分析
假定K=3
对数据集合中的每一个点,检查它在预测变量空间中最邻近的3个点,如果这3个邻居中的大多数都属于某一个类别,那么该点就属于此类别。
-这是“民主投票方式”的分类法
*
二 数据挖掘算法思想和应用 k最近邻点
*
二 数据挖掘算法思想和应用 k最近邻点
人类的大脑估计有一百亿个神经元,每一个神经元平均和其它10,000个神经元相连接。神经元通过神经突触接收信号,神经突触控制着信号的反应。这些神经突触的网络连接被认为在大脑活动中起着关键作用。
人工神经网络的灵感来源于科学家对大脑行为研究的生理发现。
*
二 数据挖掘算法思想和应用 神经网络
*
二 数据挖掘算法思想和应用 神经网络
*
二 数据挖掘算法思想和应用 神经网络
思想:找到一条直线(或者多维空间的超平面)
,使得数据集合的点到该直线的竖直距离平方和
最小
二 数据挖掘算法思想和应用 多元线性回归
思想:在保证数据信息丢失不多的情况下,把高维空间的数据投影到低维空间。目的是除掉变量之间包含信息的冗余、并降低数据的维数。
*
二 数据挖掘算法思想和应用 主成分分析
*
二 数据挖掘算法思想和应用 主成分分析
聚类分析的目的是根据对象几种属性的测量值组成相似对象的几个集合。关键的思想是把数据以一种有利于进行分析的方式归类。
*
二 数据挖掘算法思想和应用 聚类分析
*
X
Y
k1
k3
二 数据挖掘算法思想和应用 聚类分析
*
二 数据挖掘算法思想和应用 聚类分析