文档介绍:数据挖掘概念与技术
第一课
分类
一、数据挖掘及知识的定义
1、 数据挖掘定义:从大量数据中提取或“挖掘”知识;
2、 数据挖掘技术:分类、预测、关联和聚类等;
3、 数据挖掘过程:数据的清理、集成、选择、变换、挖掘、模型评估、知
识表示;
4、 知识定义:知识就是“压缩”一浓缩就是精华!
1) Occam Razor:因不宜超出果之需!
2)
3)
信息论:嫡 H(X) =-工p(x)logp(x)
MDL准则:
minimum description length
终咗L第—课分类
三、SPSS软件及Logistic回归知识预备
1、回归方法分类
r连续型因变量(y)…线性回归分析
一个
因变
量丿
分类型因变量(y) —Logistic回归分析
生存时间因变量(t)…生存风险回归分析
时间序列因变量(t)…时间序列分析
多个因变量
路径分析
结构方程模型分析
分类
三、SPSS软件及Logistic回归知识预备
2、回归方法适用前提
1) 大样本,样本量为自变量个数的20倍左右;
2) 因变量或其数学变换与自变量有线性关系;
3) 扰动项(误差项)符合正态分布;
4) 自变量间不存在诸如多重共线性等关系;
5)误差项方差不变;
等等。
第一课分类
三、SPSS软件及Logistic回归知识预备
3、Logistic回归方法介绍
Logit变换
Logit变换是Logistic回归模型的基础。现实中常要研究某一事件A发生的概率P及P值的大
小与某些影响因此之间的关系,但由于P对X的变化在P = 0或P=1的附近不是很敏感的,或说是缓慢 的,比如像可靠系统, ,即使再改善条件和系统结构,它的可靠度增长也只能 是在小数点后面的笫三位或第四位之后,于是自然希望寻找一个P的函数形式什(P),使它在P = 0或P=1 附近变化幅度较大,且最好函数形式简单,根据数学上导数的意义,提出用 气件反映讯p)是在P附近 的变化是很适合的,同时希望P = ()或P=1时, 驾弹大的值,因此取 晋2 “(1 [肿卩:
&(。)= In P
1- P
第一课
分类
三、SPSS软件及Logistic回归知识预备
3、Logistic回归方法介绍
Logistic回归
设因变量是一个二分类变量,其取值为=1和=0。
影响取值的个自变量分别为…则Logistic变换如
下式表示:
P
皿 口) 一炕 +0N +02/ + …
1
第一课
分类
神经网络与Logistic回归优缺点对比
1、神经网络优缺点
1) 优点:数据类型无要求,高度智能,强“鲁棒”性,可进行非 线性拟合,能容忍缺失值,异常值的出现等;