1 / 99
文档名称:

R数据挖掘实例.pptx

格式:pptx   大小:1,344KB   页数:99页
下载后只包含 1 个 PPTX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

R数据挖掘实例.pptx

上传人:aluyuw1 2022/6/10 文件大小:1.31 MB

下载得到文件列表

R数据挖掘实例.pptx

相关文档

文档介绍

文档介绍:Crime&Shock数据集分析展示
探索性数据分析
Communities and Crime Unnormalized Data Set (Data source)
2
一、数据预处理
#导入crime数据,修eturn=T)$ix[1:20]]
注:红线标注的为
两个模型中都非常
不显著变量
(pvalue>)
Linear Regression
for(i in 1:5)
{=(crim1[dd[[i]],])
=(crim1[-dd[[i]],])
=lm(violentPerPop~.,data=[,c(6:129,146)])
=predict()
=predict(, [,c(6:129,146)])
=mean(($violentPerPop-)^2)/
mean((mean($violentPerPop)-$violentPerPop)^2)
=mean(($violentPerPop-)^2)/
mean((mean($violentPerPop)-$violentPerPop)^2)
=mean(($violentPerPop-)^2)
=mean(($violentPerPop-)^2)
=c(,)
=c(,)
=c(,)
=c(,)
}
16
Linear Regression
17
Stepwise
#逐步回归:全部、前向、后向
lm1both<-step(,direction= "both")
lm1forward<-step(,direction= "forward")
lm1back<-step(,direction= "backward")
<-step()
summary()
18
Stepwise
19
Stepwise
20
Stepwise:diagnose
21
Stepwise
22
Stepwise
23
Conclusion
由结果可以看出,逐步回归调整后的的R-,模型检验的结果显示,回归的残差项并不满足正态性假定,,这启发我们建立更加精确的预测模型。
24
Ridge
25
Ridge
cor(crim[,6:129],use="") #变量间的相关性,计算时不考虑缺失值
symnum(cor(crim[,6:129],use="")) #简单明显示出变量间的相关
#只截取部分结果显示,可以看出
#变量之间的共线性较为明显
26
Ridge
library(MASS)
ridgelm<-(violentPerPop~.,data=[,c(6:129,146)],
lambda=seq(0,200,), model =TRUE)
names(ridgelm)
ridgelm$lambda[(ridgelm$GCV)] ##找到GCV 最小时对应的lambda
##广义的交叉验证准则—GCV,越小越好
ridgelm$coef[,(ridgelm$GCV)] #找到GCV 最小时对应的系数
27
Ridge
#lamda 同GCV 之间关系的图形
plot(ridgelm$lambda,ridgelm$GCV,type="l")
abline(v=ridgelm$lambda[(ridgelm$GCV)],col="green")
28
Lasso
LASSO方法
在线性模型中,人们必须选择合适的变量;比如常用的逐步回归法就是选择显著的变量而抛弃那些不显著的。Tibshirani(1996)[1]提出了一个新的方法来处理变量选