文档介绍:R数据挖掘实例
适用于年终总结/工作计划/述职报告/策划方案等
2020
缺失值处理:临近值插补
从数据集中选取若干条其他属性和它相似的样本(即和它在空间欧式距离最短的n 条样本),求其中位数进行插补
crim$gangUnitpredict(, [,c(6:129,146)])
=mean(($violentPerPop-)^2)/
mean((mean($violentPerPop)-$violentPerPop)^2)
=mean(($violentPerPop-)^2)/
mean((mean($violentPerPop)-$violentPerPop)^2)
=mean(($violentPerPop-)^2)
=mean(($violentPerPop-)^2)
=c(,)
=c(,)
=c(,)
=c(,)
}
16
Linear Regression
17
Stepwise
#逐步回归:全部、前向、后向
lm1both<-step(,direction= "both")
lm1forward<-step(,direction= "forward")
lm1back<-step(,direction= "backward")
<-step()
summary()
18
Stepwise
19
Stepwise
20
Stepwise:diagnose
21
Stepwise
22
Stepwise
23
Conclusion
由结果可以看出,逐步回归调整后的的R-,模型检验的结果显示,回归的残差项并不满足正态性假定,,这启发我们建立更加精确的预测模型。
24
Ridge
25
Ridge
cor(crim[,6:129],use="") #变量间的相关性,计算时不考虑缺失值
symnum(cor(crim[,6:129],use="")) #简单明显示出变量间的相关
#只截取部分结果显示,可以看出
#变量之间的共线性较为明显
26
Ridge
library(MASS)
ridgelm<-(violentPerPop~.,data=[,c(6:129,146)],
lambda=seq(0,200,), model =TRUE)
names(ridgelm)
ridgelm$lambda[(ridgelm$GCV)] ##找到GCV 最小时对应的lambda
##广义的交叉验证准则—GCV,越小越好
ridgelm$coef[,(ridgelm$GCV)] #找到GCV 最小时对应的系数
27
Ridge
#lamda 同GCV 之间关系的图形
plot(ridgelm$lambda,ridgelm$GCV,type="l")
abline(v=ridgelm$lambda[(ridgelm$GCV)],col="green")
28
Lasso
LASSO方法
在线性模型中,人们必须选择合适的变量;比如常用的逐步回归法就是选择显著的变量而抛弃那些不显著的。Tibshirani(1996)[1]提出了一个新的方法来处理变量选择的问题。该方法在模型系数绝对值的和小于某常数的条件下,谋求残差平方和最小。该方法既提供了如子集选择方法那样的可以解释的模型,也具有岭回归那样的稳定性。它不删除变量,但使得一些回归系数收缩、变小,甚至为0。因而,该方法被称为lasso(least absolute shrinkage and selection operator,最小绝对值收缩和选择算子[2])。
29
Lasso
#将数据集中的因子变量gangUnit转换为哑元变量
#训练集
gangUnit5=rep(0,1772);gangUnit5[whi