1 / 99
文档名称:

R数据挖掘实例.ppt

格式:ppt   大小:3,018KB   页数:99页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

R数据挖掘实例.ppt

上传人:花开花落 2019/6/28 文件大小:2.95 MB

下载得到文件列表

R数据挖掘实例.ppt

文档介绍

文档介绍:Crime&munitiesandCrime Unnormalized DataSet (Datasource)*一、数据预处理#导入crime数据,修改变量名称,并查看数据属性crim=("",sep=",",="?")name=("")name=name[,2]colnames(crim)<-namesummary(crim)dim(crim)*观测值:2215变量数:147部分数据严重缺失四、犯罪率分布情况*在3月份的行业销售旺季,东北地区及北部地区销售额占到公司全月总额的70%,西部地区仅为10%,西部死去市场潜力还需深度挖掘。可看出violentPerPopnonViolPerPop都出现了不同程度的拖尾特征,考虑对数据进行对数变换由图可知四、对数化变换*做变换后两变量数据较为对称由图可知四、犯罪率地区差异*三个地区犯罪率的中位数由西向东递减,分布相对集中,但东部地区出现了较为明显的离群值*缺失值处理nrow(crim[!(crim),])##缺失值项的总行数#=c()for(iin1:2215){=c(,length(which((crim[i,]))))}max()#缺失值基本在20左右,没有#缺失过于严重的样本,无需删除*缺失值处理:临近值插补从数据集中选取若干条其他属性和它相似的样本(即和它在空间欧式距离最短的n条样本),求其中位数进行插补crim$gangUnit=(gangUnit)crim1=crim[,c(6:126,128:147)]library(cluster)##调用R语言中的cluster包#<-(daisy(crim1,stand=T))##计算这2215个样品的空间距离*缺失值处理:临近值插补#先处理非因子型变量的缺失值,需要将以下步骤进行两次for(rinwhich(!(crim1)))crim1[r,which((crim1[r,]))]<-apply((crim1[c((names(sort([r,])[2:20]))),which((crim1[r,]))]),2,median,=T)#再处理因子型变量的for(rin1:2215){if((gangUnit[r])){index=sort([r,],=T)$ixif(all((gangUnit[index[2:20]])))gangUnit[r]=gangUnit[intersect(index,which((gangUnit)==F))][1]else{gangUnit[r]=levels(gangUnit[index[2:11]])[(table(gangUnit[index[2:11]]))]}}}crim2=(cbind(crim[,1:5],crim1[,1:126],gangUnit,crim1[,-(1:126)]))*Crossvalidation#设置五折交叉验证n=2215;zz1=1:n#zz1为所有观测值(行)的下标zz2=rep(1:5,ceiling(n/5))[1:n](200);zz2=sample(zz2,n)#zz2为1:5的随机排列zz2[1:100]#dd保存每一折下标,令testset选其中之一,则共可做五次交叉验证dd=list()for(iin1:5)dd[[i]]=zz1[zz2==i]dd