1 / 6
文档名称:

数据挖掘实验报告.doc

格式:doc   大小:131KB   页数:6页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

数据挖掘实验报告.doc

上传人:文库旗舰店 2019/5/18 文件大小:131 KB

下载得到文件列表

数据挖掘实验报告.doc

文档介绍

文档介绍:数据挖掘实验报告——加权K-近邻法数据源说明数据理解数据来自于天猫对顾客的BuyOrNot(买与不买),BuyDNactDN(消费活跃度),ActDNTotalDN(活跃度),BuyBBrand(成交有效度),BuyHit(活动有效度)这五个变量的统计。数据分成两类数据,一类作为训练数据集,一类为测试数据集。、有噪声的和不一致的。数据清理例程试图填充缺失的值,光滑噪声并识别离群点,并纠正数据中的不一致。缺失值:当数据中存在缺失值是,忽略该元组噪声数据:本文暂没考虑。基于变量重要性的加权K-近邻法[1]由于我们计算K-近邻法默认输入变量在距离测度中有“同等重要”的贡献,但情况并不总是如此。我们知道不同的变量对我们所要预测的变量的作用是不一定一样的,所以找出对输出变量分类预测有意义的重要变量对数据预测具有重要作用。同时也可以减少那些对输出变量分类预测无意义的输入变量,减少模型的变量。为此,采用基于变量重要性的K-近邻法,计算加权距离,给重要的变量赋予较高的权重,不重要的变量赋予较低的权重是必要的。(1)算法思路:我们引进为第i个输入变量的权重,是输入变量重要性(也称特征重要性),FI函数,定义为:。其中为第i个输入变量的特征重要性,这里,依第i个输入变量对预测误差的影响定义。设输入变量集合包含p个变量:。剔除第i个变量后计算输入变量的误判率,记为。若第i个变量对预测有重要作用,剔除变量后的预测误差应较大。于是,第i个变量的重要性定义为:。可见,变量越重要,在计算距离时的权重越高。(2)算法步骤:------求解出第i个变量的(3)算法源代码library("class")Tmall_train<-("D:\\Documents\\Rword\\第一章\\")Tmall_test<-("D:\\Documents\\Rword\\第一章\\")par(mfrow=c(2,2))(123456)errRatio<-vector()for(iin1:30){KnnFit<-knn(train=Tmall_train[,-1],test=Tmall_test[,-1],cl=Tmall_train[,1],k=i,prob=FALSE)CT<-table(Tmall_test[,1],KnnFit)errRatio<-c(errRatio,(1-sum(diag(CT))/sum(CT))*100)}plot(errRatio,type="l",xlab="近邻个数k",ylab="错判率(%)",main="近邻数K与错判率")从右边近邻数K与错判率的图可明显看出,近邻个数为7时,误判率和稳健性最好errDelteX<-errRatio[7]for(iin-2:-5){fit<-knn(train=Tmall_train[,c(-1,i)],test=Tmall_test[,c(-1,i)],cl=Tmall_train[,1],k=7)CT<-table(Tmall_test[,1],fit)errDelteX<-c(errDelteX,(1-sum(diag(CT))/