1 / 11
文档名称:

R语言中的多元统计之判别分析.docx

格式:docx   大小:148KB   页数:11页
下载后只包含 1 个 DOCX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

R语言中的多元统计之判别分析.docx

上传人:yusuyuan 2022/3/31 文件大小:148 KB

下载得到文件列表

R语言中的多元统计之判别分析.docx

相关文档

文档介绍

文档介绍:判别分析(discriminantanalysis)是多元统计分析中较为成熟的一种分类方法,它的核心思想是分类与判断”,即根据已知类别的样本所提供的信息,总结出分类的规律性,并建立好判别公式和判别准则,在此基础上,新的样本点将按照此准则判断
于训练样品后,出现了13个错判样品,%的准确度。
三、距离判别的R实现(测试样本)
接着,当我们获取到未分类的新样本数据时,使用wmd()函数,在训练样本的基础上进行这些数据的距离判别
导入数据,一共10个样本
data2<-('')
截取所需列数据
newtestdata<-data2[1:4]
进行判别分析
wmd(testdata,testdata_group,TstX=newtestdata)
**********
blong1111112221
根据马氏距离判别分析得到的结果,10个待判样品中,第一类7个,第二类3个。
距离判别方法简单实用,它只要求知道总体的数字特征,而不涉及总体
的分布,当总体均值和协方差未知时,就用样本的均值和协方差矩阵来
估计,因此距离判别没有考虑到每个总体出现的机会大小,即先验概率,
没有考虑到错判的损失。因此,我们进一步学****贝叶斯判别法。
一、贝叶斯判别基本理论
贝叶斯判别法的前提是假定我们已经对所要分析的数据有所了解(比如
数据服从什么分别,各个类别的先验概率等),根据各个类别的先验概
率求得新样本属于某类的后验概率。该算法应用到经典的贝叶斯公式,
该公式为:
假设有两个总体G1和分别具有概率密度函数,11门和’府⑺,并且根
据以往的统计分析,两个总体各自出现的先验概率为班和先,当一个样
本事发生时,求该样本属于某一类的概率,计算公式为:
这样,我们得到了该样本属于两类总体的概率,分别为尸&1和巴公岛),属于哪一类总体的概率值大,我们则将样本划分到该类中。
二、贝叶斯判别的R实现
在R中,我们使用klaR包中的NaiveBayes()函数实现贝叶斯判别分析,函数调用公式如下:
NaiveBayes(formula,data,...,subset,=)
formula指定参与模型计算的变量,以公式形式给出,类似于y=x1+x2+x3
,默认情况下不将缺失值纳入模型计算,也不会发生报错信息,当设为“”时则会删除含有缺失值的样本
数据准备,使用R内置数据集iris
通过抽样建立训练样本(70%)和测试样本(30%)
index<-sample(2,size=nrow(iris),replace=TRUE,prob=c(,))
train_data<-iris[index==1,]
test_data<-iris[index==2,]
载入所用包
library(klaR)
构建贝叶斯模型
Bayes_model<-NaiveBayes(Species〜.,data=train_data)
进行预测
Bayes_model_pre<-predict(Bayes_model,newdata=test_data[,1:4])
生成实际与预判交叉表
>table(test_data$Species,Bayes_model_pre$class)
setosaversicolorvirginica
setosa2000
versicolor0170
virginica037
从上表生成的交叉表中,我们可以看到在该模型中错判了3个。
#生成预判精度
>sum(diag(table(test_data$Species,Bayes_model_pre$class)))
+/sum(table(test_data$Species,Bayes_model_pre$class))
[1]
三、Fisher判别基本理论
Fisher判别法的基本思想是投影”,将K组尸维的数据向低维空间投影,使其投影的组与组之间的方差尽可能的大,组内的方差尽可能的小。因
此,Fisher判别法的重点就是选择适当的投影轴”。判别函数为什=心”,接下来我们以两类总体举例。
首先我们将样本点投影到一维空间,旋转坐标轴至总体单位尽可能分开
的方向,此时分类变量被简化为一个,判别函数履=。得;如果划分的效
果不理想,可以考虑投影到二维空间(
廿=以4+的的),以此类推。
上图为二
维空间的Fisher判别,从图中可以看到,无论我们把总体3和0投影
到11还是北轴,都不能很好的把两类总体区分出来。