文档介绍:实验十距离判别
一、实验目的和要求
掌握距离判别分析的理论与方法、模型的建立与误差率估计;掌握利用判别分析的SAS过程解决有关实际问题.
实验要求:编写程序,结果分析.
实验内容:
要求:1题必做,2,3,4题可选1-2题
,两总体距离判别准则;
维空间两点,
线性判别函数的估计
()
两个总体的距离判别准则
()
或
(1)
两总体之间的广义平方距离
线性判别函数)
常数项系数向量
得到两总体的马氏平方距离为反映了两总体的分离程度
线性判别函数为
以下结果是误判率的回带估计
以下是交叉确认估计结果:
用交叉确认法也将属于总体的第17和19号样品误判为属于,其余均回判正确,误判率的回代估计为:.
在此问距离判别分析中,西藏、上海、广东的判别结果如下:
可以看到这三个省均以100%的判别概率分到了第二类,也即城镇居民消费指标比较高的类别中,从直观上感觉可能西藏的类别划分不是很准确。以下再进一步进行Bayes判别分析。
(2)
(一)当总体的协方差相等时:
线性判别函数结果如下:
同样在回代估计中结果如下:
交叉确认估计结果如下:
交叉确认法误判率估计=2/27=
三个待判样品的判别结果如下:
也即同(1)都属于第二类。
(二)当总体的协方差不相等时:
此时的交叉确认回判结果如下:
也即21-27号省份都应该属于第一类但误判到第二类了,此时误判率估计=7/27=
在这种情况下三个样品的判别结果如下:
也即在两总体协方差矩阵不相等的情况下所有省份都属于同一类,三个待判样品也判到了第一类。显然这样的判别结果不是很合乎实际情况。
,数据见表1:2005经济指标:
其中:X1—工业增加率(%),X2—总资产贡献率(%),X3—资产负债率(%),X4—流动资产周转次数(次),X5—工业成本费用利用率(%),X6—全员劳动生产率(万元/),X7—产品销售率(%)
(1)请用一种聚类分析方法将29个省市分为3种类型(广东、西藏除外);
(2)利用距离判别建立判别函数,判定广东、西藏分别属于哪个发展类型?
表3 2005经济指标
样品序号
地区
X1
X2
X3
X4
X5
X6
X7
1
北京
2
上海
28
3
天津
4
河北
5
山西
6
内蒙古
7
辽宁