文档介绍:湖南工学院大学生数学建模模拟竞赛
承诺书
我们仔细阅读了中国大学生数学建模竞赛的竞赛规则.
我们完全明白,在竞赛开始后参赛队员不能以任何方式(包括电话、电子邮件、网上咨询等)与队外的任何人(包括指导教师)研究、讨论与赛题有关的问题。
我们知道,抄袭别人的成果是违反竞赛规则的, 如果引用别人的成果或其他公开的资料(包括网上查到的资料),必须按照规定的参考文献的表述方式在正文引用处和参考文献中明确列出。
我们郑重承诺,严格遵守竞赛规则,以保证竞赛的公正、公平性。如有违反竞赛规则的行为,我们将受到严肃处理。
我们参赛选择的题号是: A
我们的参赛报名号为: 3组
所属学校:
参赛队员(打印并签名) :1.
2.
3.
指导教师或指导教师组负责人:
日期: 2012 年 8 月 20 日
编号专用页
赛区评阅编号(由赛区组委会评阅前进行编号):
赛区评阅记录(可供赛区评阅时使用):
评
阅
人
评
分
备
注
全国统一编号(由赛区组委会送交全国前编号):
全国评阅编号(由全国组委会评阅前进行编号):
数据分类与检验
摘要
从整个问题来看,前两问属于对各数据总体已知,利用数据统计方法建立模型,寻找出各总体之间的相同之处和不同之处加以分析区别,同时又对模型的可靠性进行检验。后两问属于已知大量群体数据将其分为多个总体的分类问题,也同时要对模型的可靠性进行检验,最后再根据分类的结果计算出每一类的回归函数。
对于问题1:我建立了方差模型、优化偏度模型以及灰色预测模型三种区分模型对总体X和总体Y进行区分,并且将三种模型归一到都由一个比例系数K值来进行判别,若K>1则总体为X,否则为总体Y。最后在对三种模型的结果比较分析。
对于问题2:紧接着我们将3588组数据随机抽取了60%作为模型的训练集,余下的40%作为测试集,并且将训练集和测试集再划分为总体,在利用问题1中模型进行优化和检验分析。
对于问题3:我们考虑分别用到了两步聚类分析法,快速样本聚类 k-means 聚类分析模型以及系统聚类分析模型三种分类模型,并且用比较判别法进行深入的分析和检验上述三个模型,都得到了满意的结果。最终再使用5个和34个样本检验结果。而这些都是通过spss实现的。
对于问题4:汲取问题3中用判别法对三种分类模型的检验结果,获得了各分类模型的线性判别函数系数矩阵再根据比较判别法的原理,我们同时确定了三种分类模型的25个总体的回归函数。
关键字:优化偏度、聚类分析、spss、比较判别法
一、问题重述:
给定3588个数据(见附件1),其含义是1-582组数据来自总体,583-3588组数据来自总体。根据这些数据完成下面的问题:
,并比较结果。
,使用测试集重新讨论1的最优模型,同时使用训练集检验模型,并讨论结果。
给定1468个数据(见附件2),其含义是数据来自25个总体。根据这些数据,请大家完成下面的问题:
,并使用5个和34个样本检验结果。它们分别来自两个不同的总体。
。并讨论结果。
二、模型的假设:
1、假设各样本间相互独立;
2、假设指标水平为一连续的时间序列;
3、假设各总体的数据准确可靠,有一定的依据信。
三、符号说明:
表示第个指标水平()
X 总体X
Y 总体Y
总体X在各指标水平下的评价指数平均值
总体Y在各指标水平下的评价指数平均值
总体X在各水平下平均值得方差
总体Y在各水平下平均值的方差
X总体在指标水平下原始数据的偏度
Y总体在指标水平下原始数据的偏度
X总体在各指标水平下偏度的绝对值的平均
Y总体在各指标水平下偏度的绝对值得平均
四、模型的分析、建立与求解
问题1:
、数据的预处理及分析:
首先,根据问题我们可以得出,总共有3588组数据,其中1-582组数据来自总体X,583-3588组数据来自总体Y。并且总体X和总体Y中的数据都只含有1,2,3,4这四个数字。由此,我们算出两个总体分别在同一指标水平下的平均值和两个总体分别在同一指标水平内1,2,3,4各自所占的百分比。
对于总体X:
各指标水平的平均值:
指标水平
1
2
3
4
5
6
7
8
9
10
平均值
指标水平
11
12
13
14
15
16
17
18
19
平均值