文档介绍:工程设计中的实验数据挖掘摘要关键词:一、。近些年来,随着我国各项工程的蓬勃发展,使得工程在立项、可研、方案、施工、调测直至开工这些方面都与实验数据挖掘密不可分。数据挖掘,在人工智能领域****惯上又称为数据库中的知识发现,也有人把数据挖掘视为数据库中知识发现过程的一个基本步骤。数据挖掘是通过分析每个数据,从大量数据中寻找其规律的技术,主要有数据准备、规律寻找和规律表示3个步骤。数据挖掘的任务有关联分析、聚类分析、分类分析、异常分析、特异群组分析和演变分析等等。,采集到了如附表中的数据,该数据是可能对19个因变量有影响的所有可以自变量的数据,第19号变量受到了18个自变量的影响(有的可能没有影响)。建立数学模型分析研究下面的问题:要求1:提出的自变量中有的是互相相关的,过多的自变量个数和小样本数给数据分析带来了很大的困难,请辨别出因为相关性需要删除的自变量;要求2:在采集数据的过程中,每一个样本值(每一列)由于人为因素或者是测量因素导致得到的数据误差很大,是不可信的。请从中挑出一个不可信的样本值;要求3:建立一种以上模型,得到因变量与自变量的关系,并统计这些模型的计算值与理论值的误差平方和;要求4:从影响因素中找出排在前五位的因素,并分析影响规律基于所做的以上分析,给出制造单位你的建议。二、问题的分析本题主要任务是:根据所给自变量之间的相关性,删除一部分自变量,并分析分析每一组样本值,从中挑选出一组不可信的样本值。通过建立因变量与自变量的关系模型,统计计算值与理论值的误差平方和,再根据影响因素,找出排在前五位的因素,进而得到分析结果,提出意见。、基本假设1、;2、;3、;4、。四、符号说明符号符号说明五、,为了避免遗漏某些重要因素,往往一开始选取自变量指标时,尽可能多地考虑所有的相关因素。而题意中给出了18个自变量,过多的自变量,且变量间的相关度高,这样的数据会给系统分析与建模带来很大不便。而且高相关度的自变量对因变量的影响具有一致性,因此,我们可以通过研究变量间的相似关系,按照变量的相似关系把他们聚合成若干类,选取每类中的一个变量,进而达到删除过多自变量的目的。)多元分析的方法选用:根据上述模型分析,我们需要将18个自变量进行分类,因此,我们选用聚类分析法[1]进行定量的数据分析。聚类分析法是对多个样本(或指标)进行定量分类的一种多元统计分析方法。其主要分为两类:对样本进行分类称为Q类聚类分析,对指标进行分类称为R型聚类分析。根据题意得,所分析的数据是以每项指标为单位进行删除,因此,我们选用R型聚类分析法。2)变量数学化:设第19个因变量为,18个自变量为。3)计算变量相似性度量[1]:在对变量进行聚类分析时,首先要确定变量的相似性度量,常用的变量相似性度量有:?相关系数:记变量的取值。任意的选取两个变量与,将它们的相关系数作为相似性度量,即?夹角余弦:直接利用两个变量与的夹角余弦来定义它们的相似性度量,即其中以上两种相似度量都可以表示:越接近1,与越相关或越相似。越接近0,与的相似性越弱。本文选取相关系数矩阵计算。通过SPSS软件计算得出各变量之间的相关系数表如下表1所示。表中为变量到的相关性系数值,其他8种见附录一。--****---****-**-**---***--**-**1------*1--***-**--**-*-)变量的聚类:在变量聚类的问题中,常用的方法有最长距离法、最短距离法等。本文采用采用最短距离法计算类间的相似性度量。最短距离法定义两类变量的距离为其中:或,这时,与两类中相似性最大的两个变量间的相似性度量值有关。运用Matlab软件编程绘制聚类树型下图1所示。图1指数聚类树型图根据文献[2]得知,相关系数可划分为三个级:为低度线性相关;为显著性相关;为高度线性相关。我们根据高度相关关系进行聚类分析,从上图1可以看出,和