文档介绍:利用MATLAB进行回归分析一、实验目的:,掌握MATLAB实现的方法;。二、实验内容:题目1社会学家认为犯罪与收入低、失业及人口规模有关,对20个城市的犯罪率y(每10万人中犯罪的人数)与年收入低于5000x美元家庭的百分比x1、失业率x2和人口总数3(千人)进行了调查,结果如下表。(1)若x1~3中至多只许选择2个变量,最好的模型是什么?(2)包含3个自变量的模型比上面的模型好吗?确定最终模型。(3)对最终模型观察残差,有无异常点,若有,剔除后如何。理论分析与程序设计:为了能够有一个较直观的认识,我们可以先分别作出犯罪率y与年收入低于5000美元家庭的百分比x1、失业率x2和人口总数x3(千人)之间关系的散点图,根据大致分布粗略估计各因素造成的影响大小,再通过逐步回归法确定应该选择哪几个自变量作为模型。1/19编写程序如下:clc;clearall;y=[];%犯罪率(人/十万人)x1=[];%低收入家庭百分比x2=[];%失业率x3=[587643635692124864319641531713749789576227937416258547169215953353];%总人口数(千人)figure(1),plot(x1,y,'*');figure(2),plot(x2,y,'*');figure(3),plot(x3,y,'*');X1=[x1',x2',x3'];stepwise(X1,y)运行结果与结论:2/19犯罪率与低收入散点图犯罪率与失业率散点图犯罪率与人口总数散点图3/19低收入与失业率作为自变量低收入与人口总数作为自变量4/19失业率与人口总数作为自变量在图中可以明显看出前两图的线性程度很好,而第三个图的线性程度较差,从这个角度来说我们应该以失业率和低收入为自变量建立模型。并且我们也可以从相关性角度来选取自变量,可以看出低收入与失业率作为自变量时的RMSE=;低收入与人口总数作为自变量时的RMSE=;失业率与人口总数作为自变量时的RMSE=。我们看到当低收入与失业率作为自变量时RMSE最小,因此如果选择两个变量作为自变量的会,它们是最适合的。并且可以得到三者的关系为:y;对同时选取三个自变量的模型分析:如果我们将其三者同时选为自变量,我们发现RMSE=,比低收入与失业率二者作为自变量时稍微小了一点,,几乎为零,是可以忽略的,因此我们仍然选取两个自变量做最终的模型。关系函数仍为:y、失业率与人口总数都作为自变量残差分析:对我们设定的最终模型运用残差分析,编写程序如下:clc;clearall;y=[];%犯罪率(人/十万人)x1=[];%低收入家庭百分比x2=[