文档介绍:数据分析算法与模型模拟题(一)
(共 4 题, 100 分)
1 、 影响中国人口自然增长率的因素有很多,据分析主要因素可能有:( 1 )
从宏观经济上看,经济整体增长是人口自然增长的基本源泉;( 2 )居民消费水
平, 它的高低可能会间接影响人口增长率。 (3) 文化程度, 由于教育年限的高低,
相应会转变人的传统观念,可能会间接影响人口自然增长率( 4 )人口分布,非
农业与农业人口的比率也会对人口增长率有相应的影响。 为了全面反映中国 “人
口自然增长率” 的全貌, 选择人口增长率作为被解释变量, 以反映中国人口的增
长;选择“国名收入”及“人均 GDP ”作为经济整体增长的代表;选择“居民
消费价格指数增长率” 作为居民消费水平的代表。 暂不考虑文化程度及人口分布
的影响。
从《中国统计年鉴》收集到以下数据(见表 1 ):
表 1 中国人口增长率及相关数据
人口自然增长率
国民总收入
居民消费价格指数增长
人均 GDP
年份
( % 。)
(亿元)
率( CPI) %
(元)
1988
15037
1366
1989
17001
18
1519
1990
18718
1644
1991
21826
1893
1992
26937
2311
1993
35260
2998
1994
48108
4044
1995
59811
5046
1996
70142
5846
1997
78061
6420
1998
83024
-
6796
1999
88479
-
7159
2000
98000
7858
2001
108068
8622
2002
119096
-
9398
2003
135174
10542
2004
159587
12336
2005
184089
14040
2006
213132
16024
设定的线性回归模型为:
[
(1)求出模型中的各个参数,试从多个角度评价此线性回归模型,并检验模型 的经济意义;
(2)检验模型中是否存在多重共线性问题(逐步回归),若有,试消除多重共 线性。
解:
(1)首先进行数据预处理,数据经检查,无缺失值,接着将数据导入dataHoop 平台中,进行异常值检验等分析,数据基本正常,但是数据存在多重共线性,多 重共线性将在第二问中详述。
然后对数据进行多元线性回归拟合,以人口自然增长率 (Y)作为因变量,国民总 收入(X1)、居民消费价格指数增长率(X2)和人均GDP(X3)作为自变量,得到拟 合结果为:
Y = + + -
, F检验的p值为0 ,(常数项)t检验的p值为0,国民总收 , , 。该模型解释为在其他变量不变的情况下,国 民收入每增长1亿元,则人口增长率随之增长 % ;在其他变量不变的情 况下,居民消费价格指数增长率每增长 1%,% ;
在其他变量不变的情况下,人均 GDP每增长1元,则人口增长率随之降低 %。居民消费价格指数增长率 CPI与人口增长率呈正增长与现实情况不 符,说明模型反映出的统计学意义与实际情况不完全相符, 可能是因为自变量之
间存在共线性。
(2),两个变量间极高度相关, 因此得到回归方程存在多重共线性。变量间的多重共性对基于最小二乘法的回归 模型模拟结果有非常严重的影响,导致回归结果不准确。
采用“逐步回归法”对模型进行优化消除变量间的多重共线性。
分别对单个变量进行分析:
分析图
国民总收入(X1):
(常数项)
135325
.
-
算法学数
昉
调整昉
p值什检胺)