1 / 8
文档名称:

冠心病与年龄.docx

格式:docx   大小:82KB   页数:8页
下载后只包含 1 个 DOCX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

冠心病与年龄.docx

上传人:niupai11 2022/7/17 文件大小:82 KB

下载得到文件列表

冠心病与年龄.docx

相关文档

文档介绍

文档介绍:冠心病与年龄
问题 冠心病(Coronary Heart Disease,简称CHD)是一种常见的心脏疾病,严重地危 害着人类的健康。到目前为止,其病因尚未完全研究清楚,医学界普遍认同的、重要的易 患因素是、高血脂、高血压、糖尿60 〜69

10
8

合计
100
43

为考察患病比例与年龄的关系,首先根据表2数据做出患病比例对各年龄段中点的散点 图(见图2,为方便起见,散点的横坐标均简单地取各年龄段的中点)。
从图2可以看出,冠心病患病比例随年龄的增大而递增,人致是一条介于0与1之间的 S型曲线,这条曲线应该怎样用回归方程来确定呢?表
1和表2中的患病比例实际上就是年 龄为x时(以下均取年龄段的中点)Y的平均值,用(条件)期望的符号记作
y = E(Y|x) (1)
患病比例y是年龄x的函数,其取值在区间[0,1]上。如果用普通的方法建立回归方程, 那么很容易求得其线性回归曲线或更接近与S型曲线的3次多项式回归曲线(分别见图3和 图4),其回归模型的形式为
y = 0o + + 02对 + 03*' + £ (2)
其中随机误差£服从均值为0的正态分布,特别地,当伙=03= 0时为线性回归模型。
然而在这个问题中,(2)式回归方程中y的取值不一定在[0』中,进一步说, 即使y的值在[0,1]中,由于在给定x时,误差项£也只能取0, 1两个值,显然g 不具有正态性,而且£的方差依赖于x,具有异方差性,这些都违反了普通回归分 析的前提条件。因此,当Y为一个二分类(或多分类)变量而不是连续变量时,用前几节介 绍的基于最小二乘法的回归分析是不合适的,需要用到新的回归模型。
logit模型 下面用;r(x)表示年龄为x的被观察者患冠心病的概率,即
龙(x) = P(Y = l|.r) (3)
显然Y的(条件)期望为E (Y|x) =71 (x),(条件)方差为D (Y|x) = 7F(X)(1-龙(X))由 (1)式可知,兀(X)即为该年龄段的患病比例y.
为了寻求患病比例龙(x)与年龄x之间、形如图2的S型曲线的函数关系,并注意到龙
(x)在[0,1]区间取值,可以建立如在第5章、第7章多次用到的logistic模型
心)=17^
(4)的反函数写作
In
1-龙(x)
=0。+处
(5)式左端可看作口(切的交换,记作log it (龙(x)) = ln兀⑴,称为log if模型或logistic回 ]一龙(x)
归模型。当口住)在[0』取值时,log〃(龙(X))取值为(—8,+8)。
在数据预处理上时,将被观察者的年龄分成k=8组,记第,组(i = L2,--,k)年龄为£•, 被观察人数为心,患病人数为加‘,每位被观察者患病概率为£=叫他,这时log it模型具 有如下形式:
7T.
log ”(花)=111 -— = 0o + 0內 (6)
1-花
其中0o,0i是回归系数。合理地设叫服从二项分布Bgm)卩小仇可用最人似然法估计得 到[36] O
模型求解 log 〃模型是一种广义线性模型(Generalized Lmeai' Model),可利用
MATLAB统计工具箱中的命令ghnfit求解,通常的使用