文档介绍:第7章逻辑斯蒂(Logistic
regression)回归分析
科学研究中,经常遇到因变量为二值 例1 在女生月经初潮调查中,23名11-15岁
(二项)分类资料,如疾病的发生与不发女生的月经与体质情况如表。其中,x1是30
生、有或没有等。同时,可以有数个自变量秒脉搏数,x2是体重,x3是年龄,月经Y是
对因变量产生影响。这时可以用逻辑斯蒂回二项分类变量,0表示未来月经,1表示已来
归分析(Logistic regression)。月经。试用Logistic 回归分析脉搏、体重和年
龄与月经来潮的关系。
1 2
女生月经与体质情况
123⋯1213⋯ 23
x1 39 42 40 45 51 45
x2 34 30 35 39 37 44
x3 11 11 11 11 12 15
Y 000 11 1 Submit 得到结果。
3 4
模型有显著性意义
5 6
1
由最大似然估计法得到对数优势线性判别函
数:
Logit P =--+
(月经未来潮概率。根据依变量取值排序,先“0”后“1”,针对未
来月经(Y=0) )
Logit P =-++-
(月经来潮概率。根据依变量取值排序,先“1”后“0”,针对已来
月经(Y=1) )
7 8
title 'The Logistic Regression'; title 'The Logistic Regression';
data logist1; data logist1;
input x1 x2 x3 y@@; input x1 x2 x3 y@@;
cards; cards;
39 34 11 0 42 30 11 0 39 34 11 1 42 30 11 1
40 35 11 0 48 38 12 0 40 35 11 1 48 38 12 1
42 29 12 0 39 33 13 0 42 29 12 1 39 33 13 1
38 32 13 0 45 37 13 0 38 32 13 1 45 37 13 1
35 35 13 0 36 29 13 0 35 35 13 1 36 29 13 1
38 33 14 0 45 39 11 1 38 33 14 1 45 39 11 0
51 37 12 1 42 37 12 1 51 37 12 0 42 37 12 0
42 55 12 1 43 49 12 1 42 55 12 0 43 49 12 0
45 36 12 1 40 44 13 1 45 36 12 0 40 44 13 0
41 40 13 1 39 48 13 1 41 40 13 0 39 48 13 0
45 41 13 1 46 43 14 1 45 41 13 0 46 43 14 0
45 44 15 1 45 44 15 0
; ;
proc logistic; proc logistic;
model y=x1 x2 x3; model y=x1 x2 x3;
run; run;
9 10
例1:已知女生甲的X1=40, X2=40, X3=13;已知
女生乙的X1=39, X2=35, X3=11。判别月经来潮
的概率。
exp-++-
p =
1+ exp-++-
,
判别:女生甲已来月经(P>),女生乙未来月经(P<)
11 12
2
例2 50例急性淋巴细胞性白血病病人,治疗 非编程方法:
时取得了外周血中细胞数X1(千个/mm3)、
巴结浸润等级分为、、、四级,出
X2( 0 1 2 3 ) Submit 生成SAS数据集:
院后巩固治疗X3(有巩固治疗为1,无巩固
治疗为0),并随访取得病人的生存时间 Assist data analysis regression
T(月),变量Y(生存时间1