文档介绍:Logistic回归
首都医科大学流行病与卫生统计学系
罗艳侠
Logistic回归分类
按照反应变量类型
二分类反应变量的logistic回归
多分类有序反应变量的logistic回归
多分类无序反应变量的logistic回归
按照研究设计类型
非条件logistic回归(研究对象未经匹配)
条件logistic回归(研究对象经过匹配)
(一)基本概念和原理
Logistic回归模型是一种概率模型,适合于病例—对照研究、随访研究和横断面研究,且结果发生的变量取值必须是二分的或多项分类的。可用影响结果变量发生的因素为自变量与因变量,建立回归方程。
设资料中有一个因变量y、p个自变量x1, x2,…,xp,对每个实验对象共有n次观测结果,可将原始资料列成表1形式。
2、Logistic回归模型的数据结构
表1 Logistic回归模型的数据结构
实验对象 y X1 X2 X3 …. XP 1 y1 a11 a12 a13 … a1p 2 y2 a21 a22 a23 … a2p 3 y3 a31 a32 a33 … a3p ………………… n yn an1 an2 an3 … anp ━━━━━━━━━━━━━━━━━━
表2 肺癌与危险因素的调查分析
例号是否患病性别吸烟年龄地区
1 0 1 0 30 0
2 0 0 1 46 1
3 1 0 0 35 1
………………
30 1 0 0 26 1
注:是否患病中,‘0’代表否,‘1’代表是。性别中‘1’代表男,‘0’代表女,吸烟中‘1’代表吸烟,‘0’代表不吸烟。地区中,‘1’代表农村,‘0’代表城市。
经数学变换得
定义Logistic变换
Logistic回归方程
4、回归系数βi的意义
流行病学的常用指标优势比(odds ratio,OR)或称比数比,定义为:暴露人群发病优势与非暴露人群发病优势之比。
即Xi的优势比为: