文档介绍:1多因素分析多因素分析 2 ??概念概念多因素分析是同时对观察对象的两个或两个以上多因素分析是同时对观察对象的两个或两个以上的变量进行分析。的变量进行分析。常用的统计分析方法有: 常用的统计分析方法有: 多元线性回归、多元线性回归、 Logistic Logistic 回归、回归、 COX COX 比例风险回归比例风险回归模型、因子分析、主成分分析等。模型、因子分析、主成分分析等。 3 多变量资料数据格式多变量资料数据格式例号例号 X X 1 1X X 2 2……X X p pY Y 1 1X X 11 11X X 12 12……X X 1p 1pY Y 1 1 2 2X X 21 21X X 22 22……X X 2p 2pY Y 2 2 ┆┆┆┆┆┆……┆┆┆┆ n nX X n1 n1X X n2 n2……X X np npY Y n n Y Y为定量变量为定量变量———— Linear Regression Linear Regression Y Y为二项分类变量为二项分类变量———— Binary Logistic Regression Binary Logistic Regression Y Y为多项分类变量为多项分类变量———— Multinomial Logistic Regression Multinomial Logistic Regression Y Y为有序分类变量为有序分类变量———— Ordinal Logistic Regression Ordinal Logistic Regression Y Y为生存时间与生存结局为生存时间与生存结局———— Cox Regression Cox Regression 4 ( (1 1)因素筛选: )因素筛选: 例如影响高血压的诸多因素中: 例如影响高血压的诸多因素中: 1 1)哪些是主要因素? )哪些是主要因素? 2 2)各因素的作用大小? )各因素的作用大小? ( (2 2)控制混杂因素)控制混杂因素( (3 3)提高回归方程的估计精度)提高回归方程的估计精度多因素分析只有一个自变量的单因素回归更能缩多因素分析只有一个自变量的单因素回归更能缩小应变量小应变量 Y Y对其估计值的离差,在预测和统计控制方对其估计值的离差,在预测和统计控制方面应用的效果更好。面应用的效果更好。??多因素回归分析主要用途: 多因素回归分析主要用途: 5 Y,X——直线回归 Y,X 1,X 2,…X m——多元回归(多重回归) 一、多元线性回归一、多元线性回归(multiple linear regressoin) (multiple linear regressoin) 例: 欲研究血压受年龄、性别、体重、性格、职业(体力劳动或脑力劳动)、饮食、吸烟、血脂水平等因素的影响。 6 ββ 0 0为回归方程的常数项( 为回归方程的常数项( constant) constant) ,表示各自变量均为,表示各自变量均为 0 0时时y y的的平均值; 平均值; m m为自变量的个数; 为自变量的个数; ββ 1 1、、ββ 2 2、、ββ m m为偏回归系数( 为偏回归系数( Partial regression coefficient Partial regression coefficient ) ) 意义: 意义: 如如ββ 1 1表示在表示在 X X 2 2、、X X 3 3………… X X m m固定条件下, 固定条件下, X X 1 1 每增减每增减一个单位对一个单位对 Y Y 的效应( 的效应( Y Y 增减增减ββ个单位)。个单位)。 e e为去除为去除 m m个自变量对个自变量对 Y Y影响后的随机误差,称残差( 影响后的随机误差,称残差( residual) residual) 。。 eX XX Y mm???????????? 22110多元回归方程的一般形式多元回归方程的一般形式(一) (一) 多元回归模型多元回归模型 7 为为y y的估计值或预测值( 的估计值或预测值( predicted value) predicted value) ; ; b b 0 0为回归方程的常数项( 为回归方程的常数项( constant) constant) ,表示各自变量均为,表示各自变量均为 0 0时时y y 的估计值; 的估计值; mm 22110XbXbXbbY ???????? Y ?由样本估计而得的多元回归方程: 由样本估计而得的多元回归方程: b b 1 1、、b b 2 2、、b b m m为偏回归系数( 为偏回归系数( Partial regression coefficient Partial regression coeffici