文档介绍：Cox模型影响点识别
诊断统计量的模拟研究
山西医科大学卫生统计学教研室
余红梅师成虎何大卫
引言
影响分析是回归诊断的一个重要内容。
实例分析表明,影响点可使Cox模型中回归系
数的大小、符号及显著性发生改变。
本文的主要目的是通过Monte-Carlo模拟研究,
比较六种影响点诊断统计量(Schoenfeld残差、
加权score残差、鞅残差、剩余残差、似然距离
和最大影响曲率)的诊断效能,提出有效识别影
响点的方法。
模拟数据的产生
拟定真实模型是满足比例风险假定及对数线性
假定的单变量(数值变量)Cox模型,生存函
数为 tS −= γβλxt )]exp()(exp[)(
其中基准生存分布服从Weibull分布,为简便运
算,式中的两个参数分别取值1,则生存函数
简化为 tS )( = −βxt )]exp(exp[
取β= 1 。模拟的样本含量为100、300。模拟
的影响点比例为0%、1%和3%。每个样本重
复1000次。
具体方法如下:设样本含量为100,首先
生成服从(0,1)均匀分布的随机数S,
令生存函数S(t)=S,同时产生服从正态
分布N(,)的随机数作为自变量x。
如拟定的模型是无影响点模型,利用
tS ))(log( 产生相应的生存时间,从而
t −= t
x)exp(
得到100个变量为x,生存时间为t,生存函
数等于S的模拟数据。
如拟定的模型是有影响点模型,假定影响点比
例为3%,先按上述步骤构造无影响点样本,
拟合Cox模型后,计算该Cox模型中各观测的预
后指数,再将预后指数在第97百分位数以上个
体(即3%)的预后指数由(0,1)均匀分布
随机数s取代,之后重新计算这些构造影响点
的生存时间, tS ))(log( ,
t −=
s
而原样本中其它个体的生存时间保持不变,由此
构造影响点比例为3%的有影响点样本。
通过模拟,了解满足比例风险假定及对
数线性假定的无影响点样本,不同样本
含量下,不同影响点识别方法的假阳性
错误大小,以及对有影响点样本,不同
样本含量、不同影响点比例下,不同影
响点识别方法的检出能力,即有效识别
出影响点的能力,验证实用有效的影响
点识别方法。
模拟结果
本次模拟研究比较的影响点识别方法包括:
1:Schoenfeld残差
2:加权score残差
3:鞅残差
4:剩余残差
5:似然距离
6:最大影响曲率
表1 不同样本含量下六种诊断统计量
及其诊断图的假阳性错误(%)
诊断统计量 n=100 n=300
1
2
3
4
5
6
对1000次重复样本,计算了参数估计的均
数及其95%可信区间(表2)。由表2可
见,模拟产生的无影响点样本可对拟定
的真实模型参数作很好的估计。
表2 不同样本含量下参数估计的均数
及其95%可信区间
样本含量 mean Std Dev 95%CI
n=100 ( )
n=300 ( )
表3 影响点1%时不同诊断统计量及诊断图
的检出能力(%)
诊断统计量 n=100 n=300
一个二个三个
影响点影响点影响点
1
2
3
4
5
6