文档介绍:山西医科大学
硕士学位论文
惩罚COX 模型和弹性网技术在高维数据生存分析中的应用
姓名:闫丽娜
申请学位级别:硕士
专业:流行病与卫生统计学
指导教师:王彤
2011-05-25
山西医科大学硕士学位论文
惩罚 COX 模型和弹性网技术
在高维数据生存分析中的应用
摘要
目的:利用DNA微阵列技术和蛋白质谱技术测出的基因或蛋白等高维生物数据对癌症病人
进行生存预测已不能再利用传统Cox比例风险模型。本论文将探讨惩罚COX模型(包括L2
惩罚COX模型和L1惩罚COX模型)和弹性网技术()用于高维数据生存分析的
优劣,从而揭露死亡或其他结局发生的时间和生物数据之间的关系,为得到更精确的诊断
及预后从而改进治疗提供合理的方法依据。
方法:介绍惩罚 COX 模型(包括 L2 惩罚 COX 模型和 L1 惩罚 COX 模型)和弹性网技术
()的基本原理。针对基因或蛋白生物信息数据的高维度、强相关、小样本的特
点进行模拟研究,对 Van’t Veer 等学者乳腺癌研究数据集进行分析,考察这些模型的预测
性能。采用 R 软件进行数据模拟及分析。
结果:以 R2 作为模型预测性能的评价标准,从模拟实验中我们得出各自变量相关程度一样
时随着数据资料方差的增大,各种模型筛选出的自变量倾向于增多,模型评价指标结果 R2
也呈增大趋势,模型拟合也越好。且随着删失比例的增加,几种方法的预测效能都会降低,
说明模型的预测能力会受到删失比例的影响。
结论:L2-COX 模型和 L1-COX 模型都是处理高维生存资料的方法,只是 L2-COX 模型没
有降维作用,但是处理共线性的效能强。L1-COX 模型主要用来对高维数据进行降维而处
理共线性的功能稍弱。EN-COX 模型同时汲取了 L1 和 L2 两种模型的优点,既能有效处理
共线性又可以降维还同时改进了 L1,是分析处理高维小样本生存资料的理想模型。
关键词:高维生物数据、生存分析、L2-COX 模型、L1-COX 模型、EN-COX 模型
I
山西医科大学硕士学位论文
The Application of Punishment COX model and
technology in survival analysis of High-dimensional data
Abstract
Objective Predicting patients on cancer according the high-dimensional genes or protein data
using the DNA microarray technology and protein spectrum technology has not used Cox
proportion risk model. This paper will explore the advantages and disadvantages of Punishment
COX model and technology through the simulation research and analyzing Van 't
Veer (2002) breast cancer research data ,to reveal the relationship between the time of death or
other ends occurrence and the biological data, to get more accurate diagnosis and prognosis or to
improve the therapeutic.
Methods Introduce the basic principle of Punishment COX model (including L2 punishment
COX model and L1 punishment COX model) and technology. Simulating the
characteristics of high dimension, the strong correlation,and small samples, Van 't Veer (2002)
scholar breast cancer research data set is analyzed, and reviewing the model prediction
performance. The simulation a