文档介绍:河南城建学院第三届大学生数学建模竞赛
承诺书
我仔细阅读了《河南城建学院第三届大学生数学建模竞赛参赛须知》。
我完全明白,在竞赛开始后参赛者不能以任何方式(包括电话、电子邮件、网上咨询等)与任何人研究、讨论与赛题有关的问题。
我知道,抄袭别人的成果是违反竞赛规则的, 如果引用别人的成果或其他公开的资料(包括网上查到的资料),必须按照规定的参考文献的表述方式在正文引用处和参考文献中明确列出。
我郑重承诺,严格遵守竞赛规则,以保证竞赛的公正、公平性。如有违反竞赛规则的行为,我将受到严肃处理。
我的选择题号为: B
姓名
系别
学号
联系方式
(以下内容参赛同学不需填写,由竞赛组委会统一编码)
评阅编号:
河南城建学院第三届大学生数学建模竞赛
编号专用页
评阅编号(由组委会评阅前进行编号):
评阅记录(供评阅时使用):
评
分
评
阅
人
备
注
题目:基于Logistic 回归模型对肝癌手术治疗效果的评价
摘要:本文根据20 个具有代表性的肝癌患者样本的10 项指标,讨论了肝癌手术的预后影响,通过不同的模型来提高模型预测的精确度和稳定性。通过查阅大量医学书籍,了解各项指标的意义以及在临床实验中它们对肝癌手术的影响程度,并根据医学统计学原理对各个指标的含义进行赋值,所赋的值为分类指示符,并无数值含义。
首先,利用聚类分析根据10 个指标对20 个样本进行聚类,发现与预后影响的结果具有很大的偏差,故10 个指标均不是对预后具有决定性的指标,具有权重性。再对10个指标对预后的影响进行聚类分析,发现x3(HbsAg),x9(肿瘤旁的微小子灶),x4(AntiHCV),x10(术后腹水),x8(肿瘤包膜)、x2(门脉癌栓),x7(肿瘤生长方式)具有相近性,即对预后的影响也许具有一致性。
其次,利用判别分析各指标与预后影响的相关性,得到非标准化判别方程并用3 个样本进行回带检验,%,精确度和稳定性不够高,对现实的指导意义不怎么大。
为提高精确度和稳定性,换用Logistic 回归模型利用具有代表性的肝癌患者样本的10 项指标建立回归方程,得到:%,%,总计百分比为90%,根据统计学原理,若预测率大于50%,预测的结果是良好的、较为准确的。至此,%,所以用Logistic 回归模型对预后影响进行判断是有效的。
关键词:聚类分析,判别分析,Logistic回归分析,肝癌预后影响,SPSS
1 问题重述
肝癌手术治疗效果评价
肝癌是我国第二常见的癌症,很多人在发现肝癌时就已经是肝癌中晚期了,而肝癌
手术治疗是中晚期肝癌的首选疗法。选取某医院10 年来肝癌病例总共4860 例,每个病例有病人近80 个信息,其中包括患者病历号、性别、年龄、学历、职业、住址、基本病史、临床体征、恶性肿瘤分类、实验室检验指标、影像学检查等,经过数据预处理,
选取其中20 个有代表性的样本,选取对预后影响的l0 个指标如附件1-预处理后样本数据,各指标项说明见附件2-各指标项说明。
请以预后影响作为评价标准,建立数学模型,对手术的治疗效果进行预测,为病人
是否选择手术治疗提供建议。
2 模型假设
(1)在理想情况下,认为20 个样本具有很强的代表性,即包含了不同重要指标所对应的预后影响。
(2)不考虑各个样本之间的个体差异,即大致的身体健康情况相同,身体恢复能力也相同。
(3)不考虑各个样本在术后的主观意志和客观条件如手术医师、病房条件、药物使用等的影响。
(4)不考虑其他变量指标对预后的影响,不考虑其他变量指标对10 个指标的交互影响。
3 符号说明
表1符号含义
符号
含义
Gn
第n 类样本(n∈[1,2],n∈N*)
xi
第i 个指标(i∈[1,10],i∈N*)
dij
第i 个指标xi 与第j 个指标xj 的欧式距离
Ci
线性判别函数的系数
Pi
预后影响的概率
β0
与指标xi 无关的常数项
βi
指标xi 对P 的贡献量
OR
指标优势比
4 数据预处理
医学数据意义
翻阅大量医学专业书籍[1]、[2],可知相关变量指标的含义,如表2所示。
表2变量指标的含义
变量
指标
变量指标含义
D
预后影响
预测疾病的可能病程和结局。
X1
食道静脉曲张
曲张由于肝脏主要的血供来源之一的门静脉系统压力过高,导致它的功能异常,原本应该汇入这个系统而回流至心脏的静脉血液无法流入,淤积在管腔里就使静脉异常的扩张而且不能回缩至正常。
X2
门脉癌栓
肝癌门静脉栓的形成是影响肝癌预