文档介绍:广东药学院硕士研究生学位论文多水平 logistic 模型及其在流行病学调查数据中的应用
中文摘要:
目的:探讨多水平 logistic 模型的基本理论及其在流行病学调查数据上的应用,
旨在研究多水平 logistic 模型在实际应用过程中的方法学问题,为以后层次结构数
据的有效分析提供参考。
方法:在流行病学中常常存在层次结构数据,这种数据的特性为组群间差异较大,
而组群内的成员间趋向于一致,即呈现一定的聚集性。这时,传统模型中数据间关于
相互独立和方差齐的假定有可能不成立。多水平 logistic 模型在处理结构数据时考
虑到了数据的层次性和聚集性,其基本思想是将总残差分解到相应的各个水平,其中
高水平单位之间的变异表示组间变异,低水平单位间的变异表示个体间差异,将各水
平残差表示为某些变量的函数,从而可分析其影响因素及变化趋势。多水平logistic
模型与一般 logistic 回归模型的区别是:前者可以很好地处理存在组内聚集性的数
据,可同时测量个体水平变异和组水平变异,可同时考虑固定效应和随机效应,还可
研究场景变量对于组群单位的影响,而这些都是后者不能分析和解决的。
本研究的主要内容包括多水平 logistic 模型理论的基本原理与方法、实例拟合
过程(包括深圳市社区居民健康状况调查和广州市居民吸烟情况调查数据)、分析步
骤、方法比较及结果解释等。
本研究的数据预处理采用 软件,多水平模型分析采用 MLwiN 和 软
件,数据缺失值采用 的 MI 过程进行处理。
结果:实例应用表明多水平模型在处理层次结构数据时,能够解决其有数据层次
性、聚集性的问题,并且能够根据专业知识和实际情况将解释变量处理为固定效应或
者随机效应,从而能够得到更丰富,更全面的结果。将多水平模型与筛选变量后的
logitistic 回归模型进行比较,前者的标准误比后者更小,统计效果更显著,且对于结
果比后者有更合理的解释性。将缺失值进行多元填补后,能够得到比原始数据更可靠
的结果。
结论:多水平 logistic 模型理论在处理二分类层次结构数据时,提供了比传统
模型更接近于客观情况的丰富信息。一般 logistic 回归模型简单易行,但只能研究个
体层面的信息和其固定效应,无法分析组群方面信息和哪些因素对结局变量的变异程
度有影响,而且当数据存在聚集性时会出现偏误,并且对于结果不能给出合理的解释;
多水平 logistic 模型充分考虑了数据间的相关性问题,可考虑层次信息,并且能够同
1
广东药学院硕士研究生学位论文多水平 logistic 模型及其在流行病学调查数据中的应用
时研究个体变异和组间变异,能够分析固体效应和随机效应,对研究因素可做出准确
的估计和假设检验。但是,多水平模型也有一定的局限性,如多水平模型要求低级水
平和高级水平的残差方差服从正态分布或多元正态分布,参数估计较复杂,等等。另
外,有层次结构的数据不一定需要做多水平模型分析,首先要看其组内相关性的大小,
即是否存在组内聚集性,如果不存在数据聚集性,则用一般统计模型就可以了。在实
际应用中,要结合专业知识和数据特征来选择合适的统计方法。
忽略层次结构数据的组群效应,将会以损失资料信息的完整性为代价,使统计
结果失效,并有可能得出错误的结论。因此,在有层次结构的流行病学调查数据中,
多水平 logistic 模型是一个很好的选择,随着多水平 logistic 模型理论的完善和成熟,
多水平 logistic 模型在流行病学领域中将会有更大的优势和更广阔的应用前景。
关键词多水平 logistic 模型层次结构数据组内相关性随机效应固定效应
缺失数据
2
广东药学院硕士研究生学位论文多水平 logistic 模型及其在流行病学调查数据中的应用
Multilevel logistic model And its application of
epidemiological survey data
Master Candidate: Hua-ping Luo
Major: Epidemiology and health statistics
Supervior: Professor Pide Zhang
Abstract
In public health and epidemiology, large-scale surveys often follow a hierarchical structure
o