1 / 56
文档名称:

基于贝叶斯网的潜类分析在基因关联分析中的应用.pdf

格式:pdf   页数:56
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

基于贝叶斯网的潜类分析在基因关联分析中的应用.pdf

上传人:quality 2014/1/23 文件大小:0 KB

下载得到文件列表

基于贝叶斯网的潜类分析在基因关联分析中的应用.pdf

文档介绍

文档介绍:山西医科大学
硕士学位论文
基于贝叶斯网的潜类分析在基因关联分析中的应用
姓名:张韶凯
申请学位级别:硕士
专业:流行病与卫生统计学
指导教师:张岩波
2011-05-25
山西医科大学硕士学位论文

中文摘要
plex diseases)都是多基因病(polygenic disorders),随
着人类基因组单型图( HapMap)的逐步完成,单核苷酸多态性(single-nucleotide
polymorphisms)与单体型的研究必将在探究复杂性遗传疾病的遗传机理、患病风险与药物
反应不同中扮演重要角色,已成为了生物医学许多研究领域的焦点。而与之相适应的统计
学方法研究,近年来也成为国际上统计遗传学领域的热点。SNPs 数据存在高维性和存在测
量误差的特点,并且研究中容易忽视对基因整体效应的评价,导致许多方法在实际应用中
存在缺陷。为此,本文采用基于 Bayesian 网络的潜类模型来进行高维度全基因组数据的分
析。贝叶斯网潜类分析既可以有效地体现单体型和高维 SNPs 的综合效应,又可以充分发
挥贝叶斯网络结构分析的特征,分析 SNPs 复杂的网络结构关系,是分析大规模基因数据
的一种有效的方法,将为复杂性状疾病遗传以及基因定位等方面的研究提供新的方法支
持。
本文从贝叶斯网络的概念入手,系统的介绍了贝叶斯网隐变量模型的有关理论,包括
模型的可识别性,模型的参数估计,模型的结构学习。模型的可识别性通过引入正则性的
概念予以介绍,说明了模型可识别与不可识别的标准;模型参数估计阐述了最大似然估计,
贝叶斯估计和 EM 算法这三种常用的参数估计方法,其中 EM 算法用于处理存在缺失情况
的数据;模型结构学习按照贝叶斯隐变量模型生成的过程,依次介绍了模型的选择标准—
评分函数与模型的优化算法,评分函数主要有贝叶斯评分、BIC 评分、AIC 评分、HVL 评
分、BICe 评分、CS 评分等,模型的优化算法介绍了 K2 算法和爬山算法,其中爬山算法
是本次研究使用的重点算法。本文详细介绍了两种类型的贝叶斯网隐变量模型,即隐类模
型和多层隐类模型,指出了两类模型的区别与联系,并阐述了在当前数据下,各个模型如
何分别得到最优模型。
在理论基础之上,本文应用贝叶斯网隐变量模型对实际 SNPs 数据进行了两个实例分
析。实例 1 应用山西医科大学第一医院抑郁障碍性疾病的单核苷酸多态性的检测数据,每
位患者分别测量 7 个 SNPs。数据分析结果显示,人群被分为两个潜在类别,各类别的概率
分别为 和 。造成两个类别概率不同的原因主要是由 rs11568817 和 rs130058 造成
的。根据这两个 SNPs 位点,可以对两个人群的内在特征进行解释,其中类别 1 倾向于杂
合子,类别 2 倾向于纯合子,各类别的概率分布情况由类概率分布直方表和类概率分布直
方图给出。实例 2 数据是由 GAW17 提供的,包含 697 个个体 22 条常染色体的上万个 SNP。
本次研究随机挑选出 1 号染色体上 12 个基因的 29 个 SNPs 作为研究对象,按照累计信息
贡献率达到 95%的原则,模型选出 C1S11408、C1S3201、C1S1786 等 15 个与 X0 互信息量
大的 SNPs 位点来对研究人群进行分类与解释。人群总体被分为 2 个类潜在类别,各类别
的概率分别为 和 ,其中第一个类别人群在各 SNPs 位点上纯合和杂合的概率大体
相当(除 CIS3201 外),差别不是很大;第二个类别人群在各 SNPs 位点上纯合与杂合的概
I
山西医科大学硕士学位论文

率差别特别大(个别位点除外)。实例 2 还对两个类别人群的疾病感染状况进行分析,结
果表明两个类别人群的疾病感染状况不一致,第二个类别人群感染率(%)明显高于
第一个类别人群(%),且差别具有统计学意义(  2  P  , ),而这种差
别正是用来分类和解释两个类别的 SNPs 造成的,我们有理由认为这些 SNPs 为可疑致病位
点,这就为进一步的研究提供明确思路。
本文讨论部分对本次研究的意义做了简单说明,并把贝叶斯网隐变量模型与结构方程
模型和概率参数化的潜在类别模型做了对比,研究的优点如结果陈列简单明了、可以对新
患者进行分类等和缺点如运行费时、理论复杂等以及研究展望也在讨论部分做了说明。

【关键词】贝叶斯网隐变量模型单核苷酸基因多态性潜类分析