文档介绍:学校代码 10530 学号 200610020888
分类号 O469 密级
硕士学位论文
基于随机矩阵理论的层次聚类方法
在基因网络研究中的应用
学位申请人陈健
指导教师张凯旺教授钟建新教授
学院名称材料与光电物理学院
学科专业凝聚态物理
研究方向计算凝聚态物理
二〇〇九年五月二十日
Application of random matrix theory-based
hierarchical clustering method on gene
co-works
Candidate Chen Jian
Supervisor Prof. Zhang Kai-Wang and Prof. Zhong Jian-Xin
College Faculty of Material and Photoelectronic Physics
Program Condensed State Physics
putational Physics
Degree Master of Science
University Xiangtan University
Date 2009-5-20
湘潭大学
学位论文原创性声明
本人郑重声明:所呈交的论文是本人在导师的指导下独立进行研究所
取得的研究成果。除了文中特别加以标注引用的内容外,本论文不包含任
何其他个人或集体已经发表或撰写的成果作品。对本文的研究做出重要贡
献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的
法律后果由本人承担。
作者签名: 日期: 年月日
学位论文版权使用授权书
本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意
学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文
被查阅和借阅。本人授权湘潭大学可以将本学位论文的全部或部分内容编
入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇
编本学位论文。
涉密论文按学校规定处理。
作者签名: 日期: 年月日
导师签名:
日期: 年月日
摘要
随着生物信息学和计算机技术的发展,人类基因组草图的公布标志着生命科
学的研究已进入后基因组时代,科学家们把研究的焦点转向了功能基因组学,即
对基因及其表达产物的功能进行研究。生物体系具有模块性,生物体系的整体功
能特性通过分立模块的功能特性共同体现。建立起具有模块性的生物网络能够更
全面地表达生物体系的功能特性。识别生物体系的功能模块成为后基因组时代对
生物学家的又一大挑战。
基因芯片技术具有平行性和高通量的特点,已成为大规模提取和探索生物分
子信息的强有力手段。如何从基因芯片数据中识别功能模块,并从功能模块的角
度构建子网络,进而构建由子网络构成的基因网络,更全面地表达生物体系的结
构和功能,成为生物学家们研究的热点,同时也是研究的难点。
本文将随机矩阵理论(RMT)与层次聚类方法相结合分析基因芯片表达数
据的模块性,针对不同的基因组构建相应的功能模块,主要包括以下几个方面的
内容:
RMT 与层次聚类方法相结合研究酿酒酵母基因网络的模块性,应用 K
最近邻(KNN)方法处理基因表达数据中的缺失数据,使用均方根误差(NRMSE)
方法来确定最近邻间隔分布(NNSDs)的转变阈值。研究表明,基于 RMT 的层
次聚类方法识别基因网络的功能模块具有普适性,能有效地将酿酒酵母基因网络
中本质的、非随机的属性同随机噪声分离,客观地确定阈值、识别出网络的功能
模块。确定 NNSDs 的转变阈值 qc=;使用层次聚类方法对特征表达的基因进
行聚类分析,发现 CLN2、CLB2 等功能模块对细胞周期调控起关键作用,依据
已知基因的功能准确地预测未知基因 YLR190W,YCR016W 等的功能,补充了
未知基因的功能注释。
RMT 与层次聚类相结合的方法研究弥散性大 B 细胞淋巴瘤(DLBCL)
基因网络的模块性,应用局域最小二乘(LLS)方法处理基因表达数据中的缺失
数据,使用 NRMSE 比值的方法来确定 NNSDs 的转变阈值。我们发现,基于 RMT
的层次聚类方法能够有效地去除 DLBCL 基因网络中的随机噪声,得到过渡区间
为[,]。在转变点 qc= 处,通过基因表达谱分析 DLBCL 的分子异质
性,并将 DLBCL 分为两个亚型:GCB 和 ABC 亚型。在转变完成点 qm=