文档介绍:哈尔滨工业大学
硕士学位论文
基于基因表达谱的疾病亚型特征基因挖掘算法的研究
姓名:徐连彬
申请学位级别:硕士
专业:计算机科学与技术
指导教师:王亚东
20050601
摘要基因对疾病亚型鉴别能力的模式质量测度,实现特征基因挖掘。关键词基因表达谱;无监督聚类;特征基因挖掘基因芯片技术能够同时检测出成千卜万的基凶的表达水甲,对于功能基因组学的发展起了小可估量的作用。庸用酒际酰梢曰竦酶咄量的基因表达谱数据。通过这些基因表达谱数据,挖掘出能够鉴别疾病亚型在本文中,我们对于基因表达谱数据的特点进行了研究,根据基幽表达诺数据的特点提出了表达谱数据噪卢过滤、数值规范化两个方法;然后对于猣劾喾椒ㄔ诒泶锲资萆系挠τ媒辛松钊氲难芯浚⑻酙出了种确定分类数目的方法;结合以上的方法,我们提出了一种基丁基因表达谱的疾病亚型的特征基因挖掘方法,其中,我们提出了~个衡量特征基冈对疾病亚型鉴别能力的测度:模式质量。该特征基因挖掘方法基于规范化和过滤后的基因表达谱,融合了:劾嗍侗鸺膊⊙切图际鹾吞岢龅暮庀卣最后将提出的方法应用于例结薨┳橹龌虻谋泶锲资验数据,并将结果可视化,通过特征提取前后模式质量的比较以及可视化的的特征基因,对于癌症等疾病诊断及病理学研究具有非常重要的实际意义。结果显示:提出的方法足一种可行的疾病业型特征基因挖掘方法,方法的优势在于可并行实现疾病哑型划分和特征基因识别。哈尔滨工业大学工学硕十学位论文
一堕篁堡三些查兰三耋堡圭兰竺兰兰甒.—:甌甌,甌..,,:.;;.’.
堕查薹三竺奎耋;:;耋彗圭兰堡篁墨——第滦髀课题的目的和意义课题背景入点:但发展高效的基于芯片数据的分析方法和策略,利用基凶芯片从事更表达状态的改变,从而进一步引起和这几个基因相关的更多基因的表达模式的们需要站在更高的层次全面、系统地理解这种相互关系,了解不同个体基因变临床诊断具有重大意义,因此功能基因组的挑战之一是寻找复杂疾病亚型的相复杂的生物学鳎纾貉罢壹膊∠喙鼗颉⒁┪锇蟹⑾掷菇ɑ蛲绲氖分析方法和策略研究等,,生命科学进入了后基因组时代瓽。在后基因组时代,生命科学研究的重点从单个基因的研究上升到对整个基因组功能和动态变化规律的研究。基冈的功能的发挥是非独立的,一个基因表达状念的变化往往影响上游或下游儿个基冈改变。基因之间的这种复杂的相互作用组成了~张错综复杂的立体笑系网。我异,不同组织,不同时间,不同生命状态等的基因表达信息,并找山其巾的规律,阐明不同层次多基因协同作用的机理。目前,许多面向功能基凼鳎研究的高通量实验技术手段在不断的发展和完善中,多种类型的巨量的分子生物学数据正迅猛增加,如何利用机器学习和数据挖掘方法从这些数据中挖掘出有效的系统的生物学知识,将是功能基因组学的主要任务【。人类疾病或健康状态与基因直接或间接相关,疾病发生过程是相关基因与内外环境相互作用的结粜,而且由于同‘疾病由于其在基因水平上表达情况不同还分为不同的亚型,这对应用酒际蹩梢栽凇ù,它映射,生物体在四维空间奔浜腿锾某特定横切面上基因的活动规律近年来,尽管基因芯片这律镅Ъ际跷N颐翘剿魃陌旅卣业搅诵碌那方法是一个难题关基因。
,一。——谕庋芯肯肿春徒堕玺鎏王些查兰三兰竺圭耋篁坠圣人类基因组计划、后基因组计划结肠癌有关的基因。等㈣利用决策树集成的方法选择出与结肠癌相关的基叫此外,在基因表达谱数据获取过程中,由于非特异性杂交等原因,基因表达测基因堑湫偷母呶⒏咴肷侍猓硗庖环矫妫捎诠δ芟嗨频幕实谋维、高相关哂特点的有限样本基因表达谱数据,识别对疾病有鉴别意义的大赴馨土龅牧礁鲅切汀!,由于实验成本较高,样本的数目上,而检测基因的数目往往高达几千甚至几万,,为机器学习研究提出了新的课题。最有效的解决途径之~是识别疾病相关基因和排除嗓音特征,,如患煅榉ǎ霾呤法等等,但是这些传统的特征基因挖掘方法都是依据样品在临床上的分类而进行的,并没有考虑到样品在水平,卜的表现,有较大的局限性琽样品在水平上进行分类并挖掘特征基冈,则有可能从较深的层次发现生物学的规律,具有更火的价值和启发性。目前已有大量的研究将基因芯片应用于解决识别对疾病有鉴别力的特征基因的特征选择问题啊取利用/汉停畗;决策树集成的方法选择以上工作显示,将基因苍片技术应用于寻找疾病相关的特征基冈具有快速、简便和精确的特点。“人类基因