1 / 52
文档名称:

基因组浏览器底层数据的分析和集成.pdf

格式:pdf   页数:52页
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

基因组浏览器底层数据的分析和集成.pdf

上传人:511709291 2016/2/5 文件大小:0 KB

下载得到文件列表

基因组浏览器底层数据的分析和集成.pdf

相关文档

文档介绍

文档介绍:ClassifiedIndex: : for the Master Degree in EngineeringANALYSIS AND INTEGRATION OFGENOME BROWSERUNDERLYING DATACandidate:Wang ZhenxingSupervisor: YadongAcademic Degree Applied for:Master of puter Science and puter Science and TechnologyDate of Defence:July, 2013Degree-Conferring-Institution:Harbin Institute of Technology哈尔滨工业大学硕士学位论文-I-摘要随着测序技术的不断发展和千人基因组计划的推动,基因组数据已经大量出现,着眼于全基因组范围的关联研究成果正不断被发表出来。基因组浏览器已成为广泛应用的工具之一,结合各类生物信息学数据库对基因组数据进行分析是一个有效的方法。如何对基因组数据进行多方位的深入分析,特别是在疾病方面会对个人产生何种影响是重要的研究课题。针对目前大多数基因组浏览器在疾病药物相关数据库整合方面的欠缺,本文制定了五条标准筛选了疾病药物相关数据库,并通过一个新的文件格式——GDF对这些数据库数据进行融合,运用加权打分和基于信息量的方法对数据的可信度进行评估,并对评估结果进行比较。通过类似数据仓库的方法将数据集成到一个B/S结构的基因组浏览器中,实现了不同的FileReader对不同类型的数据进行处理,用XML格式作为数据传输格式,通过对系统的部分性能测试发现其在加载本地服务器数据时耗费时间很短,具有较好的性能。主要研究成果是:对现有基因组浏览器底层数据类型进行归纳,通过加入疾病药物相关数据丰富了基因组浏览器的展示内容,形成了一个比较完善的知识体系,为研究者提供全面、便捷的参考;创建GDF格式存储疾病药物相关数据,有利于不同数据库之间的数据整合;通过运用加权打分和基于信息量的方法对整合数据的可信度进行评估,确保基因组浏览器加载数据的准确性;由于基因组数据格式的多样性,对数据仓库进行改进,使用不同的文件处理接口,提高文件处理的速度。关键词:基因组浏览器;数据集成;生物信息学;加权打分;信息量哈尔滨工业大学硕士学位论文-II-AbstractWith the continuous development of the sequencing techniques and driven by the 1000 Genomes Project, massive personal genome data has been released and the results of genome-wide association studyis constantly being is an efficient method that genome browser which has e a widely used bining various bioinformatics databases to analyzethegenome data. It is an importantresearch topic how to analysis genomicdata in the impact on the individual, especially on individual disease, in multi-faceted approaches. For filling the gaps in integration of most genome browsers and disease/drug-related databases, in this paper we formulated five standards to filter the disease/drug-related databasesand integrated themby changing them into GDF formatwhich was created by extending GFF3 format,and evaluated the credibility of entries by weighted scoring and information content,pared