文档介绍:94 中国烟草科学 Chinese o Science 2011-12,32(6)
烟草基因组学研究方法篇:
6. 生物信息学在烟草基因组研究中的应用
龚达平
(中国农业科学院烟草研究所,青岛 266101)
生物信息学是随着基因组测序数据迅猛增加而产生的一门新兴学科。人类基因组计划的顺利完成和新
一代测序技术的发展推动了更多动植物基因组测序计划的开展。所产生的海量生物学数据需要通过数据分
析和处理得到有用的信息,揭示其所隐藏的生物学内涵。生物信息学正是为迎接这一严峻挑战而发展起来
的一门交叉学科。
1 生物信息学的研究概况
生物信息学(bioinformatics)是由生命科学、计算机科学、信息科学、应用数学、统计学、物理、化
学等学科相互渗透而交叉形成的一门新兴前沿学科。它主要以计算机和互联网为工具,开发各种软件,对
海量的核酸和蛋白质序列和结构等相关信息进行收集、储存、发布、提取、加工和分析。
烟草生物信息学研究工作的主要内容包括[1]:收集分析国内外植物基因组数据信息,整合烟草基因组
数据,进行基因组序列的组装、注释以及比较进化分析,并建立中国烟草基因组数据库;运用生物信息学
研究手段,结合烟草丰富的遗传资源,开展中国烟草资源的单核苷酸多态性(SNP)、插入缺失多态性(Indel)
和结构变异(SV)的研究,开发分子标记并建立高密度遗传连锁图谱;借助基因芯片、转录组测序等技术
开展烟草全基因组表达谱分析;分离、克隆具有自主知识产权且有重要应用价值的新基因及表达调控元件,
挖掘优良性状基因的分子标记用于辅助育种,降低烟草危害并改良烟草品质。
2 生物信息学在烟草基因组研究中的应用
遗传图谱构建
遗传图谱的构建是利用分子标记检测作图群体,根据遗传重组得到标记在染色体上的线性排列顺序。
初步构建了 92 个 SRAP 和 20 个 ISSR 标记位点包含 26 个连锁群的烟草遗传连锁图谱,覆盖长度为 1
cM,平均图距 cM[2]。利用 112 个 AFLP 和 6 个 SRAP 标记构建了白肋烟的分子标记遗传连锁图谱,
包括 22 个连锁群,遗传长度为 1 cM[3]。构建了包括 11 个 ISSR 标记和 158 个 RAPD 标记,由 27 个
连锁群组成,覆盖 2 cM 的烤烟分子标记遗传连锁图谱[4]。利用美国烟草基因组计划产生的基因组序
列,开发了 5 119 个微卫星标记,构建了包含 2 317 个微卫星标记与 2 363 个位点的遗传图谱,标记间平均
距离小于 cM[5]。高密度遗传图谱可以将基因组精细图谱组装成染色体序列,有利于克隆重要的功能基
因和开展分子标记辅助育种。
转录数据分析
表达序列标签(EST)测序可以快速获得基因信息,用于构建物理图谱、发现新基因、注释基因组以
及开发分子标记。已获得 5 927 条烟草 EST,组装成 521 个重叠群和 3 079 个独立 EST;数据分析显示高
丰度表达基因主要涉及光合代谢、蛋白合成等植物基本的生理功能[6]。龚达平等构建了烟草叶片全长 cDNA
文库并测序获得 5 233 条 EST 序列,拼接出 3 922 个 U