文档介绍:真核基因组分析常规流程二代数据质量控制二代测序数据质量控制软件FastQC分析的内容包括:测序数据的基本信息每个碱基的质量值每条reads序列的质量值每条序列的ATCG组成每条序列N的含量每条序列的长度分布序列中duplication程度K-mer信息软件信息:,具体方法参看软件说明。组装结果评估将组装用reads回贴到组装的基因组上,看readsmappingrate来评估组装的质量可以使用bwa来比对,samtools来统计使用CEGMA来评估组装的完整性CEGMA(CoreEukaryoticGenesMappingApproach):,andtheprotocol,CEGMA,heirexon-intronstructures基因组注释重复序列注释基因注释蛋白功能注释蛋白结构注释:interproscan同源注释:swissprottremble数据库通路:kegg数据库进化分析基因家族聚类同源的蛋白质可以分为直系同源与旁系同源,当同源是基因复制的结果,两份拷贝在一个物种的历史上是平行演化的,这样的基因被称为旁系同源基因。当同源是物种形成的结果,基因的历史反映了物种的历史,被称为直系同源;直系同源是不同物种内的同源序列,他们是来自于物种形成时的共同祖先基因;通常认为直系同源的序列具有相似的生物学功能;使用OrthoMCL聚类系统发育树构建选取所有物种的单拷贝同源基因,分别进行比对,连成一个supergene,提取四倍简并位点构建系统树分歧时间计算使用PAMLmcmctre