1 / 29
文档名称:

转录组ref流程工作手册.doc

格式:doc   大小:1,239KB   页数:29页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

转录组ref流程工作手册.doc

上传人:花花世界 2019/11/8 文件大小:1.21 MB

下载得到文件列表

转录组ref流程工作手册.doc

文档介绍

文档介绍:--------------------------校验:_____________-----------------------日期:_____________转录组ref流程工作手册转录组ref流程工作手册一、Reference流程生物学原理图一:转录组实验流程当我们得到样品时,必须对其测序,才能得到分析所需的数据。测序基本过程:提取样品总RNA后,用带有Oligo(dT)的磁珠富集真核生物mRNA(若为原核生物,则用试剂盒去除rRNA后进入下一步)。加入fragmentationbuffer将mRNA打断成短片段,以mRNA为模板,用六碱基随机引物(randomhexamers)合成第一条cDNA链,然后加入缓冲液、dNTPs、RNaseH和DNApolymeraseI合成第二条cDNA链,在经过QiaQuickPCR试剂盒纯化并加EB缓冲液洗脱之后做末端修复并连接测序接头,然后用琼脂糖凝胶电泳进行片段大小选择,最后进行PCR扩增,使用建好的测序文库进行测序。得到RNA的序列后,又可以找到它的参考序列(物种本身的基因、基因组)时,可以用reference流程对数据进行详细的分析。Reference后面所有的流程都是基于参考序列进行的,所以选择正确的参考序列十分重要。得到测序序列后,即可利用比对软件,将所测序列比对到参考基因或基因组上,并进行后续分析,信息分析流程图如下:图二:转录组信息流程测序得到的原始图像数据经basecalling转化为序列数据,我们称之为rawdata或rawreads,结果以fastq文件格式存储,fastq文件为用户得到的最原始文件,里面存储reads的序列以及reads的测序质量。在fastq格式文件中每个read由四行描述:@+bbbbbbbbabbbbbbbbbbb每个序列共有4行,第1行和第3行是序列名称(有的fq文件为了节省存储空间会省略第三行“+”后面的序列名称),由测序仪产生;第2行是序列;第4行是序列的测序质量,每个字符对应第2行每个碱基,第四行每个字符对应的ASCII值减去64,即为该碱基的测序质量值,比如h对应的ASCII值为104,那么其对应的碱基质量值是40。碱基质量值范围为0到40。表1为Solexa测序错误率与测序质量值简明对应关系,具体计算公式如下:Qphred=-10log10(e)表1Solexa测序错误率与测序质量值简明对应关系5%13M1%20T30^40h某些原始序列带有adaptor序列,或含有少量低质量序列。我们首先经过一系列数据处理以去除杂质数据,得到Cleanreads。按如下步骤进行处理:去除含adaptor的reads去除N的比例大于10%的reads去除低质量reads(质量值Q<=5的碱基数占整个read的50%以上)获得Cleanreads原始序列数据经过去除杂质后得到的数据称为Cleanreads,后续分析都基于Cleanreads使用短reads比对软件SOAP2/SOAPaligner{Li,2009#155}将cleanreads分别比对到参考基因组和参考基因序列(允许两个碱基错配)。通过这一步骤,我们可以将测序得到的reads对应到基因及基因组上,后续分析都是基于上述比对结果。基本信息分析结果包含以下内容:1测序数据产量及与Reference比对结果概述统计数据量的大小,得到测序数据产量;对soap结果进行处理得到测序数据与Reference序列比对的概况。2评价测序随机性在转录组实验过程中,首先要通过物理或化学方法将转录本打断成短片段,然后上机测序。如果打断随机性差,reads偏向于来自基因特定区域,将会直接影响转录组的各项分析结果。利用reads在基因上的分布来评价打断随机性。由于不同参考基因有不同长度,我们把reads在基因上的位置标准化到相对位置(reads在基因上的位置与基因长度的比值),然后统计基因的不同位置比对上的reads数。如果打断随机性好,reads在基因各部位应分布得比较均匀。3基因覆盖度、测序深度的分布基因测序覆盖度指每个基因被reads覆盖的百分比,其值等于基因中uniquemappingreads覆盖的碱基数跟基因编码区所有碱基数的比值。测序深度指基因被reads覆盖的次数,其值等于reads覆盖到基因的碱基数与基因编码区所有碱基数的比值。4Reads在参考基因组上的分布该分析主要是以图形方式概括给出Reads在基因组各个位置的分布情况,以及该位置基因的分布情况。高级生物信息分析包含以下结果:1对基因结构进行优化通过比较测序结果和现有基因注释结果,对基因的5'端或3'端进行延长。如图三所示,首先,将reads比对到基因组,提取基因组中被uniquemappingreads覆盖的次数大于或等于某阈值(默