1 / 16
文档名称:

无参考基因的转录组分析.pdf

格式:pdf   页数:16页
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

无参考基因的转录组分析.pdf

上传人:顾生等等 2016/1/18 文件大小:0 KB

下载得到文件列表

无参考基因的转录组分析.pdf

文档介绍

文档介绍:无参考基因的转录组分析一、实验流程提取样品总RNA后,用带有Oligo(dT)的磁珠富集真核生物mRNA(若为原核生物,则用试剂盒去除rRNA后进入下一步)。加入fragmentation buffer将mRNA打断成短片段,以mRNA为模板,用六碱基随机引物(random hexamers)合成第一条cDNA链,然后加入缓冲液、dNTPs、RNase H和DNA polymerase I合成第二条cDNA链,在经过QiaQuick PCR试剂盒纯化并加EB缓冲液洗脱之后做末端修复、加poly(A)并连接测序接头,然后用琼脂糖凝胶电泳进行片段大小选择,最后进行PCR扩增,建好的测序文库用Illumina HiSeq? 2000进行测序。二、信息分析流程1、产量统计原始序列数据测序得到的原始图像数据经base calling转化为序列数据,我们称之为raw data或raw reads,结果以fastq文件格式存储,fastq文件为用户得到的最原始文件,里面存储reads的序列以及reads的测序质量。在fastq格式文件中每个read由四行描述:\***@FC61FL8AAXX:1:17:1012:19200#GCCAAT/1CCACTGTCATGTGAACATCACAGAGACATTTCTTGA+bbbbbbbbbbbbbbbbbbbbbbbbbaaaaaaaaa_\\每个序列共有4行,第1行和第3行是序列名称(有的fq文件为了节省存储空间会省略第三行“+”后面的序列名称),由测序仪产生;第2行是序列;第4行是序列的测序质量,每个字符对应第2行每个碱基,第四行每个字符对应的ASCII值减去64,即为该碱基的测序质量值,比如c对应的ASCII值为99,那么其对应的碱基质量值是35。从Illumina GA Pipeline (),碱基质量值范围为2到35。表1为测序错误率与测序质量值简明对应关系。具体地,如果测序错误率用E表示,碱基质量值用sQ表示,则有下列关系:sQ = -10lgE表1 测序错误率与测序质量值简明对应关系测序错误率测序质量值对应字符5%13M1%%30^去除杂质数据某些原始序列带有adaptor序列,或含有少量低质量序列。我们首先经过一系列数据处理以去除杂质数据,得到Clean reads。数据处理的步骤:%(质量值Q≤5的碱基数占整个read的50%以上) readsClean Reads数据原始序列数据经过去除杂质后得到的数据。产量统计和后续信息分析分析都基于Clean Reads。测序产量统计表格示例SamplesTotal ReadsTotal Nucleotides (nt)Q20 percentageN percentageGC percentage *Sample_A1,634,670122,600,%%%* Total Nucleotides = Total Reads1 x Read1 size + Total Reads2 x Read2 size; Total Reads and Total Nucleotides are actually clean reads and clean nucleotides; Q20 percentage is proportion of nucleotides with quality value larger than 20; N percentage is proportion of unknown nucleotides in clean reads; GC percentage is proportion of guanidine and cytosine nucleotides among total 、组装结果我们使用短reads组装软件SOAPdenovo[5]做转录组从头组装。SOAPdenovo首先将具有一定长度overlap的reads连成更长的片段,这些通过reads overlap关系得到的不含N的组装片段我们称之称为Contig。然后,我们将reads比对回Contig,通过paired-end reads能确定来自同一转录本的不同Contig以及这些Contig之间的距离,SOAPdenovo将这些Contig连在一起,中间未知序列用N表示,这样就得到Scaffold。进一步利用paired-end reads对Scaffold做补洞处理,最后得到含N最少,两端不能再延长的序列,我们称之为Unigene。如果