1 / 22
文档名称:

GATK使用方法.docx

格式:docx   大小:258KB   页数:22页
下载后只包含 1 个 DOCX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

GATK使用方法.docx

上传人:s0012230 2017/8/16 文件大小:258 KB

下载得到文件列表

GATK使用方法.docx

相关文档

文档介绍

文档介绍:GATK使用方法详解(包含bwa使用)第一部分
 
一、使用GATK前须知事项:
(1)对GATK的测试主要使用的是人类全基因组和外显子组的测序数据,而且全部是基于illumina数据格式,目前还没有提供其他格式文件(如Ion Torrent)或者实验设计(RNA-Seq)的分析方法。
(2)GATK是一个应用于前沿科学研究的软件,不断在更新和修正,因此,在使用GATK进行变异检测时,最好是下载最新的版本,(2014-02-25)。下载网站:k/download。
(3)在GATK使用过程中(见下面图),有些步骤需要用到已知变异信息,对于这些已知变异,GATK只提供了人类的已知变异信息,可以在GATK的FTP站点下载(GATK resource bundle)。如果要研究的不是人类基因组,需要自行构建已知变异,GATK提供了详细的构建方法。
(4)GATK在进行BQSR和VQSR的过程中会使用到R软件绘制一些图,因此,在运行GATK之前最好先检查一下是否正确安装了R和所需要的包,所需要的包大概包括ggplot2、gplots、bitops、caTools、colorspace、gdata、gsalib、reshape、RColorBrewer等。如果画图时出现错误,会提示需要安装的包的名称。
 
二、GATK的使用流程
GATK最佳使用方案:共3大步骤。原始数据的处理—变异检测—初步分析。
 
第一大步:原始数据的处理
 
1. 对原始下机fastq文件进行过滤和比对(mapping)
对于Illumina下机数据推荐使用bwa进行mapping。
 
Bwa比对步骤大致如下:
(1)对参考基因组构建索引:
     例子:bwa index -a bwtsw 。最后生成文件:、、、。
     构建索引时需要注意的问题:bwa构建索引有两种算法,两种算法都是基于BWT的,这两种算法通过参数-a is 和-a bwtsw进行选择。其中-a bwtsw对于短的参考序列是不工作的,必须要大于等于10Mb;-a is是默认参数,这个参数不适用于大的参考序列,必须要小于等于2G。
(2)寻找输入reads文件的SA坐标。
     对于pair end数据,每个reads文件单独做运算,single end数据就不用说了,只有一个文件。
     例子:pair end:
bwa  aln      -l 30  -k 2  -t 4  -I  >
bwa  aln      -l 30  -k 2  -t 4  -I  >
single end:
bwa  aln      -l 30  -k 2  -t 4  -I  >
主要参数说明:
-o int:允许出现的最大gap数。
-e int:每个gap允许的最大长度。
-d int:不允许在3’端出现大于多少bp的deletion。
-i int:不允许在reads两端出现大于多少bp的indel。
-l int:Read前多少个碱基作为seed,如果设置的seed大于read长度,将无法继续,最
好设置在25-35,与-k 2 配合使用。
-k int:在seed中的最大编辑距离,使用默认2,与-l配合使用。
-t int:要使用的线程数。
-R int:此参数只应用于pair end中,当没有出现大于此值的最佳比对结果时,将会降低标
准再次进行比对。增加这个值可以提高配对比对的准确率,但是同时会消耗更长的
时间,默认是32。
-I int:表示输入的文件格式为Illumina +数据格式。
-B int:设置标记序列。从5’端开始多少个碱基作为标记序列,当-B为正值时,在比对之
前会将每个read的标记序列剪切,并将此标记序列表示在BC SAM 标签里,对于
pair end数据,两端的标记序列会被连接。
-b :指定输入格式为bam格式。bwa  aln      >
 
(3)生成sam格式的比对文件。如果一条read比对到多个位置,会随机选择一种。
     例子:single end:bwa  samse      

最近更新

河南省信阳市陈元光中学高一物理模拟试卷含解.. 5页

河南省信阳市陈淋职业高级中学高二物理上学期.. 5页

河南省南阳市乡中学2022年高三英语月考试卷含.. 4页

2025年年度采购员工作总结范文 10页

二零二五年度住宅小区改造工程合同书0531 3页

河南省南阳市宜春中学高二数学理模拟试题含解.. 11页

河南省南阳市寿宁县高级中学高一生物期末试卷.. 9页

河南省南阳市新野县实验中学2021-2022学年高三.. 7页

家庭亲子关系中的心理辅导活动 27页

河南省南阳市田庄中学高二语文联考试题含解析.. 9页

河南省南阳市秘协秘书学院附属中学2020-2021学.. 9页

河南省南阳市第六中学2020-2021学年高一化学月.. 4页

河南省南阳市育阳工艺美术职业高级中学高二数.. 5页

河南省南阳市邓州第一中学2022年高三英语模拟.. 5页

河南省南阳市镇平县第二高级中学2020年高一英.. 3页

河南省南阳市镇平县枣园中学高三化学期末试题.. 6页

河南省周口市中心中学高三化学联考试题含解析.. 6页

河南省周口市中心中学高三数学理月考试卷含解.. 5页

河南省周口市农场职业中学2020年高三数学理期.. 6页

河南省周口市博德中学2020年高一化学联考试题.. 4页

河南省周口市回族中学2022年高三物理模拟试题.. 8页

河南省周口市太康县第四中学2020-2021学年高一.. 8页

河南省周口市李乡中学2020年高一生物联考试题.. 9页

河南省周口市新光明中学2021年高一语文联考试.. 12页

河南省周口市现代中学高一地理上学期期末试题.. 10页

河南省周口市职业高级中学高一化学测试题含解.. 4页

直臂式高空作业车施工方案 5页

上海迪士尼员工保密协议 9页

苏教版高中化学必修一专题一测试卷 5页

《新时代教师职业行为十项准则》心得体会 13页