文档介绍:Forpersonaluseonlyinstudyandresearch;mercialuse《生物信息学》操作练****一)数据库搜索与序列比对2013/3/27布置,一周内完成,结果存为单个word文件,文件名统一为“学号-姓名-”,上传网络教学平台或邮箱“”。现有如下序列:MALAGAPAGGPCAPALEALLGAGALRLLDSSQIVIISAAQDASAPPAPTGPAAPAAGPCDPDLLLFATPQAPRPTPSAPRPALGRPPVKRRLDLETDHQYLAESSGPARGRGRHPGKGVKSPGEKSRYETSLNLTTKRFLELLSHSADGVVDLNWAAEVLKVQKRRIYDITNVLEGIQLIAKKSKNHIQWLGSHTTVGVGGRLEGLTQDLRQLQESEQQLDHLMNICTTQLRLLSEDTDSQRLAYVTCQDLRSIADPAEQMVMVIKAPPETQLQAVDSSENFQISLKSKQGPIDVFLCPEETVGGISPGKTPSQEVTSEEENRATDSATIVSPPPSSPPSSLTTDPSQSLLSLEQEPLLSRMGSLRAPVDEDRLSPLVAADSLLEHVREDFSGLLPEEFISLSPPHEALDYHFGLEEGEGIRDLFDCDFGDLTPLDF要求:用NCBIBlastP比对(使用默认参数)搜索,以确定该蛋白质的名称、序列号、物种来源等基本信息;通过BLAST寻找其在小鼠(Musmusculus)中相似度最高的同源蛋白,提供比对结果;通过比对Pfam数据库,推断该蛋白属于何种蛋白质家族,可能的功能是什么?多重比对练****已知拟南芥(Arabidopsisthaliana)转录因子E2F家族包含6个成员,分别为E2Fa(又名E2F3),E2Fb(又名E2F1),E2Fc,E2Fd,E2Fe,E2Ff,请通过Entrez查寻其蛋白质序列信息,并将结果保存为FASTA格式;建立上述蛋白的多重比对FASTA文件;用ClustalW或ClustaX进行多重比对,将结果保存下来以便进一步分析。(二)按要求对以下序列进行比对分析(命名为“”).ATCGGATGAACAGCATGC(1)用NCBIBlastX(核酸à蛋白质数据库),推断该基因组序列最有可能编码的蛋白质是什么?长度多少?其登录号(accessionnumber)是多少?(2)请标出以上所得的蛋白质对应的query核酸编码序列的起止位置。(3)以该蛋白序列为模板,用BlastP搜索,将最大命中数(Maxtargetsequences)设为1000:(a)若使用默认的non-redundantprotein(nr)database,默认参数不变,Blast输出多少条序列?结果最末位的序列的E值为多少?(b)若换用SwissProt蛋白质数据库,其他默认参数不变,Blast输出多少条序列?结果最末位的序列的E值为多少?(4)若想获得与该蛋白相关的空间结构信息,该如何操作,试对结果做简单统计。统计内容应包括多少个物种,每条序列的相似度(identity%,similarity%)如何。(5)对(4)操作获得的序列进行多重比对,给出结果。Query330MPPMlsgllarlvklllGR