1 / 8
文档名称:

生物信息学笔记.pdf

格式:pdf   大小:901KB   页数:8页
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

生物信息学笔记.pdf

上传人:青山代下 2024/5/14 文件大小:901 KB

下载得到文件列表

生物信息学笔记.pdf

相关文档

文档介绍

文档介绍:该【生物信息学笔记 】是由【青山代下】上传分享,文档一共【8】页,该文档可以免费在线阅读,需要了解更多关于【生物信息学笔记 】的内容,可以使用淘豆网的站内搜索功能,选择自己适合的文档,以下文字是截取该文章内的部分文字,如需要获得完整电子版,请下载此文档到您的设备,方便您编辑和打印。:..第一章绪言生物信息学的主要信息载体:DNA和蛋白质生物主要的遗传物质DNA生物的物质基础蛋白质一、生物信息学概述1、定义生物信息学(Bioinformatics)是生命科学、现代信息科学、数学、物理学以及化学等多个学科交叉结合形成的一门学科,是利用信息技术和数学方法对生命科学研究中的生物学数据进行存储、检索和分析的科学。2、特点?以计算机为主要工具,以大量生物数据库和分析软件为基础??为人类揭示生命的奥秘提供了一条新的途径二、生物信息学的发展前基因组时代——生物数据库的建立、检索工具的开发、DNA和蛋白质序列分析、全局和局部的序列对位排列基因组时代——基因寻找和识别、网络数据库系统的建立、交互界面的开发后基因组时代——大规模基因组分析、蛋白质组分析三、生物信息学应用基础研究和教学:分子生物学研究的重要手段之一;生命科学的教学药物开发:新药筛选、药靶设计、分子药理学研究疾病诊断:利用疑难病症的病原DNA序列诊断疾病;遗传病的筛查其他:环境监测;食品安全检测;海关检测第二章数据库及其检索生物信息学数据库的建立及定义生物信息数据库:生物分子数据、分子结构结构及功能等实验证据一级数据库是直接来源于实验室获得的数据,即DNA和蛋白质数据库(X)在生物信息学中数据库查询是指对数据库中的注释信息进行基于关键词匹配查找,而数据库检索是指通过特定的序列相似性比对算法,在核酸或蛋白质序列数据库中获得序列信息(√)一、数据库定义?数据库(database)是一类用于存储和管理数据的计算机文档,是统一管理的相关数据的集合,其存储形式有利于数据信息的检索与调用。?数据库的每一条记录(record),也可以称为条目(entry),包含了多个描述某一类型数据特性或属性的字段(field),如基因名、来源物种、序列的创建日期等;值(value)则是指每条记录中某个字段的具体内容。二、生物信息数据库的分类(1)按照数据来源一级数据库:数据直接来源于实验获得的原始数据,只经过简单的归类整理和注释:..二级数据库:对原始生物分子数据进行整理、分类的结果,是在一级数据库、实验数据和理论分析的基础上针对特定的应用目标而建立的。(2)按照分子类型及功能核酸数据库、蛋白数据库、基因组数据库、启动子数据库(3)国际上权威的核酸数据库①欧洲分子生物学实验室的EMBL②美国生物技术信息中心的GenBank③日本遗传研究所的DDBJ三、数据库查询数据库检索、数据库搜索①数据库查询:是指对序列、结构以及各种二次数据库中的注释信息进行关键词匹配查找。②数据库检索:通过搜索引擎(Searchengine)查找需要的信息,是数据库查询的一种。③数据库搜索:在分子生物信息学中有特定含义,它是指通过特定的序列相似性比对算法,找出核酸或蛋白质序列数据库中与检测序列具有一定程度相似性的序列。?数据库查询、检索和搜索区别与联系?在生物信息学中,数据库搜索是专门针对核酸和蛋白质序列数据库而言,搜索的对象,不是数据库的注释信息,而是序列信息?数据库查询和数据库搜索在生物信息学中是两个完全不同的概念,所要解决的问题、所采用的方法和得到的结果均不相同GBFF格式是genbank数据库的基本信息单位,是最为广泛使用的生物信息学序列格式之一。uniprotkb/swiss-prot蛋白质序列数据库是由SIB和EBI共同维护和管理并随EMBL数据库一起发行。目前该数据库是最为常用、注释最全、包含独立项最多的数据库。它包括其他蛋白质序列库中经过验证的全部序列、其注释及蛋白质的功能、结构域和活性位点、二级结构、四级结构、翻译后修饰、与其他蛋白质的相似性等内容。第三章序列比对与比对搜索一、序列比对基础1、序列比对的意义序列比对是生物信息学中最基本的操作?序列比对可以用来预测两条序列(基因或者蛋白)是否具有相似的结构或者功能。?通过分析许多DNA和蛋白质序列,我们有可能确定一群分子之间共享的结构域(domain)或模体(motif)。?双序列比对是后面要介绍的BLAST(数据库比对搜索)的基础。?其他很多基因组的分析都基于双序列比对。2、序列比对的概念序列比对(sequencealignement)是指通过一定的数学模型或算法,并依据特定的打分规则,将它们按照一定的方式排列在一起,找出两条或多条序列(DNA或蛋白质序列)之间的最大匹配碱基或残基数,反应序列间相似性关系及生物学特征。分类;双序列比对、多序列比对全局相似性比对(globalalignment):序列从头到尾进行全长比较,适用于整体水平上相似性程度较高的两个序列局部相似性比对(localalignment):寻找相似性最高的区域,适用于亲缘关系较远,:..整体上不具相似性,但一些小的区域具有相似性的序列分析分子结构与功能进化3、序列比对的目的①序列比对是数据库相似性搜索的基础②序列比对是序列拼接的基础③识别序列中的保守序列与功能基序④蛋白质结构预测的重要途径⑤初步蛋白质功能推断的基础⑥用于推导进化树和与系统发育分析二、BLAST检索包括四个步骤①选定检索序列②选择BLAST程序③选择被检索的数据库④选择合适的参数⑤点击BLASTBLASTp:用蛋白质序列搜索蛋白质序列库BLASTn:用核酸序列搜索核酸库BLASTx:核酸序列对蛋白质库的比对,核酸序列在比对之前自动按照六个读码框翻译成蛋白质序列tBLASTn:蛋白质序列对核酸库的比对,核酸库中的序列按照六个读码框翻译后与蛋白质序列进行比对搜索tBLASTx:核酸序列对核酸库在蛋白质质级别的比对,两者都在搜索之前翻译成为蛋白质质进行比对E值表示仅仅因为随机性造成获得这一比对结果的可能性。这一数值越接近零,发生这一事件的可能性越小(E-value)。第四章序列特征分析一、?DNA分子的物理及化学性质主要取决于其序列中四种碱基的组成。碱基组成有两种方法表示,即碱基比例(baseratio)和GC百分比含量(简称GC含量,GCcontent)。、互补序列、互补反向序列:..?限制位点概要二、DNA序列的基本结构信息1、原核生物基因结构一个完整的原核基因结构是从基因的5’端启动子区域开始,到3’端终止区域结束。基因的转录开始位置由转录起始位点确定,转录过程直至遇到转录终止位点结束,转录的内容包括5'端非翻译区、开放阅读框及3’端非翻译区。基因翻译的准确起止位置由起始密码子和终止密码子决定,翻译的对象即为介于这两者之间的开放阅读框ORF。2、原核生物的基因表调控原核生物大多数基因表达调控是通过操纵子机制实现的。所谓操纵子通常由调节基因、启动子、操纵基因以及2个以上的编码序列(结构基因)在原核生物基因组中成簇串联组成。其中结构基因的表达受到操纵基因的调控。调节基因能产生作用于操纵基因的阻遏物(--种蛋白质),操纵基因靠近它所控制的结构基因,阻遏物与操纵基因的结合能阻止结构基因的转录。3、真核生物基因结构一个完整的真核生物基因,不但包括编码区域,还包括5'端和3'端两侧长度不等的特异性序列,虽然这些序列不编码氨基酸,却在基因表达的过程中起着重要的作用。所以,严格的“基因”这一术语的分子生物学定义是:产生一条多肽链或功能RNA所必需的全部核苷酸序列。三、开放阅读框开放阅读框是指从5'端开始翻译起始密码子(ATG)到终止密码子()的蛋白质编码碱基序列。每个序列都有6个可能的开放阅读框。四、启动子序列分析:..启动子;在TSS之前2000bp方法;首先截取ATG之前3000bp五、实验工具1、DNA序列的基本信息使用工具:BioXM,Bioedit,序列在线处理2、开放读码框查找使用工具:ORFinder3、基因结构分析使用工具:SoftBerry(FGENESH)4、启动子分析使用工具:PromoterScan六、聚合酶链反应PCR简介1、聚合酶链式反应具有特异性强、灵敏度高、操作简便、省时等特点。PCR广泛应用于基础研究(基因克隆、DNA测序、分析突变),食品安全检测(细菌、病毒、过敏原检测等),医学诊断检测(肿瘤检测等),法医(犯罪现场标本分析)2、PCR反应体系的五要素:模板、引物、酶、dNTP和Mg2+引物:人工合成的特异性寡核苷酸片段(18-33bp),个引物与感兴趣区域一端的一条DNA模板链互补,另一个引物与感兴趣区域另一端的另一条DNA模板链互补作用:在整个PCR体系中,引物占有十分重要的地位。PCR的特异性要求引物与靶DNA特异结合,不与其他非目的DNA结合,PCR的灵敏性要求DNA聚合酶能对引物进行有效的延伸,可见引物设计好坏与PCR结果密切相关。TaqDNA聚合酶:①来自水生栖热菌(Thermusaquaticus)②良好的耐热性③Mg2+依赖性④无校读功能?引物设计原则1、引物应在序列的保守区域设计并具有特异性2、引物的长度一般为15-30bp3、引物不应形成二级结构4、引物序列的GC含量一般为40-60%5、引物所对应模板位置序列的Tm值在72℃左右可使复性条件最佳6、引物5'端序列对PCR影响不太大,因此常用来引进修饰位点或标记物7、引物3’端不可修饰8、引物序列自身或者引物之间不能在出现3个以上的连续碱基9、应当选用3'端G值较低(绝对值不超过9),而5’端和中间G值相对较高的引物。第五章蛋白质序列分析ExPASy蛋白质的一级结构决定二级结构、蛋白质的二级结构决定三级结构一、食品过敏原一、食品过敏原定义:是指能够选择性地激活CD41h2细胞及B细胞,诱导产生特异性IgE抗体应答,引起变态反应的抗原性物质。与过敏反应相关的仅为蛋白质表面的抗原决定簇。1、抗原表位抗原表位,又称抗原决定簇(antigenicdeterminant,AD),是指抗原分子中决定抗原特异性的特殊化学基团,因而表位代表了抗原分子上的一个免疫活性区,负责与抗体分子或免疫细胞表面的抗原受体结合。:..?抗原通过抗原表位与相应的淋巴细胞表面的抗原受体结合,从而激活淋巴细胞,引起免疫应答;抗原也借表位与相应抗体或致敏淋巴细胞发生特异性结合而发挥免疫效应。?抗原表位的性质、数目和空间构型决定抗原的特异性。2、研究意义表位是蛋白质抗原性的基础,研究蛋白质抗原表位,对于设计具有免疫原性和中和活性的多肽、新型疫苗分子及新型诊断试剂具有较大意义。3、应用:食品过敏已经成为食品安全研究热点之一。表位是引起过敏反应的结构基础,所以对表位的精确预测和定位能够为开发低过敏或无过敏食品提供明确的靶标。食品过敏原检测;特异性诊断试剂研究。二、蛋白质分析基本假设:蛋白质的空间结构由蛋白质序列所决定。(1)蛋白质的理化性质Protparam蛋白质的分子量、氨基酸的组成、等电点、消光系数、亲水性和疏水性、跨膜区、信号肽、范一厚修饰位点氨基酸的分类:疏水氨基酸、极性氨基酸、带电氨基酸(2)蛋白质疏水性ProtScale疏水性分析的意义疏水作用是蛋白质折叠的主要驱动力分析蛋白质氨基酸亲疏水性是了解蛋白质折叠的第一步氨基酸疏水分析为蛋白质二级结构预测提供佐证是分析蛋白质跨膜区重要一步(3)信号肽的预测SignaIP信号肽:分泌蛋白的N端都有一段约15-35个氨基酸的疏水性肽段,其功能是引导蛋白质多肽链穿过内质网膜进入腔内。分类:分泌信号肽、脂蛋白信号肽、Pilin-like信号肽、细菌素和细菌素信号肽信号肽主要由三个domain组成:N-region、H-regin和C-region。(隐马可夫模型)(4)卷曲螺旋区分析COILS卷曲螺旋(coiledcoil)是蛋白质中由2~7条α螺旋链缠绕成麻花状结构的总称。存在于多种天然蛋白质中,如转录因子、结构蛋白、膜蛋白中,在生物体内执行着代谢调控、分子运动、膜通道、分子识别等重要的生物功能。(5)跨膜区预测TMpred/TMHMM典型的跨膜螺旋区主要是由20~30个疏水性氨基酸(Leu、Ile、Val、Met、Gly、Ala等)组成;亲水残基往往出现在疏水残基之间,对功能有重要的作用;基于亲/疏水量和蛋白质跨膜区每个氨基酸的统计学分布偏好性。第六章分子进化与系统发育分析?分子途径研究生物进化的可行性:普适性、可比较性、基因组包含丰富的编码信息?分子进化的特点:生物大分子进化速率相对恒定;生物大分子进化的保守性一、同源性与相似性相似性(Similarity):序列比对过程中用来描述检测序列和目标序列之间相似DNA碱基或氨基酸残基序列所占比例;定量描述;:..同源性(Homology):两个基因或蛋白质序列具有共同祖先的结论;定性判断;相似不一定同源,同源不一定相似。氨基酸序列相似性超过30%,很可能同源。两种同源物之间的关系:直系同源物、旁系同源物、异系同源物二、系统发育树?系统发育树的类型:分支树、进化树、时间度量树?系统进化树的种类:有根树和无根树;标度树和非标度树;物种树和基因树无根树有根树分类群数树分枝/树树分枝/树(2N-5)!(2N-3)!N2N-32N-22N-3(N-3)!2N-2(N-2)!三、生物进化分析生物进化分析是生物信息学的一个重要分支。它通过对生物序列的研究推测基因或物种的进化历史。主要方法包括通过DNA序列,蛋白质序列,蛋白质结构等来构建分子进化树或者种系发生树,或者通过蛋白质结构比较包括刚体结构叠合和多结构特征比较等方法建立结构进化树。分子进化分析的主要内容有:1)直系/旁系同源基因的判定;2)估计分歧时间;3)重建祖先序列/性状;4)发现生物序列上自然选择影响较大的重要位点;5)确定基因重组的发生位点;6)识别和疾病关联的突变;7)确定病原体的分类;8)基因的演化历史……四、MEGA的特点:①推测序列或者物种间的进化距离②根据MCL(positeLikelioodmethod)的方法构建系统发育树③考虑到了不同碱基替换的不同的比率,考虑到了碱基转换和颠换的差别。④随时可以使用标注:所以的结果输入都可以使用标注,而且标注的内容可以被保存,复制。阐述系统进化树构建方法①获得序列②NCBI上做BLAST③比对序列,④构建系统进化树:..系统发育树构建的基本方法1、距离法(distance-basedmethods)Fitch-MargoliashMethod(FM法):对短支长非常有效邻位相连法(neighbor-joining)求最短支长,最通用的距离方法非加权分组平均法(UPGMA)邻居关系法(NeighborsRelatonMethod)2、特征信息法(character-basedmethods)最大简约法(MaximumParsimony,MP)最大似然法(MaximumLikelihood,ML)