文档介绍:《总结课程》
生物信息学概念
《生物信息学》第一讲
生物信息学从事对基因组研究相关生物信息的获取、加工、储存、分配、分析和解释。
一是对海量数据的收集、整理与服务,也就是管好这些数据。
另一个是从中发现新的规律,也就是
历史寻踪
最大的成绩或许就是得分矩阵的出现, Dayhoff被称作生物信息学之父或许更合适。
简单了解 Dayhoff 矩阵
Relationship between scoring matrices. The BLOSUM62 has become a de facto standard scoring matrix for a wide range of alignment programs. It is the default matrix in BLAST
PAM模型可用于寻找蛋白质的进化起源
BLOSUM模型则用于发现蛋白质的保守域
=2-(1+2/3)
序列1:GCC-UCG
序列2:GCCAUUG
局部比对
序列1:CAGCC-UCGCUUAG
序列2:AAUGCCAUUGACGG
全局比对
《生物信息学》第七、八讲
BLAST
BLAST
BLAST
(Basic Local Alignment Search Tool)
is a set of similarity search programs that explore all of the available sequence databases for protein or DNA.
BLAST
(基本局部相似性比对搜索工具 )
是一套用来探索可供使用的序列数据库中所有DNA或者蛋白质的相似性搜索程序
Local:局部
研究对象:DNA或者蛋白质
搜多对象:数据库
E-value
BLAST相似度的主要评测指标
HHAFDEG
ACDEGGG
4-2+6+5+6=19
《生物信息学》第九、十讲
Genome
A
B
C
A
B
C
大片段contig
小片段测序拼装
有特异性的分子路标,拼接准确,错误少,但为确定分子路标而构建图谱相当耗时
A
B
C
A
B
C
A
B
C
A
B
C
小片段测序
计算机拼装
优点:不需预先了解任何基因组的情况
缺点:容易错误装配
2001年2月,文特尔小组所做的人类基因组测序报告发表在《科学》杂志上
科林斯带领的公共资金支持的实验室联合体的报告同时发表在《自然》杂志上
Public HGP
Celera Genomics
“复杂而没有生命的化学物质可以构成我们的遗传密码,这是如此的奇妙,更能体现人类的精神,足以让哲学家和诗人们感叹一千年”
去生活,去犯错,去跌倒,去胜利,去用生命再创生命。
----詹姆斯·乔伊斯
名词翻译
STS:序列标签位点
EST:表达序列标签
ORTHOLOGS:直系同源
PARALOGS:旁系同源
CDS:编码序列
EXON:外显子
ORF:开放阅读框
PHI-BLAST:模式识别BLAST
PSI-BLAST:位置特异的迭代BLAST
SNP:单核苷酸多态性
名词解释
Fasta格式:
FASTA格式又称Pearson的格式,该种序列格式要求序列的标题行以大于号">"开头,下一行起为具体的序列。一般建议每行的字符数不超过80个,以比对程序的处理。
医学主题词MeSH
是Medical Subject Headings的缩略词,即医学主题词,是用规范化的医学术语来描述生物医学概念。NIH的工作人员按MeSH词表规定,浏览生物医学期刊全文后标引出每篇文献中的MeSH主题词,其中论述文献中心的主题词称主要主题词(major topic headings),论述主题某一方面的内容的词称为副主题词。
直系同源:
Orthologs是指来自于不同物种的由垂直家系(物种形成)进化而来的蛋白,并且典型的保留与原始蛋白有相同的功能。
序列模体(motif): 
 通常指蛋白序列中相邻或相近的一组具有保守性的残基,与蛋白质分子及家族的功能有关。
计分矩阵(scoring matrix):
记分矩阵是描述残基(氨基酸或碱基)在比对中出现的概率值的表。在记分矩阵中的值是两种概率比值的对数,一个是在序列比对中氨基酸随机发生的概率。这个值只是指出每个氨基酸出现的独立几率的概率。另一个是在序列比对中,一对残基的出现的有意义的概率。