文档介绍：蛋白质序列二级结构的搜索
管理资源吧(),提供海量管理资料免费下载!
Abstract
生命科学家使用的生物数据集的查询工具效率低下
在基于二级结构的大型数据集上搜索的问题
定义了直观的二级结构的查询语言
评估查询的算法
在Periscope、ORDBMS上实现算法
框架:优化查询、评估各种查询估计计划的开销
高效、交互式的二级结构查询(大型蛋白质数据集)
1. Introduction
人类基因组工程:
从蛋白质和DNA序列中得出有意义的生物信息、知识(bioinformatics)。
确定基因的位置和功能,观察蛋白质之间的反应,蛋白质保持时蛋白质的功能结构。
提出问题:
与大型生物数据集的分析密切相关
存储和查询大型基因、蛋白质数据库
生物背景知识
蛋白质的结构组织:四层
主结构:氨基酸的线性序列,蛋白质识别
二级结构:氨基酸的线性序列折叠成三维结构:-螺旋(helix), -片(sheet),翻转(loop)
三维结构决定蛋白质的功能
模式和排列:变革性的关系
二级结构折叠的类型、长度、开始位置:功能
科学动力
发现新的蛋白质、新的功能:确定蛋白质的功能和类型
已有方法
搜索已知的蛋白质数据库,和未知的蛋白质相匹配
分析相似蛋白质的功能和分类,得出共同点
简单基础:定义了蛋白质相似性
蛋白质结构和搜索目标的不同,相似性的定义不同:匹配主结构;匹配二级结构(预测生物分子反应);
同样的级别上也有不同:一部分;整个序列
Flexible;efficient
BLAST
服务器负载重;查询估计算法的效率
交互式的结果:验证、否定一些假设
高效的查询估计技术
内容
定义了简单、直观的查询语言:基于分区的二级结构查询
识别不同的算法,有效地估计查询。
由于查询和分区选择,算法选择对查询的执行有突出的影响
查询优化框架:
基于查询和数据特征选择最优查询计划
直方图:精确、空间小
在Periscope、ORDBMS上实现:
现实数据集、检验算法
高效
2. 蛋白质格式(format)
依赖于预测工具
大部分已知蛋白质的二级结构都是预测度量
准确率:60%-70%
Predator:单氨基酸序列的残余氢的识别
65%;本机运行
蛋白质名,氨基酸长度,主结构,预测的二级结构
3. 查询语言和例子
3类原子查询
3类二级结构(h、e、l);成组出现;按类型和长度表示二级结构序列
查询:分区谓词序列
4. 查询估计技术
Complex Scan of Protein Table(CSP)
普通分区技术
Simple Scan of Segment Table(SSS)
扫描整个分区,利用INLJ得到蛋白质,FSM
Index Scan of Segment Table(ISS)
扫描索引,INLJ
Multiple Index Scans of Segment Table(MISS n)
ISS的概化,扫描B树索引N次,2<n<谓词数,n-way-sort-merge-join,INLJ
Scan of Protein Table(CSP)
扫描蛋白质表,找到蛋白质,逐个对比蛋白质的二级结构,返回信息
non-deterministic finite state machine(FSM)
二级结构每次输入FSM一个字符,直到输入一个最终(匹配)状态,或确定不匹配
每个query对应一个FSM
一个蛋白质可能匹配多次:在蛋白质的每个位置都运行FSM匹配测试