文档介绍：兰州大学
硕士学位论文
虚拟筛选海量并行任务管理系统中数据流的管理
姓名:张华剑
申请学位级别:硕士
专业:计算机应用技术
指导教师:张瑞生
20100501
摘要以减少新药研制的成本和时间。大规模虚拟筛选涉及海量数据,待筛选的小分子化合虚拟筛选是在计算机上针对特定靶标蛋白筛选出最合适的候选药物的过程。随着网格计算技术的发展,科学家越来越倾向于利用网格环境进行药物的大规模虚拟筛选物通常数以百万计。在网格环境下进行基于分子对接的大规模虚拟筛选应用,通常的做法是科学家手动查询小分子化合物并分组,在网格平台上编辑多个对接作业依次对分组进行计算,手动下载所有对接结果。虽然利用了网格强大的计算能力,但是科学家的工作非常复杂和繁琐,并且需要学台为基础设计的海量并行任务管理系统,目的是实现大规模虚拟筛选应用在网格平台上的自动执行,从而将科学家从繁琐的工作中解脱出来。海量并行任务管理系统将虚拟筛选应用分成多个并行作业在网格甲台上计算,作业流和数据流的管理非常重要。本文的研究重点,就是如何设计系统中的数据流管理功能,制定合理的数据流配置策略,使海量数据流配合并行作业调度策略,实现网格环境下大规模虚拟筛选应用的高效自动运行,提高网格资源的利用率。本文设计的数据流管理功能由三个模块实现。第一个模块是查询条件定制接口,该模块为用户提供了一个定制数据查询条件的图形编辑器;第二个模块是数据查询、分组及传输媚?榇臃植际叫》肿踊衔锸菘庵胁檠龇咸跫男分子化合物,按可旋转键数排序并分组,再将分组上传至需要数据的网格节点。第三个模块是统一数据管理空间,该模块提供了所有网格节点数据的全局视图,可以实现虚拟筛选结果的并行下载。本文重点从用户体验和实现技术方面对各个模块进行了深入的探讨。关键词:虚拟筛选,海量并行任务管理系统,数据流管理,
,甌..,,,,琲
原创性声明本人郑重声明:本人所呈交的学位论文,是在导师的指导下独立进行研究所取得的成果。学位论文中凡引用他人已经发表或未发表的成果、数据、观点等,均己明确注明出处。除文中已经注明引用的内容外,不包含任何其他个人或集体已经发表或撰写过的科研成果。对本文的研究成果做出重要贡献的个人和集体,均已在文中以明确方式标明。本声明的法律责任由本人承担。
⋯一:研摊名粗关于学位论文使用授权的声明本人在导师指导下所完成的论文及相关的职务作品,知识产权归属兰州大学。本人完全了解兰州大学有关保存、使用学位论文的规定,同意学校保存或向国家有关部门或机构送交论文的纸质版和电子版,允许论文被查阅和借阅;本人授权兰州大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用任何复制手段保存和汇编本学位论文。本人离校后发表、使用学位论文或与该论文直接相关的学术论文或成果时,第一署名单位仍然为兰州大学。保密论文在解密后应遵守此规定。
第一章绪论研究背景选是在计算机上针对重要疾病特定靶标生物大分子的三维结构或定量构象关系网络计算方法,网格利用网络把分散在不同地理位置的电脑组织成一台“虚拟的甋】作为一种新的科学研究于段,主要研究通过网络和计算机促进科学领域的全球合作以及建立与之相适应的基础体系结构。从国内外究不难看出,虚拟筛选已经成为甋研究的一个热点【药物筛选指通过规范化的实验于段从大量化合物中选择对某一特定作用靶点具有较高活性的化合物的过程,它是现代药物开发中检验和获取具有特定生理活性化合物的重要环节<扑慊ㄖ┪锓肿由杓埔炎魑R恢质涤没墓ぞ哂用到了药物研究的各个环节,并已成为创新药物研究的核心技术之一【。虚拟筛模型,从现有小分子数据库中搜寻与靶标生物大分子结合或符合模型的化合物进行实验筛选研究,这种方法将显著降低药物开发成本。据统计,虚拟筛选的介入,使新药研发的平均周期缩短了年,直接研发费用平均降低了亿美元虚拟筛选有三个显著的特点:一是涉及的数据量大,计算量大。供虚拟筛选的配体数据库中的小分子化合物是海量的,通常有几百万上千万条记录。针对每一个特定的靶标结构,要在短时间内从海量化合物中筛选出药物先导化合物,计算量非常大。⒈淼奈恼轮刑到,在单上受体对接一个配体需要的甲均时间是种印镜叮绻涮迨看锏缴锨颍艿募扑闶奔湓嘉<甘辍6巧秆过程可使用同一种软件。虚拟筛选的一个主要方法是分子对接【浚肿佣越拥谋质是两个或多个分子之间的识别过程,其过程涉及分子之间的空间匹配和能量匹配。虚拟筛选通常使用、确肿佣越尤砑刺高分子对接的效率【。三是不同分子间对接执行时间差异大。同样的实验条件,针对同一个靶标结构,不同的配体小分子因其结构的不同进行分子对接所花费的时间是有很大差异的,从几秒到几个小时不等。随着网格计算技术的发展,科学家越来越倾向于利用网格环境进行药物