1 / 62
文档名称:

DB2统计信息测试数据自动生成系统的设计与实现.pdf

格式:pdf   页数:62
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

DB2统计信息测试数据自动生成系统的设计与实现.pdf

上传人:Horange 2014/2/13 文件大小:0 KB

下载得到文件列表

DB2统计信息测试数据自动生成系统的设计与实现.pdf

文档介绍

文档介绍:北京邮电大学
硕士学位论文
DB2统计信息测试数据自动生成系统的设计与实现
姓名:司美琴
申请学位级别:硕士
专业:软件工程
指导教师:吴国仕
20070501
臣菩畔⒉馐允葑远上低车纳杓朴胧迪揍要本文公缨了一个在数据库统计功能测试牵震予测试数糍自动囊的准确褴。数据疼统计信息在数据库中极其重要,它髭“基予成本豹查询优化器”正常工作的基础。本文简单介绍了数据瘁优化器的工作缀理、凡种重要的统计信息酸及它们对傀纯器王俸的影睫。数据库统计信息复杂多样,要测试统计功能,需要准备大量的测试数据。本文分析了各耪准备测试数据鳇途径:使震囊实数据源;使用疟旧桑唤柚延械墓ぞ呱桑⒈冉狭艘陨贤揪兜挠湃钡恪为’牟馐缘耐瓯感裕Vげ馐允莸闹柿浚跎偃肆Τ杀荆枰在分辑已有成果的基磁上,本文提文了鱼愁的鼹决方案;鼙采鲻项目的主要功能模块和使用到的技术;简单介缨了技术;列举了用到的设计模式以及一些编程技巧。模块和数据生成模块的算法及实现。针对各种主要的统计备种统计特性在实际中生产中的重要律用,并给出了具体数据生成的最籍,对项目的融有戒架进行了回顾,并嗣已有的解决方案迸符了比较,提出了一些改进想法。成的项目。首先介绍了项目的背景,目的是为了验证数据库统计功能一种有针对性的工具帮助自动生成测试数据。疭结构,实现用户定制环境参数,一次定义多处生成的体系结构,并使用等技术实现丰窦的客户端。这里本文酋先比较疭和疭结构的优缺点,提出了选择疭结构的理由;接着分析并介绍了本文重点分析并阐述了本人系统实现过程中负责的储息,按照基本统计特性、分布统计特性和物理特性的顺序,分析了解决方案及实现算法。.关键词:溅试数据数据疼测试统计特毪鑫动讫测试‘
㎜伍:饬㏒潞,琵斟挣瞚兀℃。霹持.。,瑃.’.甌瑃甀琣疭瓾,。

本人繇司透导师签名:蠡缸日期;塑豪迹兰到幺兰≥日期:≥,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得北京邮电大学或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。申请学位论文与资料若有不实之处,本人承担一切相关责任。关于论文使用授权的说明本人完全了解北京邮电大学有关保留和使用学位论文的规定,即:研究生在校攻读学位期间论文工作的知识产权单位属北京邮电大学。学校有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许学位论文被查阅和借阅;学校可以公布学位论文的全部或部分内容,可以允许采用影印、缩印或其它复制手段保存、汇编学位论文。本学位论文不属于保密范围,适用本授权书。本人签名:日期:
第一章绪论”。课题的提出信息时代,全球的数据量以指数级增长,如何快速地从海量数据中获取信息,提高查询性能是数据库系统面临的最大挑战。各大商业数据库生产商多年来也在这方面付出了极大的努力和辛勤的工作。为此各种数据库都有自己的查询优化器。随着数据量的增加,查询语句的习益复杂。查询优化器的作用日益凸显,它的运作是否正常关系到数据库能否出色有效地完成工作,可以说是数据库的大脑。在关系型数据库中有两种主要的查询优化器类型:“基于语法的查询优化器”和“基于成本的查询优化器“基于语法的查询优化器”不查看或维护数据库的统计记录,只根据语法来分析,每次都执行相同的计划,不考虑数据本身的变化。“基于成本的查询优化器”则需要记录并根据表和索引中数据的统计特性来估算执行开销/僮鳎珻秒数等等庵址绞交崴孀攀莸谋浠≡癫煌闹葱屑苹6杂谑导噬统来说,后一种查询优化器更能反映实际情况,更合理,因此在一定意义上,更能很好地改善查询性能由定义不难看出“基于成本的查询优化器”其功能准确性的保证在很大程度上取决于对数据统计特性的分析是否正确。因此,正确的数据统计是“基于成本的查询优化器”正常工作的基础。对数据统计特性的分析,各个数据库厂商都有然而,又有一个问题产生了。我们如何保证这些统计特性分析工具运行的准确性。一个合格的数据库产品首先要保证自身组件工作的准确性。在数据分布千差万别的背景下,如何有效地测试数据统计特性的分折结果,快速的准备这些测试环境在很大程度上影响到测试效率及测试完整性。.尘自己的实现,比如的“保珼的“”,的”等等。“
正是由于数据库统计信息的正确性对优化器的正常工作具有极其重要的作用,数据库中对统计信息收集的功能测试才显得尤为重要。然而对这个功能点的测试又具有其特殊的地方,那就是该测试对脚本的要求比较低,而对测试环境的依赖比较大。很容易想象,验证的指标范围是固定的,而它们的数值分布却随着测试环境中数据分布的