文档介绍:中南大学
硕士学位论文
基于SF&B压缩存储结构的XML数据查询方法的设计与优化
姓名:胡智飞
申请学位级别:硕士
专业:计算机应用技术
指导教师:杨路明
20090501
摘要关键词磁盘压缩存储;查询处理;优化策略;含值查询;树型遍历丫晌M缟弦恢执娲ⅰ⒔换弧⒎⒉夹畔⒌谋曜几袷剑它具有规范的自描述结构,易于被创建和解析,并且可以被嵌入到应用程序中。随着近年来呐畈7⒄梗琗越来越多地活跃在数据交换和存储领域,用硎镜陌虢峁够莸玫皆嚼越普遍的应用,丫晌狪上信息表示和交换的重要标准。然而,由于荽蠓龀ひ约癤数据存在着非常大的冗余,如何有效的存储和查询大规模的莩晌5鼻把芯康一个热点问题。当处理大数据量菔保滓5氖俏V⑿兄行У磁盘存储结构。为此,本文首先提出了一种基于饕腦数据的磁盘压缩存储结构,其优点在于:一方面,摒除了传统存储方法中相同的值信息重复存储带来大量冗余的问题另一方面,该结构引入的同带索引与反向索引结构将具有相同性质的节点聚集在一起,使得可以快速的定位到满足条件的节点集,很好的支持了其上的查询处理。其次,给出了基于存储结构的一系列查询处理算法:第一,对于含值的查询,在过滤掉大量的不满足条件的中间结果的同时,减少了大量中间结果的匹配操作,ù淼暮档牟檠⑶蚁喽杂谡蛳绕ヅ浣峁剐畔⒑判断值信息的算法,查询的效率也有着显著的提高。第二,对于分支查询的处理,相比于的方法,所需遍历的节点数量得到很大程度的降低,并且无须保存中间结果即可得到最终结果集,内存开销极小,使得分支查询的处理效率明显提高。第三,对于单路径查询的处理,本文提出的方法可以迅速定位出匹配查询条件的结点,减少了需遍历的节点数量,提高了查询处理效率。最后,对上的查询处理算法进行优化,借助中的辅助信息,寻找查询的优化执行顺序,进一步的提高了单路径查询处理的效率。理论分析与实验结果均说明本文的算法具有较好的伸缩性与很高的查询执行效率。
甒琗.,琾琣..,,,琫甀..甋;,瓹Ⅱ
;.;,,.瑃.;,,
导师签名物里日期:丝堕年上月堕作者签名:堇日盘垒作者签名:翊隘堡日期:兰塑晟显滤咳原创性声明关于学位论文使用授权说明本人声明,所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了论文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得中南大学或其他单位的学位或证书而使用过的材料。与我共同工作的同志对本研究所作的贡献均已在在论文中作了明确的说明。本人了解中南大学有关保留、使用学位论文的规定,即:学校有权保留学位论文,允许学位论文被查阅和借阅学校可以公布学位论文的全部或部分内容,可以采用复印、缩印或其它手段保存学位论文学校可根据国家或湖南省有关部门规定送交学位论文。
第一章绪论课题研究背景了格式化命令,简化了解析过程,使晌J萁换坏睦硐肟蚣堋R虼薠成为实现客户机/服务器接口的中间层语言。行矶喔呒豆δ埽诒局获得一个更快、更有效的H欢琗不仅限于τ贸绦颍部梢杂用程序处理。将来,绦┱梗琗就有可能成为表示数据的通用语言。那时,如果所有的应用程序都可以理解彼此的昙腔虼驶悖蔷湍芟嗷随着墓惴合扌灾鸾ナ褂肏木直┞冻隼础S捎贖狈展性,人们需要一种标准化的、具有高可扩展性,以及结构严谨的新语言,由此诞生了组合了它的前身语言的强大功能和可扩展性,以及盘逅G蟮募蚪嘈裕谝淮问沟梦牡导瓤梢被人们看懂,又可以被计算机处理,其标记符比更为强大、灵活、扩展性更强。奶卣魇鞘莸亩懒⑿裕涯谌菁捌浔硎痉绞椒掷肟@矗⑸境上仍是非常简单的,所以任何级别的程序都可以访问它。箍梢悦枋鐾枷瘛矢量图形、动画和它扩展到的任何其它数据类型。目前羌扑慊幸抵凶钊让诺募际踔弧I桃低盘逯姓诹餍蠿。商家使用梢栽谧橹诓亢屯獠拷薪换ゲ僮鳎雌笠涤τ眉。脑J莼〗峁刮=⒁恢衷谡銎笠的谏踔疗笠抵涠急3忠恢碌脑数据层奠定了基础,不同的组织和公司的不同计算机系统可以使用同一种语言进行交流。将来,大多数商业交易将使用疪框架进行信息交互。经用于汽车业、航天业、工程、医学团体等等机构,已经有许多软件工具使用懈卟愦文谌莺拖低车目7ⅰ数据的独立性把内容及其表示法分离⒗词荴的特征。因为牡描述的是数据,所以可以由人和应用程序进行处理。认识到这个事实之后,全世界的软件开发人员把傻剿堑挠τ贸绦蛑校曰竦肳的功能和交互操作性。因此晌J迪挚突Щ卖尬衿鹘中间层语言。其灵活性和功能非常适合于中间设备,一定会使交互操作性达到最大程度而提高效率。因为的语意和结构信息可以由任何应用程序来处理,大多数处理工作以前只能在服务器上进行,现在也可以在客户机上进行。这将减少服务器的负载和网络通行量,于数掘库上,因为牡档慕峁够歉袷交谋局适怪苋菀子墒菘庥通信。硕宦畚
研究目的与意义峁谷叱ぃ加