1 / 7
文档名称:

基于SharkSpark的分布式空间数据分析框架.pdf

格式:pdf   页数:7页
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

基于SharkSpark的分布式空间数据分析框架.pdf

上传人:gd433 2016/5/11 文件大小:0 KB

下载得到文件列表

基于SharkSpark的分布式空间数据分析框架.pdf

相关文档

文档介绍

文档介绍:基于 Shark/Spark 的分布式空间数据分析框架温馨 1 , 2 , 罗侃 1 , 2 , 陈荣国 1 ,* ( 1 . 中国科学院地理科学与资源研究所资源与环境信息系统国家重点实验室, 北京 100101 ; 2 . 中国科学院大学, 北京 100049 ) 摘要:随着空间数据的与日俱增,传统依托于单节点的空间数据管理方法,已难以满足海量数据高并发的需求。云计算的兴起带来机遇与挑战,分布式技术与数据库技术的优势互补,为云计算下高效的数据管理提供了可能。本文提出一种在分布式计算引擎( Shark/Spark )中集合之关键技术(包括空间数据映射、空间数据加载、数据备份及空间查询等),将空间数据库对空间数据的高效存储、索引及查询优势与分布式计算引擎对复杂计算的优势相结合, 实现一种基于 Shark/Spark 的分布式空间数据分析框架。在具体实现中,通过空间自定义函数和空间函数下推 2 种方式实现空间查询,结果表明,影响返回结果数据量的空间查询更适合下推给空间数据库完成,而不影响返回结果数据量的空间查询,利用分布式计算引擎直接运算更有优势。同时,通过与现有的一种分布式 GIS 方案( ArcGIS on Hadoop ) 对比发现, 空间数据库的空间索引可有效提高查询效率, 空间数据管理也更加独立。关键词: Shark ; Spark ; Hadoop ; 空间数据库; 空间查询 D O I : 10 . 3724 /. 1047 . 2015 . 00401 1 引言空间技术及存储技术的发展,推动着空间数据爆炸式增长,海量空间数据的管理成为了地理信息系统(Geographic Information System , GIS )研究的热点[ 1 - 3 ] 。传统的空间数据管理依托于单节点关系型数据库,其在海量数据管理、高并发读写和扩展性等方面存在局限性。云计算的兴起为空间数据管理带来了机遇与挑战,将云计算技术与空间数据库技术结合,实现对海量空间数据的检索查询, 逐渐成为空间信息技术的新兴研究领域[ 4 - 5 ] 。本文以空间数据库实现空间数据存储,对空间数据进行高效的一体化管理,集合分布式计算引擎进行空间运算,形成一种结合二者优势的分布式空间数据分析框架。关于分布式技术与关系型数据库的结合已有一些讨论与尝试[ 6 - 7 ] 。 HadoopDB [ 8 ] (现已改名为 Hadpt ) 采用 MapReduce 作为多个数据库管理系统( Data - base Management System , DBMS )节点之间的连接层,通过转换 HadoopDB 中接收的 SQL 语句,将其推入到数据层处理。某些情况下,其可同时实现关系数据库的高性能特性和 MapReduce 的扩展性、容错性[ 9 ] 。MongoDB (https:///mongodb/mongo- hadoop )通过 MongoDB Connector 实现 Hadoop 与 MongoDB 的数据交换,提高了读取运算大数据的效率。在此基础之上,结合 Spark API , Nis kanen (/ 2014 /02 /18/using-spark-with-mon - godb/ )实现 MongoDB 与 Spark 的结合。在分布式技术与 GIS 结合中,