文档介绍:毕业论文(设计)
题目 MeteCloud平台下基于Hive的气象数据仓库构建的研究
学生姓名
学号
院系计算机与软件学院
专业网络工程
指导教师
二O一三年五月十五日
声明
本人郑重声明:
1、持以“求实、创新”的科学精神从事研究工作。
2、本论文是我个人在导师指导下进行的研究工作和取得的研究成果。
3、本论文中除引文外,所有实验、数据和有关材料均是真实的。
4、本论文中除引文和致谢的内容外,没有抄袭其他人或其他机构已经发表或撰写过的研究成果。
5、其他同志对本研究所做的贡献均已在论文中作了声明并表示了谢意。
作者签名:
日期:
目录
1引言 1
1
2
3
2相关工具 3
VMware Workstation 8 3
Hadoop 5
Hive 6
Eclipse 7
3 MeteCloud 架构分析 7
MeteCloud的架构 7
MeteCloud平台存储体系结构中的Hive 7
AvartarNode机制 8
4 Hive结构分析 10
Hive与Hadoop的关系 10
Hive的数据存储 12
Hive的实现过程 14
Hive与数据库的比较 15
5气象数据处理 15
15
16
17
18
6数据仓库的实现与测试 18
18
Hive 18
20
23
Hive CLI处理气象数据 23
27
8 小结 29
致谢 29
参考文献 30
MeteCloud平台下基于Hive的气象数据仓库构建的研究
南京信息工程大学计算机与软件系,南京
摘要:气象存储系统是气象的核心系统,是集气象资料的收集与处理、气象数据的存储管理及检索等多环节的综合应用系统。云计算是分布式计算,并行计算和网格计算的发展成果,这将对气象行业有重大而深远的影响。本文首先对MeteCloud(Meteorological Cloud,气象云平台)的架构和其中具体的一些构成进行了分析;然后分析了Hive的数据存储过程和实现过程;并且还研究了对气象日值数据的转存实现。通过进行实验测试,结果分析表明,Hive是一种可以存储、查询和分析大规模数据的机制,更好管理大量气象数据资料。
关键字:云平台;MeteCloud;Hive;气象数据;数据仓库
1引言
气象行业是一个资源极其丰富、数据极其庞大的行业。随着气象事业现代化水平不断提高,特别是现代气象业务体系不断地发展和完善,气象业务、科研和管理活动中累积和收集了大量的气象信息资源。而且随着自动站、雷达、雨量标校站、卫星站等气象观测站的建立,气象资料数据也在与日剧增。气象业务数据主要包括气象台站的各类要素资料,如降水量、气温、相对湿度、日照时数等以及云图、各时次格点场、雷达以及其它图像数据等,可看出气象数据其庞大程度Error! Reference source not found.。
省级单位气象数据的来源主要有卫星通道、国际互联网、内部业务系统和单位交换等,其中通过卫星通道接收的气象数据量最大,每日可达700兆左右。然各级的气象台站手机的各种资料每天都有若干时次,收集存储的的数据资料数据总量达上百兆,总的资料甚至可达GB量级。而雷达、卫星云图以及相关预报产品数据,每天能达到20GB左右,主要是图片数据和气象专用格式的格点数据。由此可以看出,气象业务数据不仅种类繁多,数据信息量十分庞大,而且用户服务响应时效和对资源分配结构的合理程度要求也非常高Error! Reference source not found.。气象存储系统是气象的核心系统,是集气象资料的收集与处理、气象数据的存储管理及检索等多环节的综合应用系统。因此建立一个可进行数据抽取,转化,加载,共享大量数据的气象信息数据库非常有必要而且意义重大。
云计算是一种近几年提出的计算模式,是分布式计算、并行计算和网格计算的发展。目前,亚马逊、微软、谷歌、IBM、英特网等的公司纷纷提出了“云计划”,例亚马逊、IBM和谷歌联合进行的“蓝云”计划等Error! Reference source not found.。这对云计算的商业价值给予了巨大的肯定。同时学术界也纷纷对云计算进