1 / 13
文档名称:

大数据存储技术docx.doc

格式:doc   大小:221KB   页数:13页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

大数据存储技术docx.doc

上传人:镜花流水 2018/10/2 文件大小:221 KB

下载得到文件列表

大数据存储技术docx.doc

文档介绍

文档介绍:大数据存储技术
刘雷1,杜鹏程2,贺俊铭3,孔庆春4,张莉莉5
1,2,3,4,5(清华大学计算机科学与技术系,北京 100084)
Abstract:Big data pared with the traditional data warehouse applications, with a large amount of data plex query analysis, etc. Big data storage because of its itself exists 4 v characteristics, the traditional storage technology can not meet the needs of large data storage, data resources through the ETL technology was extracted from the source system, and is converted into a standard format, then using NoSQL database for database access management, make full use of work cloud storage technology enterprise storage cost saving, efficiency advantage, through a work file system to store data information in the work resources, using visual operating interface to satisfy the user's data processing requirements at any time.
Key words: Data acquisition (ETL), data access (NoSQL), cloud storage, distributed file systems, visualization
摘要: 大数据分析相比于传统的数据仓库应用,具有数据量大、查询分析复杂等特点。大数据存储由于其本身存在的4V特征,传统的存储技术不能满足大数据存储的需要,通过ETL技术数据资源被从源系统中提取,并被转换为一个标准的格式,再使用NoSQL数据库进行数据库存取管理,充分利用网络云存储技术节约企业存储成本,提高效率的优势,通过分布式网络文件系统将数据信息存储在整个互联网络资源中,并用可视化的操作界面随时满足用户的数据处理需求。
关键词: 数据采集(ETL)、数据存取(NoSQL)、云存储、分布式文件系统、可视化
引言
在学术界,Nature早在2008年就推出了Big Data专刊[1]。munity Consortium)在2008年发表了报告《puting: Creating revolutionary breakthroughs merce, science, and society》[2],阐述了在数据驱动的研究背景下,解决大数据问题所需的技术以及面临的一些挑战。Science 在2011年2月推出专刊《Dealing with Data》[3],主要围绕着科学研究中大数据的问题展开讨论,说明大数据对于科学研究的重要性。美国一些知名的数据管理领域的专家学者则从专业的研究角度出发,联合发布了一份白皮书《Challenges and Opportunities with Big Data》[4]。该白皮书从学术的角度出发,介绍了大数据的产生,分析了大数据的处理流程,并提出大数据所面临的若干挑战。
业界通常用Volume、Variety、Value和Velocity(简称为“4V”,即数据体量巨大、数据类型繁多、价值密度低和处理速度快)四个特征来显著区分大数据与传统数据。
大数据技术是一个整体,没有统一的解决方案,本文从大数据生命周期过程的角度讨论了ETL技术、NoSQL、云存储、分布式系统、数据可视化等5个部分。
ETL技术
随着信息化进程的推进,人们对数据资源整合的需求越来越明显。但面对分散在不同地区、种类繁多的异构数据库进行数据整合并非易事,要解决冗余、歧义等脏数据的清洗问题,仅靠手工进行不但费时费力,质量也难以保证;另外,数据的定期更新也存在困难。如何实现业务系统数据整合,是摆在大数据面前的难题。ETL数据转换系统为数据整合提供了可靠的解决方案。
ETL是Extraction-Transformation-Loading的缩写,中文名称为数据提取、转换和加载。ETL负责将分布的、异构数据源中的数据如关系数据、平面数

最近更新

教科版科学一年级下册第一单元《我们周围的物.. 6页

教科版科学一年级下册第一单元《我们周围的物.. 7页

教科版科学一年级下册第二单元《动物》测试卷.. 7页

教科版科学一年级下册第二单元《动物》测试卷.. 6页

数学小升初期末测试卷【名师系列】 5页

2024年总经理劳动合同范本 11页

数学小升初期末测试卷(原创题) 6页

沪教版五年级下册数学第二单元 正数和负数的初.. 5页

沪教版六年级下册数学期末测试卷及答案【基础.. 6页

沪教版六年级下册数学期末测试卷附参考答案【.. 7页

浙教版六年级下册数学期末测试卷及参考答案(.. 7页

浙教版六年级下册数学期末测试卷精品(必刷).. 6页

苏教版一年级下册科学期末测试卷及参考答案【.. 9页

苏教版一年级下册科学期末测试卷精品【能力提.. 9页

苏教版二年级下册科学期末测试卷【巩固】 7页

苏教版二年级下册科学期末测试卷附答案(培优.. 6页

苏教版五年级上册科学期末测试卷及答案(有一.. 7页

苏教版五年级上册科学期末测试卷附参考答案【.. 7页

苏教版六年级上册科学期末测试卷精品【完整版.. 8页

苏教版六年级下册数学期末测试卷【典优】 5页

介入超声在医疗旅游的应用 9页

苏教版六年级下册数学第二单元 圆柱与圆锥 测.. 6页

苏教版六年级下册数学第六单元 正比例和反比例.. 8页

苏教版六年级下册数学第六单元 正比例和反比例.. 7页

2024年思念亲人的句子 64页

苏教版四年级下册科学期末测试卷附答案(模拟.. 7页

苏教版小学一年级下册科学期末测试卷及答案(.. 8页

苏教版小学一年级下册科学期末测试卷附参考答.. 9页

苏教版小学二年级下册科学期末测试卷及完整答.. 7页

苏教版小学二年级下册科学期末测试卷精品(典.. 7页