1 / 14
文档名称:

大数据存储技术docx.doc

格式:doc   大小:208KB   页数:14页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

大数据存储技术docx.doc

上传人:雾里行舟 2019/5/8 文件大小:208 KB

下载得到文件列表

大数据存储技术docx.doc

文档介绍

文档介绍:Forpersonaluseonlyinstudyandresearch;mercialuse大数据存储技术刘雷1,杜鹏程2,贺俊铭3,孔庆春4,张莉莉51,2,3,4,5(清华大学计算机科学与技术系,北京100084)Abstract:paredwiththetraditionaldatawarehouseapplications,plexqueryanalysis,,thetraditionalstoragetechnologycannotmeettheneedsoflargedatastorage,dataresourcesthroughtheETLtechnologywasextractedfromthesourcesystem,andisconvertedintoastandardformat,essmanagement,workcloudstoragetechnologyenterprisestoragecostsaving,efficiencyadvantage,workresources,usingvisualoperatinginterfacetosatisfytheuser':Dataacquisition(ETL),ess(NoSQL),cloudstorage,distributedfilesystems,visualization摘要:大数据分析相比于传统的数据仓库应用,具有数据量大、查询分析复杂等特点。大数据存储由于其本身存在的4V特征,传统的存储技术不能满足大数据存储的需要,通过ETL技术数据资源被从源系统中提取,并被转换为一个标准的格式,再使用NoSQL数据库进行数据库存取管理,充分利用网络云存储技术节约企业存储成本,提高效率的优势,通过分布式网络文件系统将数据信息存储在整个互联网络资源中,并用可视化的操作界面随时满足用户的数据处理需求。关键词:数据采集(ETL)、数据存取(NoSQL)、云存储、分布式文件系统、可视化引言在学术界,Nature早在2008年就推出了BigData专刊[1]。munityConsortium)在2008年发表了报告《puting:merce,science,andsociety》[2],阐述了在数据驱动的研究背景下,解决大数据问题所需的技术以及面临的一些挑战。Science在2011年2月推出专刊《DealingwithData》[3],主要围绕着科学研究中大数据的问题展开讨论,说明大数据对于科学研究的重要性。美国一些知名的数据管理领域的专家学者则从专业的研究角度出发,联合发布了一份白皮书《ChallengesandOpportunitieswithBigData》[4]。该白皮书从学术的角度出发,介绍了大数据的产生,分析了大数据的处理流程,并提出大数据所面临的若干挑战。业界通常用Volume、Variety、Value和Velocity(简称为“4V”,即数据体量巨大、数据类型繁多、价值密度低和处理速度快)四个特征来显著区分大数据与传统数据。大数据技术是一个整体,没有统一的解决方案,本文从大数据生命周期过程的角度讨论了ETL技术、NoSQL、云存储、分布式系统、数据可视化等5个部分。ETL技术随着信息化进程的推进,人们对数据资源整合的需求越来越明显。但面对分散在不同地区、种类繁多的异构数据库进行数据整合并非易事,要解决冗余、歧义等脏数据的清洗问题,仅靠手工进行不但费时费力,质量也难以保证;另外,数据的定期更新也存在困难。如何实现业务系统数据整合,是摆在大数据面前的难题。ETL数据转换系统为数据整合提供了可靠的解决方案。ETL是Extraction-Transformation-Loading的缩写,中文名称为数据提取、转换和加载。ETL负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。它可以批量完成数据抽取、清洗、转换、装载等任务,不但满足了人们对种类繁多的异构数据库进行整合的需求,同时可以通过增量方式进行数据的后期更新。ETL体系结构体现了主流ETL产品的主要组成部分[5],其体系结构如图1:图1ETL体系结构ETL过程中的主要环节就是数据抽取、数据转换和加工、数据装载[6]。为了实现这些功能,各个ETL工具一般会进行一些功能上的扩充,例如工作流、调度引擎、规则引擎、脚本支持、统计信息等。数据抽取数据抽取是从数据源中抽取数据的过程[7]。实际应