1 / 60
文档名称:

海量数据分析处理方法研究.pdf

格式:pdf   页数:60
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

海量数据分析处理方法研究.pdf

上传人:799474576 2015/10/25 文件大小:0 KB

下载得到文件列表

海量数据分析处理方法研究.pdf

相关文档

文档介绍

文档介绍:A Dissertation Submitted to Shanghai Jiao Tong University for the
Master Degree of Engineering

RESEARCH ON APPROACHES TO LARGE-SCALE
DATA ANALYSIS


Author:GuiQiang Wang
Advisor: prof. ChaoJun Lu
Specialty: Computer System Architecture





School of Electronic and Electric Engineering
Shanghai Jiao Tong University
Shanghai,
February 2010
海量数据分析处理方法的研究

摘要
随着信息技术的发展,很多领域对信息系统的建设处在转型阶
段。以金融领域为例,后续 IT 建设的重心逐步从建设“核心业务交
易系统”进入到构建“以客户为中心、以风险控制和盈利分析为目标
的信息管理系统”的发展阶段。这种转型需要对原有业务系统的数据
进行统一分析,实现数据跨部门、跨时间和跨平台共享。为此海量数
据分析处理需求强烈。
MapReduce 是由 Google 公司首先提出的,一种能在大型计算机
集群上并发地处理海量数据的框架模型。使用者通过指定一个 Map 函
数将输入数据转化成为一系列中间键-值对,然后由一个自定义的
reduce 函数将具有相同键的值聚集起来,将结果输出。很多现实世
界对海量数据的处理,都可以用这种模型来表示。
并行数据库作为一种高性能的数据库系统,是并行技术和数据库
技术结合的产物,它大大提高了关系数据库中对数据的处理效率。常
见的并行数据库根据并行架构的不同,可以分为共性内存、共性磁盘、
无共享的三种架构方式。
本文在分析 Mapreduce 和并行数据库的基础上,提出了一种并发
处理海量数据的更通用、更可扩展的平台大概架构。并对相关的产品
进行了详细的测试。
首先,我们分析了 MapReduce 和并行数据库对海量数据处理的并
行方式,具体的了解了两种方法的发展以及实现思路。接着,我们从
多个方面对两者进行了详细的比较,得到了它们的优缺点,为后续的
设计打下了基础。接着我们提出了三种 MapReduce 和 SQL 结合的方式,
分别是 MapReduce 引擎增加 SQL 层、MapReduce 调度 SQL 语句、SQL
第 I 页
语句调用 MapReduce,通过三种结合方式的比较,我们认为 SQL 语句
调用 MapReduce 的方法是最好的一种。
然后,我们提出了将并行数据库和 MapReduce 结合的大概设计框
架,这种架构采用客户端、主控节点、分支节点的三点式架构。其中,
主控节点负责收集与处理其他节点的各种信息;分支节点负责任务的
具体执行。接着,我们通过 MapReduce 的自定义函数对 SQL 进行了扩
展,提出了将 MapReduce 嵌入到 SQL 语句里面的方式和具体的执行方
式。接着,我们描述了数据分布策略和镜像处理的概要情况。
最后,我们对当前比较优秀的并行数据库 Greenplum 进行了详细
的测试,测试数据以真实的一家证券公司的业务数据为基础,从数据
加载、统计分析执行等几个方面进行了性能比较。得到了其针对海量
数据处理的性能结果。

关键词:海量数据,并行计算,分布式文件系统,并行数据库,负载
均衡,数据分布
第 II 页
RESEARCH ON APPROACHES TO LARGE-SCALE
DATA ANALYSIS

ABSTRACT
With the development of information technology, the construction of
information systems is in transition phase for many fields. Take the
financial field for example. In the past, the core of the IT construction is
about business trading system. But now, lots panies have pay more
attention on information management system aim

最近更新

2026年c语言考期末试题及参考答案1套 13页

2026年中山职业技术学院单招职业倾向性测试题.. 44页

2025下半年上海嘉定区社区工作招聘20人备考题.. 51页

2026年南昌影视传播职业学院单招职业倾向性考.. 44页

2026年反诈骗知识测试试题库附参考答案【考试.. 41页

2026年哈密廉政考试题库(满分必刷) 14页

2025年本溪市公安局公开招聘警务辅助人员100人.. 48页

2026年国开电大外国文学形考题库附完整答案(.. 40页

2026年大学专升本C语言真题(夺冠) 13页

2026年安徽省巢湖市单招职业适应性测试模拟测.. 43页

2026年山西运城农业职业技术学院单招职业技能.. 46页

2026中国对外贸易中心集团有限公司招聘(84人.. 44页

2026北京生命科技研究院应届毕业生招聘13人考.. 44页

2026年党规学习考试题库有完整答案 18页

2026年注册会计师考试财务成本管理真题100道带.. 51页

2026年各工种岗位作业安全考核试题完整版 40页

2026年基础乐理期末试题及一套答案 28页

2026年安徽城市管理职业学院单招职业技能考试.. 45页

2026年教师考试申论考试题库附答案 42页

2026年西安欧亚学院单招综合素质考试题库附答.. 43页

项目认证标准建议书 6页

项目材料航空规划建议书 7页

非正式员工解决方案建议书 5页

集成园区项目建议书 4页

防范日本文化侵略对策建议书 5页

门口环境优化建议书 5页

银行电子服务改进建议书 5页

2026年玉溪市摩托车考试历年真题及答案参考 29页

2026年江西交通职业技术学院单招职业倾向性考.. 37页

2025年新疆考试录用公务员《公安专业科目》真.. 30页