文档介绍:
运行 Hadoop 的数据中心流量特性#
杨贺,王洪波,黄永军,程时端**
(北京邮电大学网络与交换技术国家重点实验室)
5
10
15
20
25
30
35
40
摘要:随着越来越多的公司和机构开始使用 Hadoop 运行他们的业务,关于 Hadoop 的研究
也越来越多的受到人们的关注。但是关于运行 Hadoop 的数据中心的流量测量工作目前几乎
没有,测量工作的缺乏也阻碍了 Hadoop 研究的发展。本文根据数据中心网络的固有特点,
提出了一个有针对性的测量方法,并且开发出了一个叫做 HADE 的软件专门用来处理和分
析流数据,数据中心的被测流量是由搜索业务生成的。本文最后给出了一些会对研究者很有
用的流量特性的测量结果,并且对这些测量结果做出了一定分析。
关键词:计算机应用技术;数据中心;Hadoop;测量;MapReduce;搜索引擎
中图分类号:
The Traffic Characteristics of Datacenter running Hadoop
He Yang, Hongbo Wang, Yongjun Huang, Shiduan Cheng
(State Key Laboratory working and Switching Technology, Beijing University of Posts &
munications)
Abstract: Research on Hadoop is ing increasingly prominent recently as more and more
organizations use it for their business. But little has been done on measurements of datacenter
running Hadoop so far. This lack of knowledge hindered the development of the research.
According to the feature of the work, this paper proposes a measurement method
and developes a software callded HADE for processing and analyzing flow data. And flow is
generated by search engine application. At last, this paper provides some traffic characteristics of
Hadoop datacenter and analyzes the measurement result.
Key words: Technology puter Application; Datacenter; Hadoop; Measurement;
MapReduce; Search Engine
0 引言
随着云计算的快速发展,很多公司都部署了自己的数据中心。而在数据中心的核心技术
中,Google 的 MapReduce 被公认为