1 / 13
文档名称:

大数据分析的十二大杀手锏.doc

格式:doc   页数:13页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

大数据分析的十二大杀手锏.doc

上传人:今晚不太方便 2016/3/8 文件大小:0 KB

下载得到文件列表

大数据分析的十二大杀手锏.doc

相关文档

文档介绍

文档介绍:当数据以成百上千 TB 不断增长的时候,我们需要一种独特技术来应对这种前所未有的挑战。大数据分析迎来大时代全球各行各业的组织机构已经意识到, 最准确的商务决策来自于事实, 而不是凭空臆想。这也就意味着, 他们需要在内部交易系统的历史信息之外, 采用基于数据分析的决策模型和技术支持。互联网点击数据、传感数据、日志文件、具有丰富地理空间信息的移动数据和涉及网络的各类评论,成为了海量信息的多种形式。极具挑战性的是,传统的数据库部署不能处理数 TB 数据,也不能很好的支持高级别的数据分析。在过去十几年中,大规模并行处理( MPP )平台和列存储数据库开启了新一轮数据分析史上的革命。而且近年来技术不断发展, 我们开始看到, 技术升级带来的已知架构之间的界限变得更加模糊。更为重要的是,开始逐步出现了处理半结构化和非结构化信息的 NoSQL 等平台。大数据分析迎来大时代本文中,我们将向大家介绍迄今为止,包括 EMC 的 Greenplum 、 Hadoop 和 MapReduc e 等提供大数据分析的产品。此外,惠普前段时间收购实时分析平台 Vertica 、 IBM 独立的基于 DB2 ezza 的相关产品。当然,也有微软的 Parallel Data Warehouse 、 SAP 旗下公司 Sybase 的 Sybase IQ 数据仓库分析工具等。下面,就让我们来了解业界大数据分析的这十二大产品: 1. 模块化 EMC Appliance 处理多种数据类型 2010 年 EMC 收购了 Greenplum , 随后, 利用 EMC 自身存储硬件和支持复制与备份功能的 Greenplum 大规模并行处理( MPP ) 数据库, 推出了 EMC Greenplum puting Appliance (DCA) 。通过与 SAS 和 MapR 等合作伙伴, DCA 扩大了对 Greenplum 的数据库支持。支持大数据分析的 EMC Appliance 今年 5月, EMC 推出了自己的 Hadoop 软件工具, 而且该公司还承诺, 今年秋季发布的模块化 DCA 将支持 Greenplum SQL/ 关系型数据库, Hadoop 部署也能在同样的设备上得到支持。借助 Hadoop , EMC 能够解决诸如网络点击数据、非结构数据等真正大数据分析的困难。模块化的 DCA 也能够在同样的设备上支持长期保留的高容量的存储模块,从而满足监测需求。 和 MapReduce 提炼大数据 Hadoop 是一个开放源码的分布式数据处理系统架构,主要面向存储和处理结构化、半结构化或非结构化、真正意义上的大数据(通常成百上千的 TB 甚至 PB 级别数据)应用。网络点击和社交媒体分析应用, 正在极大地推动应用需求。 Hadoop 提供的 MapReduce ( 和其他一些环境)是处理大数据集理想解决方案。 MapReduce 能将大数据问题分解成多个子问题,将它们分配到成百上千个处理节点之上,然后将结果汇集到一个小数据集当中,从而更容易分析得出最后的结果。 MapReduce 结构图 Hadoop 可以运行在低成本的硬件产品之上,通过扩展可以成为商业存储和数据分析的替代方案。它已经成为很多互联网巨头, 比如 AOL 、 eHarmony ( 美国在线约会网站)、易趣、 Facebook 、 *** flix 大数据分析的主要解决方案。也有更多传统的巨头公司比如摩根大通银行,也正在考虑采用这一解决方案。 3. 惠普 Vertica 电子商务分析今年二月被惠普收购的 Vertica , 是能提供高效数据存储和快速查询的列存储数据库实时分析平台。相比传统的关系数据库,更低的维护和运营成本,就可以获得更快速的部署、运行和维护。该数据库还支持大规模并行处理( MPP ) 。在收购之后,惠普随即推出了基于 x86 硬件的 HP Vertica 。通过 MPP 的扩展性可以让 Vertica 为高端数字营销、电子商务客户(比如 AOL 、 *** 、 Groupon )分析处理的数据达到 PB 级。惠普 Vertica 实时分析平台其实, 早在惠普收购之前, Vertica 就推出有包括内存、闪存快速分析等一系列创新产品。它是首个新增 Hadoop 链接支持客户管理关系型数据的产品之一,也是首个基于云部署风险的产品平台之一。目前, Vertica 支持惠普的云服务自动化解决方案。 提供运维和分析数据仓库去年, IBM 推出了基于 DB2 的 Smart Analytic System (图中左侧) ,那么它为何还要收 ezza 方案平台呢?因为前者是具备高扩展性企业数据仓库的平台, 可以支持成千上万的用户和各类应用操作。比如,