文档介绍：jessonlv--吕一事,明日悟一理,日久而成学!
数据分析≠Hadoop+NoSQL,不妨先看完善现有技术的10条捷径
2013-10-30 10:11 157人阅读评论(0) 收藏举报
云计算数据库GoogleNoSqlhadoop
摘要:Hadoop让大数据分析走向了大众化,然而它的部署仍需耗费大量的人力和物力。在直奔
Hadoop之前,是否已经将现有技术推向极限?这里总结了对Hadoop投资前可以尝试的10个替代方
案,省时、省钱、省力,何乐而不为?
让业务搭乘大数据技术确实是件非常有吸引力
的事情,而Apache Hadoop让这个诱惑来的更
加的猛烈。Hadoop是个大规模可扩展数据存储
平台,构成了大多数大数据项目基础。Hadoop
是强大的,然而却需要公司投入大量的学习精
力及其它的资源。
如果得到正确的应用,Hadoop确实能从根本上
提升你公司的业务,然而这条Hadoop的应用之
路却充满了荆棘。另一个方面,许多企业(当
然不是Google、Facebook或者Twitter)的数据体积并没有大到需要巨型Hadoop集群去做分析,他
们纯粹是被“大数据”这个热门的词语给吸引的。
就像Dabid Wheeler所说“计算机科学的所有问题都有另一个层次间接的解决方案”,而Hadoop正是
类似间接解决方案;当你的上司被一些流行词汇所吸引时,做正确的软件架构决策将变的非常艰
难。
下文将给出一些对Hadoop进行投资前需要尝试的替代方案:
了解你的数据
数据的总体积
Hadoop是为大型数据集所建立的有效解决方案。
GB级以上的文件系统HDFS。因此如果你的文件只是MB级的,你最好对数个文件进行整
合(zip或者tar),让其达到数百兆或者是几GB。
HDFS会将文件分割,并以64MB、128M或者更大的块进行存储。
如果你的数据集非常的小,那么使用这个巨型生态系统将不会很适合。这需要对自己的数据有足够
的了解,并且分析需要什么类型的查询以及你的数据是否真的够大。
另一方面,鉴于你的计算指令可能很大,只通过数据库去测量数据的体积可能会存在误差。有时候
数学计算或者分析小型数据集的排列可能会让得出的结果远大于实际数据体积,所以关键在于你对
数据有切实的了解。
数据增长的速度
1
你可能在数据仓库或者其它的数据源中存有数TB数据,然而在建立Hadoop集群前有一个必须考虑
的因素就是数据的增长速度。
对你的分析师提出几个简单的问题,比如:
数据增速究竟有多快?这些数据是否以非常快的速度增长?
几月或者几年后数据的体积究竟会有多大?
许多公司的数据增长都是按年算的。这种情况下,你的数据增长速度其实并不快;所以这里建议考
虑归档和清除选项,而不是直接的奔往Hadoop。
如何减少需处理的数据
如果你确实有非常大体积的数据,你可以考虑通过以下的途径将数据缩减到非常适合管理的体积,
以下的几个选项已经过产业几十年考验。
考虑归档
数据存档是对过期的数据进行分开存储,当然存储的时间根据实际需求制定。这需要对数据以及应
用程序对数据的使用情况,有非常充分的了解。比如电子商务公司的大数据处理只将3个月内的数
据存入活跃数