1 / 7
文档名称:

大数据技术研究综述.doc

格式:doc   大小:111KB   页数:7页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

大数据技术研究综述.doc

上传人:小博士 2018/12/4 文件大小:111 KB

下载得到文件列表

大数据技术研究综述.doc

文档介绍

文档介绍:: .
大数据技术研究综述
摘要:人数裾是继云计算、物联网之P IT产业又一次颠锐性的技术革命。文屮介绍了人数据的概念、典型的4“V”特征以及人数据的关键技术,归纳总结了人数据处理的一般流柷, 针对其中的关键技术,如MapReduce、GFS、Hadoop以及NoSQL等,介绍了基本的情况。最后,本文对人数据吋代做了总结与展望。
关键词:大数裾;数裾处理技术;云计算
当人们还在津津乐道云计算、物联网等主题时,一个崭新的概念——大数据横空山世。大数裾是继云计算、物联网之后IT产业又一次颠覆性的技术革命,对国家治理模式、企业决策、组织和业务流程,以及个人生活方式等都将产生巨人的影响。人数据的挖掘和应用可创造出超万亿美元的价值,将足未來IT领域最人的市场机遇之一,其作川堪称乂一次工业革命m。
我们身处数据的海洋,几乎所有事物都勾数据有关,环境、金融、医疗……我们每天都在产生数据,打电话、发短信、进地铁站安检、进办公楼刷卡、在QQ上聊天、上淘宝网购物……人量数据实时地影响我们的工作、生活乃至社会发展。数据成为与然资源、人力资源同样重要的战略资源,引起了科技界和介业界的岛度重视。
1大数据的概念
人数裾木身就足一个很杣象的概念,提及人数据很多人也只能从数据S上去感知人数据的规模,如:百度每天人约要处理几十PB的数裾;Facebook每天生成3(X) TB以上的曰志数据;据著名矜询公司IDC的统计, ZB(1021), 但仅仅是数据量并不能区分大数裾与传统的海量数裾的区别。在2008年《Science》杂志出版的专刊中,大数据被定义为“代表着人类认知过程的进步,数据集的规模是无法在可容忍的吋间A用目前的技水、方法和理论去获取、管理、处理的数裾”121。
人数裾不是一种新技术,也不是一种新产品,而是一种新现象,是近来研究的一个技术热点。人数据具旮以K4个特点,即4个“V”:
(1) 数据体景(Volumes)巨人。人型数据集,从TB级别,跃升到PB级别。
(2) 数据类别(Variety)繁多。数据来A多种数据源,数据种类和格式冲破Y以前所限定的结构化数裾范畴,囊括/半结构化和非结构化数裾。
(3) 价位(Value)密度低。以视频为例,连续不问断监控过程屮,可能柯用的数裾仅仅一两秒钟。
(4) 处理速度(Velocity)快。乜含大量在线或实吋数据分析处理的需求,1秒定律。最后这一点也足和传统的数据挖掘技术有着本质的不同。物联M、云计算、移动互联网、车联M、手机、平板电脑、PC以及遍布地球各个角落的各种各样的传感器,无一不是数据来源或者承载的方式。
大数据技术是桁从各种各样类型的巨量数据中,快速获得有价伉信息的技术。解决大数裾问题的核心是大数裾技术。n前所说的”大数裾"不仅指数据木身的规模,也包括采巢数据的工具、平台和数裾分析系统。人数据研发b)的是发展人数据技术丼将其成用到相关领域, 通过解决巨景数据处理问题促进其突破性发展。因此,人数据吋代带來的挑战不仅体现在如何处理巨量数据从中获取有价值的信息,也体现在如何加强大数裾技水研发,抢占时代发展的前沿。
2大数据