1 / 7
文档名称:

大数据与云计算 (2).pdf

格式:pdf   页数:7页
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

大数据与云计算 (2).pdf

上传人:sxlw2016 2016/4/25 文件大小:0 KB

下载得到文件列表

大数据与云计算 (2).pdf

相关文档

文档介绍

文档介绍:Focus on China 35 SCIENCE&TECHNOLOGY FOR DEVELOPMENT 一、大数据的价值根据维基百科的定义, 大数据( B i g D a t a ) 是用于数据集的一个术语, 是指大小超出了常用的软件工具在运行时间内可以承受的收集, 管理和处理数据能力的数据集。换句话说, 在单一数据集里, 数据规模超出目前常用软件工具在合理的可容忍时间里可以访问、管理、处理能力的数据集就是大数据。由于软件的能力是与时俱进的, 因而大数据规模的定量界限就是随着技术进步而不断增大。大数据的规模大小是一个不断演化的指标, 目前范围是指在一个单一的数据集从数十 T B 到十几 P B 级的数据规模。大数据逐渐有替代此前类似的海量数据( M a s s i v e D a t a ) 、大规模数据( L a r g e S c a l e D a t a ) 、庞大数据( E n o r m o u s D a t a ) 、巨量数据( H u g e d a t a ) 等概念的趋势。实际上, 不能简单地以数据规模来界定大数据, 而要考虑满足用户需求的数据处理与分析的复杂程度。针对简单的用户需求( 如关键字搜索) , 数据量为 T B 至 P B 级时可称为大数据; 而针对复杂的用户需求( 如数据挖掘) , 数据量为 G B 至 T B 级时即可称为大数据。存在数据量很大, 计算任务简单的“小数据”; 也存在数据量不大, 但数据和计算复杂性高的“大数据”。大数据的特征可以用所谓的 3 个“ V ”表示: 体量( V o l u m e ) 、多样性( V a r i e t y ) 与速度( V e l o c i t y ) 。体量( V o l u m e ) 是指聚合在一起供分析的数据量必须是非常庞大的。无所不在的移动设备、 R F I D 、无线传感器每分每秒都在产生数据, 数以亿计用户的互联网服务时时刻刻在产生巨量的交互。 W e b 日志、 R F I D 、传感网、社会网、社会数据、互联网文本文档、互联网搜索索引、呼叫记录、天文记录、大气科学、基因学、生物化学、大数据与云计算■何清* 中国科学院计算技术研究所北京 100190 摘要:大数据(Big Data)这个概念近年来在越来越多的场合、被越来越多的人提及, 并且经常和云计算联系在一起,云计算与大数据之间到底是什么关系成为热点话题。本专题报告包含以下四个方面内容:1. 大数据的价值;2. 大数据带来的挑战;3. 大数据研究成果;4. 云计算是大数据挖掘的主流方式。通过本报告阐述我们对大数据的理解,以及对大数据的价值的认识,探讨大数据处理与挖掘技术,论述以下观点:没有互联网就没有云计算模式,没有云计算模式就没有大数据处理技术,也就没有大数据挖掘技术。关键词:大数据云计算数据挖掘 DOI :. * 何清, 中国科学院计算技术研究所研究员, 博士生导师, 2 0 0 8 年底开发完成了我国最早的基于云计算的并行数据挖掘平台, 用于*** T B 级实际数据的挖掘, 实现了高性能、低成本的数据挖掘, 先后主持完成多个有关数据挖掘的国家自然科学基金项目和 8 6 3 项目, 提出了一系列有效的数据挖掘算法, 组织开发的多个数据