1 / 4
文档名称:

大数据 101.pdf

格式:pdf   页数:4页
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

大数据 101.pdf

上传人:boy_0011 2015/10/2 文件大小:0 KB

下载得到文件列表

大数据 101.pdf

相关文档

文档介绍

文档介绍:大数据 101: 2012 年 6 月
非结构化数据分析
大数据和新兴技术速成课
大数据和非结构化数据分析究竟意味着什么?您是否对它有所担心?本简报将为您
提供有关大数据的速成课:它为什么重要、对 IT 部门的影响、非结构化数据分析
的新兴技术以及英特尔如何提供帮助。
大数据为什么重要
数据正以惊人的速度激增。从出现文明到 2003 年,人类总共非结构化数据本质上是异构和可变的,同时具有许多格式,包
才创造 5 EB(5 ExaBytes, 1018 字节)的数据,但是我们现在仅括文本、文档、图形、视频等等。非结构化数据的增长速度比
在两天内就创造出相同的数据量!1 到 2012 年,全球数字数结构化数据的增长速度更快。根据 2011 年的 IDC 调查,3 它将
据量将增长至 ZB(ZettaBytes, 1021 字节),并以每两年占未来十年所创造数据的 90%。作为一个新的尚未开发的信息
翻番的速度增长,到 2015 年将达到 8 ZB。举例来说,这相当源,非结构化数据分析可揭露之前很难或无法确定的重要相互
于 1800 万个国会图书馆。2 数十亿台连接的设备—从个人电关系。
脑和智能手机到 RFID 读取器和交通摄像头等传感设备,都在
大数据分析是一项技术推动的战略,旨在获得更加丰富、深入
不断生成复杂的结构化数据和非结构化数据。
和更加准确的客户、合作伙伴以及商业洞察,并最终获得竞争
大数据是指庞大的数据集, 它们有着比以往更大的容量优势。通过处理稳定的实时数据流,与以往相比,组织可更加
(volume,按数量级)、更高的多样性(variety)和复杂性, 快速地做出时间敏感的决策、监控最新趋势、快速调整方向并
以及更快的生成速度(velocity)。这三个关键特性有时被称抓住新的商机。
为大数据的三个 V。
大数据对 IT 部门的影响
大数据极具爆发力,为 IT 组织同时带来了机会和挑战。为发•为大规模分布式数据密集型作业而设计的基础设施,将问题
掘它的全部潜能,大数据分析需要使用全新方法来捕获、存分布到整个集群服务器节点
储和分析数据。
•经济高效的存储,足以捕获和存储 TB 级别(如果不是 PB 级
三个 V 概括了大数据的主要特点,同时定义了 IT 部门需要解别)的数据,拥有智能能力来减少数据足迹,如数据压缩、
决的主要问题: 自动数据分层和重复数据删除
•容量。非结构化数据的大规模和增长超过了传统存储和分•可快速导入大型数据集然后复制到各节点进行处理的网络基
析解决方案的发展速度。础设施
•多样性。可从之前从未考虑过的来源收集大数据。传统的•保护高度分布式基础设施和数据的安全能力
数据管理流程无法处理异构和可变的大数据,这些数据可•使用统计数据、算法、数据挖掘和可视化技术识别机会所需
能来自不同的格式,如电子邮件、社交媒体、视频、图的人力资源技能组合
像、博客和传感器数据,以及“阴影数据”,如访问日志
和网络搜索历史记录。数据科学家的兴起
•速度。数据实时生成,同时要求按需提供可用信息。寻找技能熟练的人才是与大数据分析相关的主要挑战之一。成
IT
这三个 V 的组合还推动了第四个因素:价值。对于任何希望功的大数据分析计划要求部门