文档介绍:IBM Big Data Platform
王云
IBM院士
中技术官
2012
信息是新一轮机遇中的核心…企业需要更深入的
远见卓识
未来的10
2020
年里,数
35 zettabytes
据和内容商界领袖经常需要以不信任的
1 in 3 或不存在信息为基础进行决策
将增长 44倍
商界领袖无法获取做好本职
1 in 2 工作所需要的信息
CIO们提到的“商业智能和分析”
83% 作为有远见计划的一部分来提高
竞争力
2009 80%
800,000 petabytes 的数据是非结构化的
CEO们需要更迅速捕获和了解信息,
以便迅速作出业务决策来做取得更
60% 好的工作成绩
2012
2
群体和个体之间交互沟通的方式发生了
翻天覆地的变换由此带来的信息量的巨增
+ + = A brand new game
Consumers e increasingly instrumented
Consumers e increasingly interconnected
Consumers e increasingly intelligent
2012
IBM Institute for Business Value CMO Study
3 2011
Big Data 的机遇
从巨大、以无与伦比的速度增长和多样化的数据中
提取远见卓识,而这些是以前无法做到的
2012
4
The IBM Big Data Platform
2012
5
Big Data 平台能够做什么事情?
分析多样化的信息
基于大范围混合信息的上下文分析,而这种分析
此前根本不能执行
分析流动中的信息
流数据分析
针对数据爆炸和ad-hoc模式的分析
分析极端大量的数据
成本最优化地处理和分析PB量级的信息
管理、分析大容量的结构化和关系型数据
发掘和探索
Ad-hoc模式的分析、数据发现和验证
计划和管控
加强数据结构的完整性和控制,2012
一致性 2012
6
Big Data 丰富了整个信息管理生态系统
优化归档成本通过生活事件、爱好和角色等等使主
数据变得更加丰富
建立信息即服务审计路线图精减
了工作和任务
优化OLTP 谁?在什么时候?什
(SAP, checkout, +++) 么地方?动用了什么
样的数据?
管理治理过程
2012
7
互为补充的分析能力
传统的做法新的路径
结构化,可分析,逻辑性创造性, 整体思维, 知觉
Hadoop
数据仓库 Streams
事务数据 Web 日志
来自内部应用的数据社交网络中的数据
Structured 结构化非结构化Unstructured
Repeatable Exploratory
可重复企业集成
来自主机的数据 Linear 探索性Iterative 文本数据: emails
Monthly sales reports Brand sentiment
Profitability analysis线性的迭代的Product strategy
OLTP 系统中的数据Customer surveys Maximum来自传感器的数据 asset utilization : 影像
来自ERP的数据 RFID
传统数据源新数据源
2012
8
Streams 和 BigInsights –沉淀的数据和流动数据的无缝集成
可视化的实时和历史
的见解
数据集成,数据挖
掘,机器学习,统
计建模
InfoSphere
Streams
1. 数据注入
Data
InfoSphere
2. 数据反馈 BigInsights,
Database &
Control Warehouse
数据采集,准备, flow
在线分析,模型
验证
3. 自适应分析模型
2012
9
InfoSphere BigInsights
Platform for volume, variety,
velocity -- V3
. 增强的Hadoop方案
Analytics for V3
. 文本分析的工具箱
. 机器学习与预测分析
Usability
. Web console
. 集成安装