文档介绍:企业Big Data指南 –方案架构与案例研讨
大数据(Big Data)时代来临
Structured
Database
Spreadsheet
File in record format
Semi-structured
XML Docs
Logs
Click-stream
Equipment/ Device, RFID tag
Unstructured
Web Pages
E-mail
Multimedia
Instant Messages
Documents
Big Data
People
Devices
Sensors
移动互联网
Mobile
物联网
of Things
3
新量级、新处理模式、新企业智能
Big Data 要解决的问题
Volume
海量的数据规模
Variety
多样的数据类型
Streams
Real time
Near time
Batch
TB
PB
EB
Structured
Unstructured
Semi-structured
All the above
Value
Velocity
快速的数据流转
巨大的数据价值
5
Social Media
Machine / Sensor
DOC / Media
Web
Clickstream
Apps
Call Log
Log
什么是半结构化/非结构化数据
Big Data 带来的挑战
不同“看”数据的方式
需要更高性价比的数据计算与储存方式
不同的数据管理策略
超越企业现有 IT 的数据解决能量
6
不同“看”数据的方式
7
可视:结构化资料 15%
未视:半/非结构化数据 85%
DB/DW
主管们看的
战情数位仪表板,其实是残缺的…
10万
GB
10万
TB
需要更高性价比的数据计算与储存方式
8
数据库
数据仓库
计算更快存储更省
85%
半/非结构化的
Log / Web page / Email / PDF / Image / Full-text / MS-Office file
9
不同的数据管理策略
当我们想要扩充时,
才发觉:
架构只能 scale-up,
scale-out 不易
处理时间过长,
time-to-value 受限
成本过高,
cost-efficiency 受限
15%
结构化的 DB/DW
遗憾
残缺
每天几百 GB、几 TB 的资料,且持续成长中
储存
Storing
在收数据的同时做必要的前置处理(pre-processing)
,并区分数据处理的优先等级(prioritizing)
计算
Processing
如何有效的避免因硬件毁坏所导致的资料损毁
管理
Managing
如何从中挖掘出所关注事件的 pattern 或 behavior
分析
Analyzing
超越企业现有 IT 的数据解决能量
10