文档介绍:数据分析一体机
目录
1
大数据概述
2
一体机概述
2
3
研发思路
4
应用分析
大数据的4V特征
“4V”是“大数据”的显著特征,或者说,只有具备这些特点的数据,才是大数据。大数据将有新型的展现方式:大型控制中心和移动终端,实现数据的实时处理和快速决策。
体量Volume
多样性Variety
价值密度Value
速度Velocity
非结构化数据的超大规模和增长
总数据量的80~90%
比结构化数据增长快10倍到50倍
是传统数据仓库的10倍到50倍
大数据的异构和多样性
很多不同形式(文本、图像、视频、机器数据)
无模式或者模式不明显
不连贯的语法或句义
大量的不相关信息
对未来趋势与模式的可预测分析
深度复杂分析(机器学****人工智能Vs传统商务智能(咨询、报告等)
实时分析而非批量式分析
数据输入、处理与丢弃
立竿见影而非事后见效
大数据的特征
大数据技术将被设计用于在成本可承受(economically)的条件下,通过非常快速(velocity)的采集、发现和分析,从大量化(volumes)、多类别(variety)的数据中提取价值(value),属于IT 领域新一代的技术与架构
用以分析的数据越全面,分析的结果就越接近于真实。大数据分析意味着企业能够从这些新的数据中获取新的洞察力,并将其与已知业务的各个细节相融合
数据分析的价值
分析技术:
数据处理:自然语言处理技术
统计和分析:A/B test; top N排行榜;地域占比;文本情感分析
数据挖掘:关联规则分析;分类;聚类
模型预测:预测模型;机器学****建模仿真
大数据技术:
数据采集:ETL工具
数据存取:关系数据库;NoSQL;SQL等
基础架构支持:云存储;分布式文件系统等
计算结果展现:云计算;标签云;关系图等
存储
结构化数据:
海量数据的查询、统计、更新等操作效率低
非结构化数据
图片、视频、word、pdf、ppt等文件存储
不利于检索、查询和存储
半结构化数据
转换为结构化存储
按照非结构化存储
解决方案:
Hadoop(MapReduce技术)
流计算(***的storm和yahoo的S4)
数据采集
数据储存
数据管理
数据分析与挖掘
一些相关技术
1、对现有数据库管理技术的挑战
传统的数据库部署不能处理数TB 级别的数据,也不能很好的支持高级别的数据分析。急速膨胀的数据体量即将超越传统数据库的管理能力。
2、经典数据库技术并没有考虑数据的多类别(variety)
SQL(结构化数据查询语言),在设计的一开始是没有考虑非结构化数据的。
3、实时性的技术挑战:
一般而言,像数据仓库系统、BI应用,对处理时间的要求并不高。因此这类应用往往运行1、2天获得结果依然可行的。但实时处理的要求,是区别大数据应用和传统数据仓库技术、BI技术的关键差别之一。
网络架构、数据中心、运维的挑战:
技术架构的挑战:
人们每天创建的数据量正呈爆炸式增长,但就数据保存来说,目前的技术改进不大,而数据丢失的可能性却不断增加。
如此庞大的数据量首先在存储上就会是一个非常严重的问题,硬件的更新速度将是大数据发展的基石。
领域共性问题
大数据处理技术手段
String
Convert
Count
Filter
String
Truncate
Sort
Indexing
Join
Sequence
Extract
Aggregate
Social Media
Machine
&
Sensor
Data
Media
Web
Clickstream
Mobile
Apps
Call Log
Splunk
BI/
Reporting
Customized
Solutions
Database /
Data Warehouse
较常见的解决方案
大数据储存
大数据处理
数据分享
数据检索
数据分析
数据展现
分布式软件架构
并行计算框架
分布式存储
横向扩容(Scale-out) 架构
存储与运算合一
Big Data 运算与存储,单一架构解决
9
传统并行计算架构
并行计算+ 分布式存储
运算
存储
传统存储架构
计算与存储一体,计算向数据靠拢,高效专用存储模式
为程序员屏蔽通性、并发、同步与一致性等问题
任务之间无依赖(share-nothing),具有高系统延展性(scale-out)
利用Hadoop 的特性
目录
1
大数据概述
2
一体机概述
10
3
研发思路
4
应用分析