1 / 31
文档名称:

大数据分析一体机.pptx

格式:pptx   大小:5,719KB   页数:31页
下载后只包含 1 个 PPTX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

大数据分析一体机.pptx

上传人:分享精品 2017/11/25 文件大小:5.58 MB

下载得到文件列表

大数据分析一体机.pptx

相关文档

文档介绍

文档介绍:数据分析一体机
目录
1
大数据概述
2
一体机概述
2
3
研发思路
4
应用分析
大数据的4V特征
“4V”是“大数据”的显著特征,或者说,只有具备这些特点的数据,才是大数据。大数据将有新型的展现方式:大型控制中心和移动终端,实现数据的实时处理和快速决策。
体量Volume
多样性Variety
价值密度Value
速度Velocity
非结构化数据的超大规模和增长
总数据量的80~90%
比结构化数据增长快10倍到50倍
是传统数据仓库的10倍到50倍
大数据的异构和多样性
很多不同形式(文本、图像、视频、机器数据)
无模式或者模式不明显
不连贯的语法或句义
大量的不相关信息
对未来趋势与模式的可预测分析
深度复杂分析(机器学****人工智能Vs传统商务智能(咨询、报告等)
实时分析而非批量式分析
数据输入、处理与丢弃
立竿见影而非事后见效
大数据的特征
大数据技术将被设计用于在成本可承受(economically)的条件下,通过非常快速(velocity)的采集、发现和分析,从大量化(volumes)、多类别(variety)的数据中提取价值(value),属于IT 领域新一代的技术与架构
用以分析的数据越全面,分析的结果就越接近于真实。大数据分析意味着企业能够从这些新的数据中获取新的洞察力,并将其与已知业务的各个细节相融合
数据分析的价值
分析技术:
数据处理:自然语言处理技术
统计和分析:A/B test; top N排行榜;地域占比;文本情感分析
数据挖掘:关联规则分析;分类;聚类
模型预测:预测模型;机器学****建模仿真
大数据技术:
数据采集:ETL工具
数据存取:关系数据库;NoSQL;SQL等
基础架构支持:云存储;分布式文件系统等
计算结果展现:云计算;标签云;关系图等
存储
结构化数据:
海量数据的查询、统计、更新等操作效率低
非结构化数据
图片、视频、word、pdf、ppt等文件存储
不利于检索、查询和存储
半结构化数据
转换为结构化存储
按照非结构化存储
解决方案:
Hadoop(MapReduce技术)
流计算(***的storm和yahoo的S4)
数据采集
数据储存
数据管理
数据分析与挖掘
一些相关技术
1、对现有数据库管理技术的挑战
传统的数据库部署不能处理数TB 级别的数据,也不能很好的支持高级别的数据分析。急速膨胀的数据体量即将超越传统数据库的管理能力。
2、经典数据库技术并没有考虑数据的多类别(variety)
SQL(结构化数据查询语言),在设计的一开始是没有考虑非结构化数据的。
3、实时性的技术挑战:
一般而言,像数据仓库系统、BI应用,对处理时间的要求并不高。因此这类应用往往运行1、2天获得结果依然可行的。但实时处理的要求,是区别大数据应用和传统数据仓库技术、BI技术的关键差别之一。
网络架构、数据中心、运维的挑战:
技术架构的挑战:
人们每天创建的数据量正呈爆炸式增长,但就数据保存来说,目前的技术改进不大,而数据丢失的可能性却不断增加。
如此庞大的数据量首先在存储上就会是一个非常严重的问题,硬件的更新速度将是大数据发展的基石。
领域共性问题
大数据处理技术手段
String
Convert
Count
Filter
String
Truncate
Sort
Indexing
Join
Sequence
Extract
Aggregate
Social Media
Machine
&
Sensor
Data
Media
Web
Clickstream
Mobile
Apps
Call Log
Splunk
BI/
Reporting
Customized
Solutions
Database /
Data Warehouse
较常见的解决方案
大数据储存
大数据处理
数据分享
数据检索
数据分析
数据展现
分布式软件架构
并行计算框架
分布式存储
横向扩容(Scale-out) 架构
存储与运算合一
Big Data 运算与存储,单一架构解决
9
传统并行计算架构
并行计算+ 分布式存储
运算
存储
传统存储架构
计算与存储一体,计算向数据靠拢,高效专用存储模式
为程序员屏蔽通性、并发、同步与一致性等问题
任务之间无依赖(share-nothing),具有高系统延展性(scale-out)
利用Hadoop 的特性
目录
1
大数据概述
2
一体机概述
10
3
研发思路
4
应用分析

最近更新

2021年青岛版(初中)数学初一新生分班入学考试.. 25页

2024年减肥用品项目资金申请报告代可行性研究.. 60页

2024年环保巴士项目资金筹措计划书代可行性研.. 70页

石磨肠粉项目融资方案 39页

牛肉养殖项目融资方案 39页

公司招聘管理规定 13页

梭戛乡中学全民阅读活动总结 3页

电力行业面试自我介绍 2页

高三一轮复习:新中国外交复习课件 22页

Hadoop现场演示与编程过程课件 28页

中班防意外伤害安全教育 29页

抗风湿药竞争策略分析报告 82页

霍尔传感器竞争策略分析报告 73页

让中学生更有动力克服学习上困难的评语摘录 85页

2024年电商大数据项目资金需求报告代可行性研.. 56页

描写荔枝肉作文 11页

《光与影导学案-2023-2024学年科学湘科版2001.. 3页

声场单边聚焦的开题报告 2页

基于风光电互补建筑节能控制器的研究与实现的.. 2页

基于转录组测序数据的基因共表达网络研究开题.. 2页

基于虚拟现实的老北京四合院漫游系统的构建与.. 2页

互联网+养老创业计划书 4页

y500一XS0040G3变频器说明书 4页

山东春考英语真题(2022-2023) 17页

单位负责人基本情况登记表 1页

大坝混凝土浇筑安全保障措施 3页

四川物业服务合同(示范文本2022) 41页

2014年-全年资料解析 31页

三年级下册音乐教案 (简谱) (演唱)梦之船.. 5页

管理毕业论文社区管理与服务专业毕业论文 3页