1 / 17
文档名称:

java分布式之流处理介绍.pptx

格式:pptx   页数:17页
下载后只包含 1 个 PPTX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

java分布式之流处理介绍.pptx

上传人:今晚不太方便 2015/12/7 文件大小:0 KB

下载得到文件列表

java分布式之流处理介绍.pptx

相关文档

文档介绍

文档介绍:第22讲 Stream Processing 流处理
莫伟伟
Stream Processing
1、为什么要进行流处理
2、Storm
Stream Processing challenge
1、大量数据需要实时数据观(real-time views )
2、对大量高流通,以及包含潜在因素的数据处理
mapreduce
1、成批处理需要等待全部数据计算结束
2、mapreduce的处理不能长时间运行
ponents
Tuples (元组)
Streams (被处理的数据)
Spouts (数据源)
Bolts (处理数据者)
Topologies (计算拓扑)
Tuples
有序元素的排列
Spouts
Spouts 是Storm 集群中一个计算任务(Topology)中消息流的生产者,Spouts一般是从别的数据源(例如,数据库或者文件系统)加载数据,然后向Topology中发射消息。
Bolts
所有消息处理的逻辑都在Bolt 中完成,在Bolt 中可以完成如过滤、分类、聚集、计算、查询数据库等操作。
Topologies
在 Storm 中,一个实时计算应用程序的逻辑被封装在一个称为Topology 的对象中,也称为计算拓扑
Stream Groupings
定义一个 Topology 的其中一步是定义每个Bolt 接收什么样的流作为输入。Stream Grouping 就是用来定义一个Stream 应该如何分配给Bolts 上面的多个Tasks