大数据读书笔记(2)-流式计算

早期和当前的"流式计算"系统分别称为"连续查询处理类"和"可扩展数据流平台类"计算系统。

流式计算系统的特点:

1)低延迟 2)极佳的系统容错性 3)极强的系统扩展能力 4)灵活强大的应用逻辑表达能力

目前典型的流式计算系统:

S4,storm,millwheel,samza,d-stream,hadoop online,mupd8等。

其中storm和millwheel是各方面比较突出的。

流式计算系统架构:

常见的流式计算系统架构分为两种:主从模式和p2p模式。

主从模式storm、millwheel和samza

p2p模式s4

samza是利用消息系统kafka和hadoop2.0的资源管理系统Yarn综合而成的,架构比较独特,但本质上遵循主从架构。

送达保证

三种可能:至少送达一次(at_least once delivery),至多送达一次(at_most once delivery),恰好送达一次(Exeact-once delivery)。

storm在系统中提供"恰好送达一次"语义是通过送达保证机制和事务拓扑联合来完成的。

samza依靠kafka的消息持久化联合broker缓存机制,保证"恰好送达一次"语义。

原文地址:https://www.cnblogs.com/davidwang456/p/4942143.html