[第二章]了解storm

1、什么是storm

Apache Storm is a free and open source distributed realtime computation system.

     免费、开源、分布式、实时计算系统

Storm makes it easy to reliably process unbounded streams of data

     unbounded:无界,源源不断

     bounded:Hadoop/spark SQL  离线 (input-->output)

doing for realtime processing what Hadoop did for batch processing

     storm:实时流处理

     Hadoop:离线批处理

2、storm能做什么?

Storm has many use cases:

    realtime analytics:实时分析

    online machine learning:在线机器学习

    continuous computation:持续计算

    distributed RPC,

     ETL:

    and more.

3、storm的特点

     fast: over a million tuples processed per second per node. 

      scalable(可添加机器)

      fault-tolerant

      guarantees your data will be processed

      easy to set up and operate.            

storm能实现高频数据和大规模数据的实时处理          

4、storm发展历史

storm产生于twitter    

   需求:大户数的实时处理

   实时系统要考虑:

   1)健壮性

    2)拓展性/分布式

    3)数据不丢失不重复

    4)高性能低延时

 5、storm和Hadoop的区别

处理过程

Hadoop    map       reduce

storm      spout      bolt    

storm进程不杀死不结束

Hadoop进程完成就结束                                                                                     

6、发展趋势

看:

    社区的发展、活跃度

    企业的需求

    大数据的相关大会,如storm的数量上升

    互联网公司使用度

原文地址:https://www.cnblogs.com/suwy/p/9205430.html