1.22学习总结:流计算概述

一、学习视频

https://www.bilibili.com/video/BV1oE411s7h7?p=52

二、两种典型数据

静态数据:

流数据:数据以大量,快速,时变地方式持续到达

三、SparkStreaming

Spark Streaming 是 Spark 核心 API 的一个扩展,可以实现高吞吐量的、具备容错机制的实时流数据的处理。

四、SparkStreaming工作原理

将流数据切断,拆分成微小的批量数据,借助Spark框架进行批处理。其数据抽象是DStream

五、DStream操作概述

要运行Spark Streaming程序,需要先创建一个StreamingContext对象,它是Spark Streaming程序的主入口。

5.1在pyspark中创建Streaming Context对象

5.2编写独立Spark Streaming程序

原文地址:https://www.cnblogs.com/wangzhaojun1670/p/14374414.html