Flink on Zeppelin 流计算处理最佳实践

简介: 欢迎钉钉扫描文章底部二维码进入 EMR Studio 用户交流群 直接和讲师交流讨论~ 点击以下链接直接观看直播回放:https://developer.aliyun.com/live/247106

开源大数据社区 & 阿里云 EMR 系列直播 第十二期

主题:Flink on Zeppelin 流计算处理最佳实践

讲师:简锋,阿里云 EMR 数据开发平台 负责人

内容框架:

  • 大数据概览
  • Flink 学习框架
  • EMR Studio 上的流计算最佳实践
  • 演示

直播回放:扫描文章底部二维码加入钉群观看回放,或进入链接https://developer.aliyun.com/live/247106

一、大数据概览

  • 大数据处理 ETL (Data  → Data)
  • 大数据分析 BI   (Data  →  Dashboard)
  • 机器学习    AI   (Data  →  Model)

image.png

二、Flink 学习框架

Flink 要点

  • Stateful
  • Time
  • Flink Architecture
  • Flink API
  • Flink Configuration
  • Flink Log

Stateful:

  • Why

 • 流计算的及时性

 • 流计算的 unbounded

  • When

 • Window

 • Join

 • Pattern

  • How

 • statebackend

Time

  • Event time
  • Processing time
  • Watermark

Flink Architecture

image.png

Flink API

image.png

 

Flink Configuration

  • Cluster Configuration
  • Job Configuration
  • Statebackend
  • Resource Manager
  • SQL/Python

 

参考文档:https://ci.apache.org/projects/flink/flink-docs-release-1.13/docs/deployment/config/

Flink Log

image.png

三、EMR Studio 上的流计算最佳实践

EMR Studio 特性:

  • 兼容开源组件
    EMR Studio 在开源软件 Apache Zeppelin,Jupyter Notebook, Apache Airflow 的基础上优化了做了优化和增强。

image.png

  • 支持连接多个集群
  • 适配多个计算引擎
  • 交互式开发 + 作业调度无缝衔接
  • 适用多种大数据应用场景
  • 计算存储分离

Flink Clients

image.png

Flink on Zeppelin (Phase 1) - Interactive Flink Client

image.png

Flink on Zeppelin (Phase 2) - Interactive JobManager

image.png

Flinkon Zeppelin 主要 Feature

image.png

四、演示

具体产品介绍和演示,可以点击以下链接直接观看回放:

https://developer.aliyun.com/live/247106

原文链接

本文为阿里云原创内容,未经允许不得转载。

原文地址:https://www.cnblogs.com/yunqishequ/p/15071526.html