AirFlow功能展示个人笔记

DAGs 查看您可以一目了然地查看成功、失败及当前正在运行的任务数量。

 选中其中一个DAG

树视图

跨越时间的 DAG 的树表示。如果 pipeline(管道)延迟了,您可以很快地看到哪里出现了错误的步骤并且辨别出堵塞的进程。

图表视图

图形视图可能是最全面的一种表现形式了。它可以可视化您的 DAG 依赖以及某个运行实例的当前状态。

 

 任务持续时间图

过去 N 次运行的不同任务的持续时间。通过此视图,您可以查找异常值并快速了解 DAG 在多次运行中花费的时间。

 

甘特图

甘特图可让您分析任务持续时间和重叠情况。您可以快速识别系统瓶颈和哪些特定 DAG 在运行中花费了大量的时间。

代码视图

透明就是一切。虽然您的 pipeline(管道)代码在源代码管理中,但这是一种快速获取 DAG 代码并提供更多上下文的方法。

 

任务实例上下文菜单

从上面的页面(树视图,图形视图,甘特图......)中,始终可以单击任务实例,并进入此丰富的上下文菜单,该菜单可以将您带到更详细的元数据并执行某些操作。

 

 任务实例细节

 

 任务实例

 

 查看日志

 调度周期

 

所有的任务实例

 所有作业

 记录了所有DAG的运行情况

当有太多进程同时运行时,某些系统可能会被淹没。Airflow 池可用于限制任意任务集上的执行并行性 。通过为池命名并为其分配多个工作槽来在 UI

连接

外部系统的连接信息存储在 Airflow 元数据数据库中,并在 UI 中进行管理(Menu -> Admin -> Connections)。在那里定义了conn_id ,并附加了主机名/登录/密码/结构信息。 Airflow 管道可以简单地引用集中管理的conn_id而无需在任何地方硬编码任何此类信息。

可以定义具有相同conn_id许多连接,并且在这种情况下,并且当挂钩使用来自BaseHookget_connection方法时,Airflow 将随机选择一个连接,允许在与重试一起使用时进行一些基本的负载平衡和容错。

Airflow 还能够通过操作系统中的环境变量引用连接。但它只支持 URI 格式。如果您需要为连接指定extra信息,请使用 Web UI。

如果在 Airflow 元数据数据库和环境变量中都定义了具有相同conn_id连接,则 Airflow 将仅引用环境变量中的连接(例如,给定conn_id postgres_master,在开始搜索元数据数据库之前,Airflow 将优先在环境变量中搜索AIRFLOW_CONN_POSTGRES_MASTER并直接引用它)。

许多钩子都有一个默认的conn_id,使用该挂钩的 Operator 不需要提供显式连接 ID。 例如,PostgresHook的默认conn_idpostgres_default 。

XComs

XComs 允许任务交换消息,允许更细微的控制形式和共享状态。该名称是“交叉通信”的缩写。XComs 主要由键,值和时间戳定义,

但也跟踪创建 XCom 的任务/DAG 以及何时应该可见的属性。任何可以被 pickle 的对象都可以用作 XCom 值,因此用户应该确保使用适当大小的对象。

 

变量

变量是将任意内容或设置存储和检索为 Airflow 中的简单键值存储的通用方法。可以从 UI(Admin -> Variables),代码或 CLI 列出,

创建,更新和删除变量。此外,json 设置文件可以通过 UI 批量上传。虽然管道代码定义和大多数常量和变量应该在代码中定义并存储在源代码控制中,但是通过 UI 可以访问和修改某些变量或配置项会很有用。

原文地址:https://www.cnblogs.com/braveym/p/11428952.html