10. Fluentd部署：高可用配置

对于高访问量的web站点或者服务，可以采用Fluentd的高可用配置模式。

消息分发语义

Fluentd设计初衷主要是用作事件日志分发系统的。这类系统支持几种不同的分发模式：

至多一次。消息被立即发送，若传输成功，该消息不会再被发送。发送失败，则会导致消息丢失。现实环境下会有很多情况导致发送失败，比如网络暂时不可用。
至少一次。消息至少会被发送一次，若发送失败，消息会被重发。这保证了消息不会被丢失，但可能导致接收端收到重复的消息。
精确只发一次。消息刚好发送一次，能确保送达且不会重复。这是大家所期望的分发模式。实现此模式可能需要采用同步化的日志处理方式，当达到发送瓶颈时，告知业务层已无法接收更多的日志。

为了在不影响业务性能的情况下收集大量的日志，日志层必须以异步的方式运行。因此，Fluentd只提供了前两种传输模式。

网络拓扑

为使得Fluentd具备高可用性，典型的部署架构需要包含两种不同角色的Fluentd模块：转发器（forwarder）和聚合器（aggregator）。其拓扑结构如下图所示

转发器部署在业务节点，用于收集业务方产生的本地日志事件，并将事件发送至聚合器。
聚合器持续地从转发器接收日志，对日志进行缓存，并定期上传日志到下一个处理方（典型的就是存储）。
聚合器采用主备模式。如上图，192.168.0.1为主，192.168.0.2为备。

转发器配置

转发器的典型配置如下所示：

# TCP input
<source>
  @type forward
  port 24224
</source>

# HTTP input
<source>
  @type http
  port 8888
</source>

# Log Forwarding
<match mytag.**>
  @type forward

  # primary host
  <server>
    host 192.168.0.1
    port 24224
  </server>
  # use secondary host
  <server>
    host 192.168.0.2
    port 24224
    standby
  </server>

  # use longer flush_interval to reduce CPU usage.
  # note that this is a trade-off against latency.
  <buffer>
    flush_interval 60s
  </buffer>
</match>

这里有两个输入源，使用forward插件将日志事件发送到两个聚合器server中，其中通过standby指定192.168.0.2为备用聚合器。若两个聚合器节点都不可用，日志将会缓存在转发器节点。

聚合器配置

聚合器的典型配置如下所示：

# Input
<source>
  @type forward
  port 24224
</source>

# Output
<match mytag.**>
  ...
</match>

这个比较简单，使用forward插件作为输入源。日志会在本地缓存，并通过重传机制确保能送达目的地。

失败场景提示

5.1 转发失败
转发器收到应用层的日志事件后，先将事件写入本地磁盘缓存（由buffer_path指定）。每个flush_interval到来时，缓存事件被转发至聚合器。
转发器进程若发生崩溃，进程重启后会自动重发已缓存的日志；转发器和聚合器网络若发生故障，转发器也会对日志进行重传。这在一定程度上保证了转发器的健壮性。
但仍有一些情况可导致数据丢失：

转发器收到业务层日志，在将日志写入缓存之前发生崩溃
磁盘损坏

5.2 聚合失败
聚合器采用和转发器相同的失败处理机制，失败场景类似。

错误排查

采用此架构进行部署时，有时候会遇到“no nodes are available”的错误提示。这可能是节点间网络不通导致的。需要注意的是，节点之间通过24224端口传输数据，既使用TCP，也会使用UDP。
可通过以下命令进行检查：

$ telnet host 24224
$ nmap -p 24224 -sU host