[RoCE]拥塞控制机制(ECN, DC-QCN)

1.网络拥塞问题

在网络交换机中，当入口流量大于出口流量的带宽时会发生网络拥塞。典型的例子是多个发送方同时向同一个目的地发送网络数据。交换机的缓存可以处理暂时的拥塞，但是当拥塞太久时，交换机的缓存就会过载。当交换机缓存过载时，下一个收到的新的数据包就会被丢弃。丢包会降低应用性能，因为重传和传输协议的复杂性会带来延迟。无损网络实现了流控制机制，它可以在缓存溢出前暂停入口流量，阻止了丢包现象。然而，流控制本身会造成拥塞传播的问题。

为了理解拥塞传播问题，考虑下面的图示。假设交换机1上的端口A到E都在向端口G发送网络数据包，以至于端口G以100%的能力来接收数据并且转发。假设，毗邻的交换机2端口F也在向交换机1的端口G发送数据，速率是整个链路带宽的20%。因为端口G的出口已经满载了，端口F将会重传数据包直到被流控制机制暂停。此时，端口G将会出现拥塞，然而此时没有负效应，因为所有的端口都会被端口G尽快的服务。

现在考虑交换机2上的一个端口X，以链路带宽的20%速度向交换机1上的端口Y发送数据。端口G这个拥塞源并不处于端口X到端口Y的路径上。这种情况下，你也许会认为端口F只使用了交换机间链路的20%带宽，剩余的80%带宽对于端口X是可用的。然而并非如此，因为来自端口F的流量最终触发流控制机制使得交换机间的链路处于暂停发送，并且将来自端口X的流量降为20%而不是潜在可用的80%带宽。

2.拥塞控制

拥塞控制用来减少有损网络中的丢包现象或者无损网络中的拥塞传播现象。它也减少交换机缓存的占用，进而减少了延迟和改善突发流量的容忍度。使用的方法是限制导致拥塞根本原因的端口(A-F)的网络流注入速率，因此其他端口(X)发来的网络流就不会被影响。通过限制端口A-F的注入速率为端口G可以处理的速率，端口A-F不应该观察到明显的性能下降(毕竟，它们的数据包无论如何也要等待)，然而从端口X到端口Y发送的数据包应该能够正常的转发，因为流控制机制不会发送暂停帧(拥塞控制目的是保持交换机的缓存占用率低，因此流控制机制就不会被触发)。当前的RoCE拥塞控制依赖显式拥塞通知(Explicit Congestion Notification, ECN)来运行。

3.Explicit Congestion Notification(ECN)

ECN最初在RFC 3168文档为TCP/IP协议所定义，它通过在IP头部嵌入一个拥塞指示器和在TCP头部嵌入一个拥塞确认实现。兼容ECN的交换机和路由器会在检测到拥塞时对网络数据包打标记。IP头部的拥塞指示也可以用于RoCEv2的拥塞控制。下面是IP头部的前四个帧的格式：

下面是整个IP头部的帧格式：

4.RoCEv2 的拥塞管理

RoCEv2标准定义了RoCEv2拥塞管理(RCM)。RCM提供了避免拥塞热点和优化链路吞吐量的能力。启用了RCM后，链路上早期的拥塞会被汇报给网络流的源，然后网络流的源会降低它们的注入速率，因此防止了链路上的缓存饱和与增加排队延迟带来的负面效果。拥塞管理与共存的TCP/UDP/IP流量也是相关的。然而，假设对RoCEv2和其他流量使用了不同优先级，每个优先级都有一个带宽分配，拥塞和拥塞反映(指网络源针对拥塞采取的动作)效果不应该互相影响。

为了发出拥塞信号，RCM依赖于RFC 3168中定义的ECN机制。一旦RoCEv2流量出现了拥塞，网络设备在数据包的IP头部对ECN域进行标记。这个拥塞指示器被目的终端节点按照BTH(Base Transport Header，存在于IB数据段中)中的FECN拥塞指示标识来解释意义。换句话说，当被ECN标记过的数据包到达它们原本要到达的目的地时，拥塞通知就会被反馈给源节点，源节点再通过对有问题的QP进行网络数据包的速率限制来回应拥塞通知。

RCM是一个可选的规范行为。实现了RCM的RoCEv2主机通道适配器应该按照下面的规则来运行：

当收到一个有效的RoCEv2数据包时，它的IP.ECN域的值如果是'11'(二进制)，那么这个主机通道适配器应该产生一个RoCEv2的CNP，送回给所收到的包的源节点(格式规定如下)。这个主机通道适配器应该对多个被ECN标记为同一个QP的的数据包发送一个单个CNP即可。
当收到一个RoCEv2的CNP时，主机通道适配器应该对RoCEv2 CNP中标记的QP实施减缓注入速率。这个速率变化总量由一个可配置的速率减缓参数来决定。
当被ECN标记的QP自从最近收到的RoCEv2 CNP包开始经过了一个可配置的暂停时长或者超过一个已经发送的可配置的字节数之后，主机通道支配器应该增加该QP的网络注入速率。

RoCEv2的CNP包格式如下：

5.拥塞控制环路

RoCEv2的拥塞控制环路如下：

1.注入端必须在IP头部设置ECN值，可选的值如下(ECT是ECN-Capable Transport)：定义在RFC 3168中

注入端网卡设置IP头部的ECN值为ECT(0)(‘10’)，注意，ECT(1)和ECT(0)不可交换。

2.RoCEv2数据包注入到网络中。

3.路由器在发生拥塞的队列上接收到数据包时，不是马上丢弃，也许会先检查ECN域确定是否开启了ECN功能，如果是，就在IP头部打开CE位。

4.在发生拥塞的情况下，正常转发的数据包从网络中到达接收方。

5.接收方会对开启CE位且类型为RoCE的数据包进行过滤，触发事件，然后再将数据包释放到正常处理流程中。

6-7.为了避免由于产生流量的负载，接收方应该将针对每个QP产生的拥塞通知聚集起来。在若干微秒内将一个CN数据包发送回注入方QP上。数据包中的ECN位设置为'01'来验证该数据包没有被IP路由器丢掉。IBA的BTH头部将会按照上述的格式来定义。

8.CNP包从接收方回注到网络中。

9.IP路由器将IB的CNP包视为一个普通的IP数据包。

10.CNP包到达源注入方节点。注入方节点对ECN位为'01'且类型为RoCE的数据包进行过滤，然后对指示的网络流应用速率限制算法。

6.量化拥塞通知(Quantized Congestion Notification,QCN)

量化拥塞通知IEEE标准(802.Qau)以有限带宽时延的以太网网络为长期保活的网络流提供了拥塞控制。这是IEEE数据中心桥接(DCB)协议套件中的一部分，还包括ETS,PFC,和DCBX。QCN在二层以太网络上制定，并且是针对硬件实现的。QCN适用所有的以太网帧和所有的传输，并且主机端和交换机端的行为也在标准中详细规定。QCN的配置和信息提取可以适用mlnx_qcn命令。

7.DC-QCN算法

DC-QCN算法是基于数据中心TCP(DCTCP)和量化通知算法的结合，并且和微软研究院协同开发的。最初的算法在SIGCOMM'15论文"Congestion control for large scale RDMA deployments"中提出。DC-QCN算法依赖于交换机端的ECN标记。ECN是商用数据中心交换机的普遍特点。在数据包IP头部中的查分服务域中的两个比特位用来提示拥塞。一旦交换机端出现了拥塞，这两个比特位就被置为"11"(CE)。

标记拥塞是队列长度的概率函数，如下图所示。队列长度的两个门限值定义了标记概率。当队列长度低于门限值下限时，ECN位不会被标记。当队列长度超过门限值上限时，所有从该队列传输的网络包都会被进行ECN标记。当队列长度处于两个门限值之间时，数据包会以与队列长度线性增长的概率被进行ECN标记。

带有ECN标记的数据包被传播到接收方的网卡上。接收方网卡创建一个CNP并把它发送给ECN所标记的数据包的发送方。CNP数据包包括被标记的QP的信息。当CNP被发送方网卡收到时，它会基于下面描述的算法来降低指定QP的传输速率。DC-QCN降速算法通过下面的图表来描述。简而言之，如果QP基于内部定时器和发送字节计数器，算法会持续的增加发送速率，一旦收到CNP包，就会对指定QP进行降速。除此之外，它还维持一个叫做α的参数，它反映了网络中的拥塞度，用于降速计算。

该算法通过三个并行的流程来定义：

α更新(测量拥塞度)
降速
提速

7.1 α更新

时间被切分为可配置的时间间隙。每个时间间隙指示是否有CNP在该时间间隙内到达。α参数是一个不断变化的平均值，它是CNP到达的时间间隙的比例(如果同一个时间间隙内不止一个CNP到达，与只有一个CNP到达效果一样)。每个时间间隙结束时，α通过后面的式子更新：new_α = g * old_α + (1 - g) * CNP_arrived，这里g是一个介于0和1的常量参数，CNP_arrived是一个比特位的域，用来指示在上个时间间隙内是否有CNP到达。

7.2 降速

时间被切分为可配置的时间间隙(不同于α更新的间隙)。如果CNP在上个时间间隙到达(在同一个时间间隙内不止一个CNP到达时，后面的CNP不会产生指示)，QP的速率通过后面的式子来减少：new_rate = old_rate * (1 - α / 2)，同时将用于提速的几个参数重置。

7.3 提速

提速逻辑和QCN定义的非常相似。该逻辑划分为三个顺序的阶段：快速恢复，积极增加(保持探测)，超积极增加(保持探测)。

从一个阶段移向下一个阶段是通过在该阶段中统计到的提速事件数量参数定义的。在一个阶段中提速事件的数量超过预定义的门限值后，逻辑移向下一个阶段。降速事件会重置所有和提速相关的计数器，并且返回到快速恢复阶段。除此之外，一旦提速后，在降速之前，当前的速度会被保存在一个叫target_rate的参数中。

自从上次提速后，在经过预定义的时间间隙或者预定义的发送字节数过程后，如果没有出现降速事件，就会出现提速事件。

处于快速恢复阶段时，面对每个提速事件，速度按照到target_rate的距离的一半来增加(也就是对数接近，current_rate = (current_rate + target_rate) / 2)。这允许在快速恢复阶段的开始能快速恢复到拥塞出现的速度，然后在速度接近拥塞发生的速度时，更谨慎的增加速度。

在后面两个阶段中，一旦出现提速事件，速度都是按照一个常量值来增加。这可以在带宽释放的时候获得吞吐量。

8.总结

这次记录了RoCEv2网络中对于拥塞控制的检测，预防和应对方法。ECN检测和标记是现代数据中心商用交换机普遍具有的功能，它保存在IP头部的查分服务代码点中的两个比特位中。启用ECN功能后，在网络上出现拥塞后，交换机会对ECN域打上CE值，由接收方产生CNP来通知发送方网络拥塞事件。发送方收到CNP指示的事件通知后，根据DC-QCN算法中对当前速度处于快速恢复，积极增加和超积极增加三个阶段中对应的动作来对注入速率进行控制，从而解决网络中的拥塞情况。