FPGA在下一代网络架构中的重要意义

石侃 · 半导体行业观察·2017-10-29 12:38

不久前，英特尔联手HPE（中文名：慧与）以及中国电信北京研究院一起发布了技术白皮书：《为下一代电信基础设施寻找有效的虚拟网络体系架构》，英文全名为：Finding an efficient virtual network function architecture for next-generation telecommunications infrastructure（见下图），在系统层面详细阐述了三家公司在推进网络功能虚拟化（NFV）领域所作的最新的工作和取得的成果。此外，今年在上海举办的世界移动大会（Mobile World Congress)上，这个项目的原型验证也在HPE的展台进行了公开演示。同时，项目的下一阶段也将顺利开展。

作为这个项目的主要参与者之一，看到这些阶段性的成果不断涌现时，本人自然感到成就感十足，同时也在参与项目的过程中学到了很多知识，结交了很多来自英特尔其他业务部门、以及HPE和中国电信的同事、同行和朋友们。今天的这篇文章，本人将对这部白皮书进行技术层面的解读，将着重讨论FPGA在诸如NFV等虚拟网络架构中的作用和意义。

附上一张五月份去中国电信北京研究院的照片。

网络功能虚拟化（NFV）的意义

NFV和虚拟化技术是近几年很火爆的话题，深入探讨NFV的意义大概需要几十篇博客，市面上近几年也慢慢出现了不少书籍单独介绍NFV的相关内容。或许之后我会单独写几篇文章讨论广义上什么是NFV、NFV出现的背景和存在的意义。但本文以及白皮书中针对的是NFV在电信网络中的应用。

电信网络是NFV的一个主要应用场景，它出现的最直接的动因之一就是为了支持指数级的带宽增长。据预测，五年后全球的IP流量将较今日增长超过3倍。在万物互联的今天，尤其是5G、物联网、自动驾驶等技术已经成为各大公司争夺的焦点之时，各种设备和服务都需要电信网络及其数据中心进行处理和支持。然而，传统的电信基础架构和数据中心很难进行有效的扩展，其主要原因有以下两点：

硬件层面： 传统电信网络基础架构使用的是各类专用硬件设备，如各类接入设备、各层交换机、路由器、防火墙、QoS等。这样做的问题有很多，例如，不同设备之间的兼容性差、维护升级困难、容易造成供应商垄断从而大幅提高成本、若需要加入新功能则要开发新硬件设备等等。
软件层面： 不同设备都需要各自对应的软件进行配置和控制，从而难以在管理员层面进行大范围统一部署和配置，且需要学习来自不同供应商和规格的设备的软件配置方法。若某些网络功能通过软件实现，传统的实现方法中对服务器的有效利用率很低，且无法进行服务的动态迁移，等等。

因此，虚拟化技术 - 更具体而言，网络功能虚拟化NFV技术，逐渐成为各大运营商解决上述问题的有效途径。欧洲电信标准协会（ETSI）关于NFV比较有名的示意图如下所示。

总体而言，和传统方法相比，NFV利用通用的服务器（大多是基于英特尔x86处理器）、通用的存储设备、以及通用的高速以太网交换机，实现传统电信网络基础架构的各种网络功能。具体而言，就是将网络功能在通用服务器中用软件实现，数据使用通用的存储设备存储，网络流量通过通用的网卡和高速交换机进行转发。这样理论上能很好的解决上述硬件层面的问题：使用通用设备而非专用设备，提高了数据中心的可扩展能力，不会被某个供应商制约，反而会通过开放竞争减少硬件采购和部署的成本。

另外，借助虚拟化技术，将网络功能在不同虚拟机中实现，这样理论上能解决软件层面的问题：即某个特定应用不会占用服务器的全部资源，反之，一个服务器可以同时运行多个虚拟机或网络服务。同时，虚拟机在数据中心的扩展和迁移也更加方便，不会造成服务下线或中断。

NFV和另外一项技术：软件定义网络（Software Defined Network - SDN）经常一起出现。它们的一个主要的 核心思想就是将网络的控制面和转发面进行分离。 这样，所有的数据转发面设备都可以同时被控制、配置、管理，从而避免了管理员需要分别配置每个网络设备的低效情形。

引用一下《中国电信CTNet2025网络架构白皮书》的话：

“从更好的适应互联网应用的角度出发，未来网络架构必须要求网络能力接口的开放和标准化，通过软件定义网络技术,能够实现面向业务提供网络资源和能力的调度和定制化，同时为进一步加速网络能力的平台化，还需要提供网络可编程的能力，真正实现网络业务的深度开放。”

请注意，在之前的表述中我使用了很多“理论上”怎样怎样，这是由于上面关于NFV的优点很多都是人们美好的想象和愿景。在实际的工程实践中，设计实现有效的NFV架构面临着很多问题。例如，不同的应用场景中，网络负载的种类五花八门，而很多应用都需要进行线速的处理，如QoS和流量整形（之前的博文介绍过）、VPN、防火墙、网络地址转换、加密解密、实时监控、深度包检测（DPI）等等。即使有DPDK等专用的软件开发库，目前单纯使用软件实现这些网络服务的线速处理，在技术上存在很大困难，且用软件实现的网络功能在性能上很难和专有硬件相比。这样一来，人们会反过来质疑使用NFV的出发点和动机。同时，鉴于NFV仍处于方案探讨和摸索阶段，很多相关的协议和标准还没有确定，这也在一定程度上使很多企业犹豫是否要投入大量资源去进行前期的探究工作。

因此，如何有效的实现这些虚拟化的网络功能（Virtualized Network Function - VNF）,是我们前阶段的主要工作和这篇白皮书主要探讨的问题。

虚拟网络功能（VNF）的有效实现

在这里，实现虚拟网络功能的“有效性”主要体现在以下几个方面：

1.VNF必须非常灵活、便于使用；

2.容易大规模扩展，不局限于某种应用场景或网络；

3.性能方面应该不低于，甚至高于专用硬件。

介于此，白皮书中给出了几个有潜力的发展方向以供参考：

1.控制面和转发面的分离和独立扩展。

2.设计并优化、标准化拥有可编程能力的转发面。

在电信网络的应用场景中，NFV的一个典型应用就是虚拟化的宽带远程接入服务vBRAS，即virtual broadband remote access server，又被称为vBNG，即virtual broadband network gateway。在vBRAS中可能包含很多虚拟网络功能，例如远程用户拨入验证服务（Remote Authentication Dial-In User Service, RADIUS）、动态主机设置协议（Dynamic Host Configuration Protocol，DHCP），以及之前提过的DPI、防火墙、QoS等。

一个重要的发现是，这些网络应用从计算资源的需求上可以分成两类。一类不需要大量的计算资源，如RADIUS和DHCP。同时这类应用很多属于控制平面。因此这类应用很适合直接放在控制平面，并且有很好的纵向和横向的扩展性，也很适合用通用的计算和存储设备进行实现。

另一类应用往往需要很大的计算能力，如流量管理、路由转发、数据包处理等，且通常需要在线速下（如40Gbps、100Gbps或更高）进行处理。这类应用往往属于数据平面。对于数据平面而言，它还需要支持很多种计算量很大的网络功能，这样才能区别于使用专有硬件，符合NFV技术的初衷。综上而言，数据平面应该具备以下两点主要能力“

1.能线速进行高吞吐量的复杂数据包处理；

2.同时支持多种网络功能，具有很强的可编程能力。

然而，如果直接使用软件方法实现，这两点功能很难同时满足。因此我们采用了FPGA作为智能硬件加速平台，很好的同时解决了处理速度和可编程性两个问题。首先，FPGA相比纯软件方法，在数据包处理上拥有着绝对优势的硬件并行性能，因此被用作硬件加速器使用。其次，相比于传统的专有硬件设备，FPGA拥有灵活的可编程能力，可以支持各种应用的实现。

虚拟宽带远程接入服务：从BRAS到vBRAS的演进

图1：vBRAS的演化

上图为我们展示了传统BRAS逐步演进到vBRAS的三个主要过程：

1.第一阶段，传统的BRAS使用专用设备，且控制面和转发面紧耦合。图中可以看到控制路径和数据路径是相互重合的。

2.第二阶段，采用了虚拟化技术，且采用了服务器取代了专用BRAS设备，使用软件和虚拟机实现多个vBRAS。但同时也可以看到，此时控制面和转发面还是相互耦合实现。由于两者性能差别很大，这种实现方式很容易造成数据通路的性能瓶颈，或因数据通路流量过大而占用了控制面的带宽。反之，控制面的流量会影响数据面的线速包处理的能力。

3.第三阶段，采用虚拟化技术，且控制面和转发面相互分离。从图中可以看到，控制面和转发面由两个服务器分开实现，控制流量和转发流量相互不影响。此外，控制流量能在数据/转发服务器和控制服务器之间双向流动，实现控制面对转发面的控制。

这第三个阶段就是目前英特尔、HPE和中国电信北研院联合研发的最新成果。接下来就详细讲解其技术细节。

高性能vBRAS的设计方法

设计实现上述第三阶段中高性能的vBRAS方案，需要分别实现vBRAS-c (control) 和vBRAS-d (data)，即vBRAS控制设备和vBRAS数据设备。这两类设备都应该使用标准化的通用服务器实现。此外，对于vBRAS数据设备而言，需要针对计算量庞大的应用进行专门的优化和加速，使其能进行高吞吐量、低延时的数据包处理。

下图展示了本应用实例中，vBRAS-c和vBRAS-d的设计方法。

图2：vBRAS的转控分离架构

对于vBRAS-c节点，其重要的设计思想就是轻量化和虚拟化，使其方便在数据中心或云端进行扩展和移植，同时可以分布式实现，以控制多个数据平面节点。因此在本例中，vBRAS-c由一个独立的HPE DL380服务器实现。DL380服务器中包含两个CPU插槽（socket），每个插槽中均有一块14核的Xeon处理器。服务器的总内存为128GB。网络接口方面，vBRAS-c可以使用标准的网卡进行网络通信，比如一块或多块英特尔X710 10GbE网卡即可满足控制平面的流量要求。具体的vBRAS控制应用则在虚拟机中实现，多个虚拟机由SDN控制器统一控制。

对于vBRAS-d节点，总体也通过独立的DL380实现。针对上文提到的优化加速的部分，本实例中使用了基于Arria10 FPGA的智能网卡加速网络功能，如线速处理QoS和多级流量整形。在一个DL380中，可以插入多块FPGA智能网卡，实现并行数据处理，成倍提高数据吞吐量。同时，vBRAS-d节点通过OpenFlow与SDN控制器交互，且一台vBRAS-c设备可以控制多个vBRAS-d设备。

基于Arria10 FPGA的智能网卡解析

使用FPGA智能网卡进行网络加速的好处有以下几点：

1.解放了宝贵的CPU内核，将原本在CPU中实现的数据处理卸载到FPGA上进行加速实现。这样CPU可以用来做其他的工作，在虚拟化的基础上进一步实现了资源的有效利用。

2.FPGA拥有低功耗、灵活可编程的特点。在白皮书中提到，在选用的Arria10 GT1150 器件上实现了硬件QoS和多级流量整形后，只占用了FPGA的40%的逻辑资源。换言之，还有60%的资源可以被用来进行其他的网络功能处理和加速。同时，可以随时对FPGA进行编程，因此多种网络功能的加速都可以用一套硬件设备完成，不需要更换加速卡或其他硬件设备。即使是用户自己定义的功能，也可以实现，不需要专有设备完成。这样很好的平衡了高性能和高通用性两者间的矛盾。

3.FPGA能进行高速并行的数据包处理，且本身就广泛应用于网络通信领域，解决方案丰富且成熟。

下图概括介绍了本实例中在FPGA中实现的数据包转发的数据通路设计。

图3：FPGA数据包处理的数据通路

由图中可见，本设计包含多个模块，如Parser、Look-Up、Buffer Manager、Packet Processor，以及内存控制器和DMA等。数据包进入FPGA后，依次通过各个模块进行特征提取、分类、查找，如果需要就通过PCIe和DMA与CPU进行交互。同时，Buffer Manager会对不同来源的数据包进行流量控制、QoS和流量整形等操作。

此外，这款FPGA智能网卡支持多种包处理模式，即可以将数据包完全在FPGA内部处理后转发，不经过CPU；也可以将数据包通过PCIe传送到CPU，使用DPDK进行包处理，再通过FPGA转发；或者二者结合，一部分功能在CPU中实现，另外一部分卸载到FPGA上完成。可见灵活度很高。

性能测试

下图展示了进行性能测试时的硬件搭建情况。

图4：数据平面的服务器和FPGA架构

图中可见，一个DL380服务器上插了3块相互独立的FPGA智能网卡，每块网卡支持40Gbps数据吞吐量，因此一个vBRAS-d服务器支持的总吞吐量为120Gbps。每块网卡通过PCIex16接口与CPU相连，在CPU中运行DPDK L2/L3 FWD应用，将数据转发回FPGA，然后在FPGA中进行QoS和数据整形。在测试中，流量的产生和接收都通过Spirent测试仪实现。

对于QoS，每个智能网卡可以支持4000用户，故单服务器支持12000个用户。每个用户支持2个优先级，且分配给每个用户的带宽可以编程控制。例如，每个用户分配8.5Mbps带宽，则开启流量整形后单服务器总流量应为12000x8.5=102Gbps，如下图所示。

数据平面的性能测试结果

我们看到，当数据包为定长512字节时，关闭流量整形功能后，高优先级流量和低优先级流量都没有损失，各为60Gbps（对应每个用户的实际流量为5Mbps高优先级+5Mbps低优先级），因此总流量为120Gbps。开启流量整形功能后，高优先级流量没有损失，仍为60Gbps。对于低优先级，由于每个用户分配8.5Mbps带宽且高优先级已经占用了其中的5Mbps，因此只剩余3.5Mbps带宽供低优先级流量通过。可见低优先级流量遭到限流，总流量变成3.5Mx12000=42Gbps，使得总流量变成102Gbps。 这在总体上证明了单个vBRAS-d节点可以支持超过100Gbps的流量处理。

此外还进行了一些功耗测试能性能对比，我在此挑选了一张结果图如下所示。

图5：不同带宽时总能耗性能比的对比

这张图表示了实现不同带宽时，总功耗性能比的一系列比较。功耗性能比的定义为，实现1Tbps时所需要的总功耗（千瓦）。图中将不含FPGA智能网卡的vBRAS实现50Gbps时的功耗性能比作为基准值（100%）。由图中可以看到，vBRAS+FPGA智能网卡的方案总能降低超过40%的总功耗，最多可达到60%。这进一步印证了上文中阐述过的使用FPGA进行网络功能加速的好处所在。

其他性能测试和对比不再赘述，详细内容在白皮书中可以看到。总体而言，相比于传统的vBRAS服务器+标准网卡的方案，使用vBRAS+FPGA智能网卡的解决方案可以减少约50%的功耗，以及带来超过3倍的性能提升。

结语

这篇白皮书为我们展示了业界领先的企业当前在NFV和SDN领域所做的最新工作，特别是使用FPGA作为硬件加速平台，对网络功能进行卸载和加速。这样能大幅提高硬件资源的利用率，同时能带来性能的提升和能耗的下降，降低了部署和运行成本。同时结合业界其他公司的动态，各大互联网公司、云服务提供商、电信网络提供商都开始尝试在他们的数据中心中部署FPGA，其中微软的Azure云服务更是已经大规模采用了Intel FPGA进行硬件加速。因此，如何有效的设计CPU+FPGA这样的异构计算微结构、如何实现狭义和广义上的计算、控制和存储资源的有效管理和分配、上述设计如何在数据中心进行高效部署，以及如何设计商业模型以明确FPGA在整个体系中的位置和作用，将会是未来一段时间内的研究热点。

作者简介

石侃博士，于伦敦帝国理工大学电子系取得博士学位，后加入英特尔公司可编程解决方案事业部任高级FPGA研发工程师至今。石侃在半导体行业有多年的学术研究和工业界开发经验，尤其深耕于FPGA、高性能与可重构计算、计算机网络和虚拟化等领域。他曾在多个学术界顶级会议和期刊如DAC、FCCM、TVLSI等发表过论文。在工业界，他主要从事使用FPGA进行数据中心网络加速器、网络功能虚拟化、高速有线网络通信等相关技术的研发和创新工作。