将TVM集成到PyTorch上

将TVM集成到PyTorch上
随着TVM不断展示出对深度学习执行效率的改进,很明显PyTorch将从直接利用编译器堆栈中受益。PyTorch的主要宗旨是提供无缝且强大的集成,而这不会妨碍用户。为此,PyTorch现在具有基于TVM的官方后端torch_tvm

用法很简单:

import torch_tvm

torch_tvm.enable()

PyTorch将尝试在其JIT编译过程中,将所有可能的运算符转换为已知的Relay运算符。

背景

与许多其他ML框架不同,PyTorch公开了一个渴望执行的编程接口。这种编程风格避免了基于图的元编程,而专注于以Python方式直接控制n维数组(张量)。因此,该框架最初非常适合模型的试验和开发,但不适用于自动性能优化或部署。为了利用优化的编译器技术,PyTorch引入了一些较大的更改来解决此问题。

PyTorch 1.0引入了PyTorch IR,PyTorch专用的中间表示形式,用于类似于Relay的模型。可以通过模型跟踪将PyTorch程序转换为IR,该跟踪记录模型或Python的子集TorchScript的执行。新的TVM后端将PyTorch的IR降低到了Relay,并能够透明地提高PyTorch的性能,而无需用户参与。

整合与结果

为了支持Relay,PyTorch JIT添加了两个功能:自定义转换过程和自定义子图解释器。

当torch_tvm启用时,可以转换到中继PyTorch IR的子图Expr旨意被标记为继电器兼容。由于PyTorch IR并不总是包含形状信息,因此在调用之前,无法以有用的方式编译任何子图。

在用户调用期间,PyTorch JIT运行时将确定输入形状信息,并使用新的Relay C ++构建系统编译先前标记的子图。根据输入形状来缓存编译,以供后续运行。可以在README中找到更多详细信息。

torch_tvm建立了一个连续的基准测试系统,该系统正在监视ResNet18在CPU上的性能。对于各种ResNet型号,TVM的性能都是默认PyTorch JIT后端的两倍以上。在AWS c5n.4xlarge实例上使用16个线程实现的每秒迭代次数(越大越好)。

这些结果令人鼓舞,该项目将继续致力于,在更多模型上提高CPU推理速度。

未来的工作

现在,PyTorch JIT进行了大量工作来查找其IR的纯功能子集,以馈送到Relay。这避免了将别名和控制流信息映射到中继的需要,但这不是必需的。将更多的PyTorch IR映射到Relay可能会取得性能上的胜利,这是该项目的目标。PyTorch IR在开发过程中正在迅速变化,因此必须谨慎进行。

将做更多的工作来确保PyTorch和TVM代码之间的切换是有效的。这包括统一线程模型,分配器以及减少与将输入复制到TVM相关的开销。

解析

如果已经编写了PyTorch模型,最简单的入门方法就是使用torch.jit.trace以下方法

import torch_tvm

from your_model import model, inputs

 

torch_tvm.enable(opt_level=3)

 

iters = 100

warmup = 10

 

# Ensure your model is in eval mode and also turn off gradients.

with torch.no_grad():

  # Use tuned parameters for better performance.

  with autotvm.apply_history_best("test/autotvm_tuning.log"):

    # This is where all the compilation happens.

    trace_tvm = torch.jit.trace(model, inputs)

   

    # Warmup

    for _ in range(warmup):

      _ = trace_tvm(*inputs)

 

    # Benchmark

    start = time.time()

    for _ in range(iters):

      _ = trace_tvm(*inputs)

    tvm_time = time.time() - start

   

    print("Took {}s to run {} iters".format(tvm_time, iters))

这段代码大部分来自Benchmarks.py。请注意,用于AVX2 LLVM编译的调整参数位于存储库test/文件夹中。

如果更直接使用Relay,可以通过(隐式)跟踪或TorchScript,直接从PyTorch函数中提取表达式:

def add(a, b, c):

    return a + b + c

 

# via tracing

relay_graph = torch_tvm.to_relay(add, inputs)

 

@torch.jit.script

def mul(a, b, c):

    return a * b * c

 

# via script

relay_graph = torch_tvm.to_relay(mul, inputs)

人工智能芯片与自动驾驶
原文地址:https://www.cnblogs.com/wujianming-110117/p/14478035.html