编写HSA内核

编写HSA内核

介绍

HSA提供类似于OpenCL的执行模型。指令由一组硬件线程并行执行。在某种程度上,这类似于 单指令多数据(SIMD)模型,但具有这样的便利:细粒度调度对于程序员而言是隐藏的,而不是使用SIMD向量作为数据结构进行编程。在HSA中,编写的代码将同时由多个线程(通常成百上千个)执行。解决方案将通过定义网格工作组 和工作项的线程层次结构进行建模。

Numba的HSA支持提供了用于声明和管理此线程层次结构的工具。

CUDA程序简介

HSA执行模型类似于CUDA。HSA在ROC GPU上采用的内存模型也与CUDA相似。ROC的GPU具有专用于GPU存储器,因此,to_device()与copy_to_host()等需要按照CUDA。

这是CUDA术语到HSA的快速映射:

  • Aworkitem等效于CUDA线程。
  • Aworkgroup等效于CUDA线程块。
  • Agrid等效于CUDA网格。
  • Awavefront等效于CUDA warp。

内核声明

一个核心功能是指从CPU代码称为GPU功能。它具有两个基本特征:

  • 内核无法显式返回值;所有结果数据都必须写入传递给函数的数组中(如果计算标量,则可能传递一个单元素数组);
  • 内核在被调用时显式声明其线程层次结构:即工作组的数量和每个工作组的工作项的数量(注意,虽然内核仅编译一次,但可以使用不同的工作组大小或网格大小多次调用)。

用Numba编写HSA内核非常类似于为CPU编写JIT函数

@roc.jit

def increment_by_one(an_array):

    """

    Increment all array elements by one.

    """

    # code elided here; read further for different implementations

内核调用

通常以以下方式启动内核:

itempergroup = 32

groupperrange = (an_array.size + (itempergroup - 1)) // itempergroup

increment_by_one[groupperrange, itempergroup](an_array)

注意到两个步骤:

  • 通过指定多个工作组(或“每个网格的工作组”)和每个工作组的多个工作项来实例化内核。两者的乘积将给出启动的工作项总数。内核实例化是通过采用已编译的内核函数(在此处increment_by_one)并用整数元组对其进行索引来完成的。
  • 通过将输入数组(如果需要,以及任何单独的输出数组)传递给内核来运行内核。默认情况下,运行内核是同步的:当内核完成执行并且数据被同步时,该函数返回。

选择工作组大小

在声明内核所需的工作项数量时,具有两级层次结构似乎很奇怪。工作组的大小(即每个工作组的工作项数)通常很关键:

  • 在软件方面,工作组的大小确定了多少线程共享内存的给定区域。
  • 在硬件方面,工作组的大小必须足够大

独占执行单位。

多维工作组和网格

为了帮助处理多维数组,HSA指定多维工作组和网格。在上面的示例中,可以使itempergroupandgroupperrange元组为一个,两个或三个整数。与等效大小的一维声明相比,这不会改变所生成代码的效率或行为,但可以帮助以更自然的方式编写算法。

工作项定位

运行内核时,内核函数的代码由每个线程执行一次。因此,它必须知道它在哪个线程中,以便知道它负责哪个数组元素(复杂算法可以定义更复杂的任务,但是基本原理是相同的)。

一种方法是让线程确定其在网格和工作组中的位置,然后手动计算相应的数组位置:

@roc.jit

def increment_by_one(an_array):

    # workitem id in a 1D workgroup

    tx = roc.get_local_id(0)

    # workgroup id in a 1D grid

    ty = roc.get_group_id(0)

    # workgroup size, i.e. number of workitem per workgroup

    bw = roc.get_local_size(0)

    # Compute flattened index inside the array

    pos = tx + ty * bw

    # The above is equivalent to pos = roc.get_global_id(0)

    if pos < an_array.size:  # Check array boundaries

        an_array[pos] += 1

注意

除非确定工作组大小和网格大小是阵列大小的除数,否则必须如上所述检查边界。

get_local_id()get_local_size()get_group_id()和 get_global_id()是由HSA后端为知道thread层次结构的几何形状和该几何形状内的当前工作项的位置的唯一目的提供特殊功能。

numba.roc.get_local_id(dim)

取得要查询的维度的索引

返回给定维度的当前工作组中的本地工作项ID。对于一维工作组,索引是一个整数,范围从0(含)到numba.roc.get_local_size()异(exclusive)。

numba.roc.get_local_sizedim

取得要查询的维度的索引

返回给定维度上工作组的大小。实例化内核时声明该值。对于给定内核中的所有工作项,该值相同,即使属于不同的工作组(即,每个工作组“已满”)也是如此。

numba.roc.get_group_iddim

取得要查询的维度的索引

在启动了内核的工作组网格中返回工作组ID。

numba.roc.get_global_iddim

取得要查询的维度的索引

返回给定维度的全局工作项ID。与numba.roc .get_local_id()不同,此数字对于网格中的所有工作项都是唯一的。

人工智能芯片与自动驾驶
原文地址:https://www.cnblogs.com/wujianming-110117/p/14193662.html