GPU编程和流式多处理器（五）

4. 条件代码

硬件实现了“条件代码”或CC寄存器，其中包含用于整数比较的常用4位状态向量（符号，进位，零，溢出）。可以使用比较指令（例如ISET）来设置这些CC寄存器，并且它们可以通过谓词或发散来指导执行流程。预测允许（或禁止）在warp内基于每个线程执行指令，而分歧则是较长指令序列的条件执行。因为SM内的处理器以warp粒度（一次32个线程）以SIMD方式执行指令，所以如果warp内的所有线程都采用相同的代码路径，则差异会导致执行的指令更少。

4.1. 谓词

由于管理发散和收敛的额外开销，编译器对短指令序列使用了谓词。多数指令的效果可以根据条件确定。如果条件不为TRUE，则禁止该指令。这种抑制发生得足够早，以至于预先确定的指令执行（例如加载/存储）和TEX会抑制该指令原本会生成的内存流量。请注意，谓词对内存流量是否适合全局加载/存储合并没有影响。在warp中为所有加载/存储指令指定的地址，必须引用连续的存储位置，即使它们是有条件的。

当根据条件而变化的指令数量较少时，可以使用谓词。编译器使用的启发式方法，支持最多7条指令的谓词。除了避免如下所述的管理分支同步堆栈的开销外，谓词在发出微代码时还为编译器提供了更多的优化机会（例如指令调度）。C (? :)中的三元运算符，被视为有利于谓词的编译器提示。

清单2提供了一个很好的谓词示例，以微码表示。在共享内存位置执行原子操作时，编译器将发出在共享内存位置循环的代码，直到成功执行原子操作为止。所述LDSLK（负载共享和锁定）指令返回一个条件码，判断锁是否被获取。然后根据该条件代码确定执行操作的指令。

/ * 0058 * / LDSLK P0，R2，[R3];

/ * 0060 * / @ P0 IADD R2，R2，R0;

/ * 0068 * / @ P0 STSUL [R3]，R2;

/ * 0070 * / @！P0 BRA 0x58;

该代码片段还强调了，谓词和分支如何协同工作。确定了最后一条指令，即在必要时尝试重新获取锁的条件分支。

4.2. 发散与收敛

谓词适用于条件代码的小片段，尤其是在没有相应else的语句中。对于大量的条件代码，由于每条指令都会执行，不管是否会影响计算，谓词的效率都会降低。当大量指令导致预测成本超过收益时，编译器将使用条件分支。当warp中的执行流程，根据条件采用不同的路径时，该代码称为divergent。

NVIDIA对其硬件如何支持不同的代码路径的细节一无所知，并且保留在两代之间更改硬件实现的权利。硬件在每个warp中维护活动线程的位向量。对于标记为非活动的线程，以类似于谓词的方式抑制执行。在执行分支之前，编译器执行一条特殊指令，将该活动线程位向量压入堆栈。然后，该代码执行两次，一次是针对条件为TRUE的线程，另外是谓词为FALSE的线程。如Lindholm等人所述，此两阶段执行由分支同步堆栈管理。¹⁵

如果warp的线程通过依赖于数据的条件分支发散，则warp会串行执行所采用的每个分支路径，从而禁用不在该路径上的线程，并且当所有路径完成时，这些线程将重新收敛到原始执行路径。SM使用分支同步堆栈，来管理发散和收敛的独立线程。分支发散仅在warp内发生；不管执行的是通用，还是不相交的代码路径，不同的warp都将独立执行。

PTX规范没有提及分支同步堆栈，公开存在的唯一证据是cuobjdump的反汇编输出。SSY指令推的状态下，如程序计数器和活动线程掩模压入堆栈; 该.S指令前缀突然发出这样的状态，如果任何活动线程没有采取分支，使这些线程执行的代码路径，其状态是由快照SSY。

仅当执行线程可能分歧时，才需要SSY / .S。如果编译器可以保证线程在代码路径中保持一致，会出现SSY / .S不在括号内的分支。关于在CUDA中进行分支，在所有情况下，warp中的所有线程遵循相同的执行路径是最有效的。

清单2中的循环，包括一个很好的独立实例，说明了差异和收敛。所述SSY指令（偏移0x40的）和NOP.S指令（偏移0x78）分别括号发散和会聚的点。代码遍历LDSLK和随后的谓词指令，退出活动线程，直到编译器发现所有线程都将收敛，并且可以使用NOP.S指令，退出分支同步堆栈。

/ * 0040 * / SSY 0x80;

/ * 0048 * / BAR.RED.POPC RZ，RZ;

/ * 0050 * / LD R0，[R0]；

/ * 0058 * / LDSLK P0，R2，[R3];

/ * 0060 * / @ P0 IADD R2，R2，R0;

/ * 0068 * / @ P0 STSUL [R3]，R2;

/ * 0070 * / @！P0 BRA 0x58;

/ * 0078 * / NOP.S CC.T;

4.3. 特殊情况：最小值，最大值和绝对值

一些条件操作是如此普遍，以至于硬件会对其本身提供支持。整数和浮点算子均支持最小和最大运算，并将它们转换为单个指令。此外，浮点指令包括，否定或取源算子的绝对值的修饰符。

编译器可以很好地检测何时，表达了最小/最大运算，但是如果不希望碰碰运气，请为整数调用min（）/ max（）内部函数，或者为float调用fmin（）/ fmax（）价值观。