[学习记录] HLSL-编译指示及属性
HLSL 中有其他一些常用的编译指示 (Compiler Directives) 或属性 (Attributes),它们可以用来指导编译器如何优化和处理着色器代码。这些属性通常用于控制流(循环和分支)和资源的分配。
一. 循环控制属性
这组属性用于控制编译器如何处理for,while,di-while循环:
(1)[loop]
作用:强制编译器尝试将循环编译成动态循环 (Dynamic Loop),即生成实际的循环跳转指令。
何时使用:为了节省指令缓存和编译时间。当循环次数可能很大,展开循环会导致着色器代码过长。当循环次数在运行时才能确定(例如,由一个变量控制)。注意[unroll]和[loop]是互斥的。
(2)[unroll]
作用:强制编译器展开循环 (Unroll Loop),即把循环体复制多份,直接写入着色器指令中。[unroll(N)]可以指定最大展开次数N。如果循环迭代次数超过N,循环可能会被部分展开或回退到动态循环(取决于编译器和硬件)。
何时使用:当循环次数固定且较小(例如,对一个固定数量的光源进行迭代)。当循环体内部有特殊指令(如 tex2D
等梯度指令),这些指令在动态分支中可能有限制或性能问题。为了避免循环跳转开销,理论上可能提供更快的执行速度(但会增加代码体积)。
注意:[unroll]和[loop]是互斥的。不指定任何属性时,编译器会根据启发式规则自行决定是展开还是动态循环。
(3)[fastopt]
作用:这是一个通用优化提示,通常指示编译器进行更快的编译,但可能不那么积极地进行优化(例如,避免尝试展开循环)。
何时使用:在开发阶段,当你需要快速迭代编译时。通常不用于最终发布的着色器,因为可能会牺牲一些运行时性能。
二. 分支控制属性
这组属性用于控制编译器如何处理if/else语句:
(1)[branch]
作用:强制编译器将 if
/else
语句编译成动态分支 (Dynamic Branching)。这意味着 GPU 只会执行满足条件的那个代码块,跳过不满足条件的代码块。
何时使用:当 if
语句中的条件在不同的像素或顶点之间差异很大时(例如,处理地形的不同材质区域)。当分支的代码块很长或很复杂,执行所有分支会浪费大量计算资源时。当分支包含有副作用的操作(如 stream.Append()
在几何着色器中,或向 UAV 写入数据)。
注意:动态分支在某些硬件上(尤其是较老的硬件或移动 GPU)可能性能较差,因为 GPU 的 SIMD(单指令多数据)架构可能要求一个“warp”或“wavefront”中的所有线程都执行相同的指令。当线程发散(进入不同的分支)时,其他线程必须等待或空闲,这会导致效率下降。
(2)[flatten]
作用:强制编译器将if/else语句编译成平面分支 (Flatten Branching)。这意味着 GPU 会执行if 和else两个代码块中的所有指令,然后使用一个条件选择指令来决定最终使用哪个代码块的结果。
何时使用:当if语句的条件在不同的像素或顶点之间差异不大时(例如,只影响少数像素的边界条件)。当分支的代码块非常短小,执行两个代码块的总开销可能低于动态分支的跳转和发散开销时。当分支内部包含梯度指令(如 tex2D
、ddx
、ddy
),这些指令在动态分支中可能无法正确工作或性能下降。[flatten]确保所有路径都被执行,从而正确计算梯度。
注意:[flatten]可能会导致额外的计算量,如果两个分支都很复杂,会浪费性能。
三. 资源注册属性(了解)
虽然不直接控制程序流,但这些属性也有一定作用:
(1):register(tX)(Texture Register):
作用:将一个纹理(Texture2D/3D) 绑定到特定的纹理槽X。
示例:Texture2D _MyTex:register(t0);
(2):register(sX)(Sampler Register):
作用:将一个采样器状态(SamplerState)绑定到特定的采样器槽X。
示例:SamplerState sampler_MyTex:register(s0);
(3):register(bX)(Constant Buffer Register):
作用:将一个常量缓冲区 (CBUFFER
) 绑定到特定的缓冲区槽 X
。示例:CBUFFER_START(UnityPerMaterial, b0)
(Unity 通常会自动处理这些)