window显示驱动开发—流输出阶段
流输出 (SO) 阶段可以在这些顶点到达光栅器之前将顶点流式传输到内存。 流输出的运行方式类似于管道中的点击。 即使数据继续向下流向光栅器,也可以打开此点击。 通过流输出发送的数据连接到缓冲区。 这些缓冲区可以在后续传递上作为管道输入进行循环。
流输出的一个约束是,它与几何着色器相关联,因为它们必须一起创建, (两者可以是“NULL”/“off”) 。 不过,流出到的特定内存缓冲区不会绑定到特定的几何着色器和流输出对。 仅描述要馈送给流输出的顶点数据部分与几何着色器相关联。
流输出可用于保存将重复使用的有序管道数据。 例如,一批顶点可以通过将顶点传入管道来“皮肤化”,就好像它们是独立的点 (只是) 访问所有这些点,对每个顶点应用“皮肤化”操作,并将结果流式传输到内存。 保存的“皮肤化”顶点随后可用作输入。
由于通过流输出写入的输出量是动态的,因此需要一种新型的 Draw ,DrawAuto 才能允许流输出缓冲区与输入汇编程序一起重复使用,而无需 CPU 参与来确定实际写入的数据量。 此外,需要查询来缓解流输出溢出,以及检索写入流输出缓冲区的数据量 (D3D10DDI_QUERY_STREAMOVERFLOWPREDICATE和 D3D10DDI_QUERY_STREAMOUTPUTSTATS D3D10DDI_QUERY 枚举) 。
Direct3D 运行时调用以下驱动程序函数来创建和设置流输出:
- CalcPrivateGeometryShaderWithStreamOutput
- CreateGeometryShaderWithStreamOutput
- SoSetTargets
1. 核心功能与设计理念
流输出 (SO) 是 Direct3D 10 引入的数据回写机制,允许在几何着色器 (GS) 处理后,将顶点数据直接写入GPU缓冲区,而非仅传递到光栅化阶段。其核心特性包括:
- 数据持久化:将处理后的顶点保存到缓冲区,供后续渲染循环使用。
- GPU闭环:实现完全在GPU内部的数据复用(如粒子系统更新)。
- 动态数据量:支持可变长度输出(需配合 DrawAuto 和查询机制)。
类比:SO 如同在渲染管线中插入一个“T型阀门”,既可流向光栅器,也可分流到内存。
2. 流输出与几何着色器的关系
- 强耦合性:SO 必须与 GS 同时创建(两者可同时为NULL关闭)。
- 分离绑定:
- GS+SO创建时:定义哪些顶点属性输出到缓冲区(如仅位置+速度)。
- 运行时绑定:实际缓冲区(D3D10DDI_HRESOURCE)通过 SoSetTargets 动态指定。
示例:创建带SO的GS:
D3D10DDIARG_STAGE_IO_SIGNATURES soSignatures;
soSignatures.NumEntries = 2;
soSignatures.pOutputSignature = { "POSITION", "VELOCITY" }; // 输出到缓冲区的属性pDeviceFuncs->CreateGeometryShaderWithStreamOutput(hDevice, pGSBytecode, &soSignatures, hGS, hRTGS
);
3. 关键驱动函数与实现
(1) 函数列表
函数 | 职责 |
---|---|
CalcPrivateGeometryShaderWithStreamOutput | 计算GS+SO私有数据所需内存。 |
CreateGeometryShaderWithStreamOutput | 创建带SO的GS对象,指定输出属性和格式。 |
SoSetTargets | 绑定SO目标缓冲区(支持多缓冲区,需匹配创建时的声明)。 |
(2) SoSetTargets 实现示例
void APIENTRY SoSetTargets(D3D10DDI_HDEVICE hDevice,UINT NumBuffers,const D3D10DDI_HRESOURCE* phBuffers, // SO缓冲区资源句柄const UINT* pOffsets // 各缓冲区的写入起始偏移
) {MyDeviceContext* pCtx = (MyDeviceContext*)hDevice.pDrvPrivate;for (UINT i = 0; i < NumBuffers; ++i) {pCtx->soBuffers[i] = phBuffers[i];pCtx->soOffsets[i] = pOffsets ? pOffsets[i] : 0;// 标记SO缓冲区为脏(需GPU同步)pCtx->dirtyFlags |= SO_TARGETS_DIRTY;}
}
4. 数据流控制与高级特性
(1) 流输出工作流程
- GS处理顶点:输出到SO缓冲区的属性由创建时的签名定义。
数据写入缓冲区:
- 每个顶点按声明顺序写入绑定的缓冲区。
- 支持多缓冲区交错写入(如位置和速度分开存储)。
后续渲染循环:
- 绑定SO缓冲区作为输入装配器 (IA) 的输入(需兼容格式)。
- 使用 DrawAuto 自动确定绘制数量。
(2) DrawAuto 机制
- 用途:在不知道SO输出数据量的情况下,自动绘制所有有效顶点。
- 驱动实现:
需内部记录SO写入的顶点数,并在 DrawAuto 时回传给IA。
void APIENTRY DrawAuto(D3D10DDI_HDEVICE hDevice) {MyDeviceContext* pCtx = (MyDeviceContext*)hDevice.pDrvPrivate;UINT vertexCount = pCtx->soStats.NumPrimitivesWritten * 3; // 假设三角形列表pDeviceFuncs->Draw(hDevice, vertexCount, 0);
}
(3) 溢出查询与统计
通过查询对象监测SO状态:
查询类型 | 用途 |
---|---|
D3D10DDI_QUERY_STREAMOVERFLOWPREDICATE | 检测SO缓冲区是否溢出(返回TRUE /FALSE )。 |
D3D10DDI_QUERY_STREAMOUTPUTSTATS | 获取写入的图元/顶点数(用于调试或逻辑控制)。 |
示例:检查溢出:
BOOL overflow = FALSE;
pDeviceFuncs->QueryGetData(hQuery, &overflow, sizeof(BOOL));
if (overflow) {// 处理缓冲区扩容或数据截断
}
5. 典型应用场景
(1) GPU粒子系统
- 初始化:创建带SO的GS,输出位置+速度。
更新循环:
- 绑定SO缓冲区,用GS计算粒子运动。
- 通过 DrawAuto 绘制更新后的粒子。
- 渲染循环将SO缓冲区作为IA输入,渲染粒子。
(2) 几何变形缓存
- 预处理:使用GS+SO将复杂变形(如曲面细分)结果存入缓冲区。
- 复用数据:后续帧直接读取缓存,跳过重复计算。
6. 性能优化与注意事项
(1) 优化建议
- 缓冲区复用:使用双缓冲或环形缓冲避免GPU停滞。
- 对齐写入:确保SO输出格式符合硬件要求(如4字节对齐)。
- 查询最小化:仅在必要时检查 STREAMOVERFLOWPREDICATE。
(2) 限制与兼容性
限制 | 解决方案 |
---|---|
SO缓冲区必须绑定为无序访问视图 (UAV) | 创建资源时指定 D3D10_DDI_BIND_STREAM_OUTPUT 。 |
输出数据量不可预测 | 预分配足够大的缓冲区,或动态调整。 |
仅支持顶点数据(非结构化) | 需通过GS组织输出结构。 |
7. 驱动调试与验证
- 验证SO签名匹配:确保 CreateGeometryShaderWithStreamOutput 声明的输出格式与 SoSetTargets 绑定的缓冲区兼容。
- 检查溢出查询:在复杂场景中强制触发溢出,验证驱动正确处理。
- 性能分析:使用GPU Profiler(如PIX)监测SO带宽占用。
总结
流输出 (SO) 是 Direct3D 10 实现 GPU数据闭环 的关键技术,其核心价值包括:
- 数据持久化:避免CPU-GPU通信开销。
- 动态处理:支持可变长度输出与自动绘制(DrawAuto)。
- 高效复用:适用于粒子系统、几何变形等场景。
开发者需关注:
- GS与SO的协同设计:明确定义输出属性。
- 缓冲区管理:防止溢出并优化内存访问。
- 查询机制:确保动态数据量可控。