当前位置: 首页 > news >正文

window显示驱动开发—流输出阶段

流输出 (SO) 阶段可以在这些顶点到达光栅器之前将顶点流式传输到内存。 流输出的运行方式类似于管道中的点击。 即使数据继续向下流向光栅器,也可以打开此点击。 通过流输出发送的数据连接到缓冲区。 这些缓冲区可以在后续传递上作为管道输入进行循环。

流输出的一个约束是,它与几何着色器相关联,因为它们必须一起创建, (两者可以是“NULL”/“off”) 。 不过,流出到的特定内存缓冲区不会绑定到特定的几何着色器和流输出对。 仅描述要馈送给流输出的顶点数据部分与几何着色器相关联。

流输出可用于保存将重复使用的有序管道数据。 例如,一批顶点可以通过将顶点传入管道来“皮肤化”,就好像它们是独立的点 (只是) 访问所有这些点,对每个顶点应用“皮肤化”操作,并将结果流式传输到内存。 保存的“皮肤化”顶点随后可用作输入。

由于通过流输出写入的输出量是动态的,因此需要一种新型的 Draw ,DrawAuto 才能允许流输出缓冲区与输入汇编程序一起重复使用,而无需 CPU 参与来确定实际写入的数据量。 此外,需要查询来缓解流输出溢出,以及检索写入流输出缓冲区的数据量 (D3D10DDI_QUERY_STREAMOVERFLOWPREDICATE和 D3D10DDI_QUERY_STREAMOUTPUTSTATS D3D10DDI_QUERY 枚举) 。

Direct3D 运行时调用以下驱动程序函数来创建和设置流输出:

  • CalcPrivateGeometryShaderWithStreamOutput
  • CreateGeometryShaderWithStreamOutput
  • SoSetTargets

 1. 核心功能与设计理念

流输出 (SO) 是 Direct3D 10 引入的数据回写机制,允许在几何着色器 (GS) 处理后,将顶点数据直接写入GPU缓冲区,而非仅传递到光栅化阶段。其核心特性包括:

  • 数据持久化:将处理后的顶点保存到缓冲区,供后续渲染循环使用。
  • GPU闭环:实现完全在GPU内部的数据复用(如粒子系统更新)。
  • 动态数据量:支持可变长度输出(需配合 DrawAuto 和查询机制)。

类比:SO 如同在渲染管线中插入一个“T型阀门”,既可流向光栅器,也可分流到内存。

2. 流输出与几何着色器的关系

  1. 强耦合性:SO 必须与 GS 同时创建(两者可同时为NULL关闭)。
  2. 分离绑定:
  • GS+SO创建时:定义哪些顶点属性输出到缓冲区(如仅位置+速度)。
  • 运行时绑定:实际缓冲区(D3D10DDI_HRESOURCE)通过 SoSetTargets 动态指定。

示例:创建带SO的GS:

D3D10DDIARG_STAGE_IO_SIGNATURES soSignatures;
soSignatures.NumEntries = 2;
soSignatures.pOutputSignature = { "POSITION", "VELOCITY" }; // 输出到缓冲区的属性pDeviceFuncs->CreateGeometryShaderWithStreamOutput(hDevice, pGSBytecode, &soSignatures, hGS, hRTGS
);

3. 关键驱动函数与实现

(1) 函数列表

函数职责
CalcPrivateGeometryShaderWithStreamOutput计算GS+SO私有数据所需内存。
CreateGeometryShaderWithStreamOutput创建带SO的GS对象,指定输出属性和格式。
SoSetTargets绑定SO目标缓冲区(支持多缓冲区,需匹配创建时的声明)。

(2) SoSetTargets 实现示例

void APIENTRY SoSetTargets(D3D10DDI_HDEVICE hDevice,UINT NumBuffers,const D3D10DDI_HRESOURCE* phBuffers,  // SO缓冲区资源句柄const UINT* pOffsets                  // 各缓冲区的写入起始偏移
) {MyDeviceContext* pCtx = (MyDeviceContext*)hDevice.pDrvPrivate;for (UINT i = 0; i < NumBuffers; ++i) {pCtx->soBuffers[i] = phBuffers[i];pCtx->soOffsets[i] = pOffsets ? pOffsets[i] : 0;// 标记SO缓冲区为脏(需GPU同步)pCtx->dirtyFlags |= SO_TARGETS_DIRTY;}
}

4. 数据流控制与高级特性

(1) 流输出工作流程

  • GS处理顶点:输出到SO缓冲区的属性由创建时的签名定义。

数据写入缓冲区:

  • 每个顶点按声明顺序写入绑定的缓冲区。
  • 支持多缓冲区交错写入(如位置和速度分开存储)。

后续渲染循环:

  • 绑定SO缓冲区作为输入装配器 (IA) 的输入(需兼容格式)。
  • 使用 DrawAuto 自动确定绘制数量。

(2) DrawAuto 机制

  • 用途:在不知道SO输出数据量的情况下,自动绘制所有有效顶点。
  • 驱动实现:

需内部记录SO写入的顶点数,并在 DrawAuto 时回传给IA。

void APIENTRY DrawAuto(D3D10DDI_HDEVICE hDevice) {MyDeviceContext* pCtx = (MyDeviceContext*)hDevice.pDrvPrivate;UINT vertexCount = pCtx->soStats.NumPrimitivesWritten * 3; // 假设三角形列表pDeviceFuncs->Draw(hDevice, vertexCount, 0);
}

(3) 溢出查询与统计
通过查询对象监测SO状态:

查询类型用途
D3D10DDI_QUERY_STREAMOVERFLOWPREDICATE检测SO缓冲区是否溢出(返回TRUE/FALSE)。
D3D10DDI_QUERY_STREAMOUTPUTSTATS获取写入的图元/顶点数(用于调试或逻辑控制)。

示例:检查溢出:

BOOL overflow = FALSE;
pDeviceFuncs->QueryGetData(hQuery, &overflow, sizeof(BOOL));
if (overflow) {// 处理缓冲区扩容或数据截断
}

5. 典型应用场景

(1) GPU粒子系统

  • 初始化:创建带SO的GS,输出位置+速度。

更新循环:

  • 绑定SO缓冲区,用GS计算粒子运动。
  • 通过 DrawAuto 绘制更新后的粒子。
  • 渲染循环将SO缓冲区作为IA输入,渲染粒子。

(2) 几何变形缓存

  • 预处理:使用GS+SO将复杂变形(如曲面细分)结果存入缓冲区。
  • 复用数据:后续帧直接读取缓存,跳过重复计算。

6. 性能优化与注意事项

(1) 优化建议

  • 缓冲区复用:使用双缓冲或环形缓冲避免GPU停滞。
  • 对齐写入:确保SO输出格式符合硬件要求(如4字节对齐)。
  • 查询最小化:仅在必要时检查 STREAMOVERFLOWPREDICATE。

(2) 限制与兼容性

限制解决方案
SO缓冲区必须绑定为无序访问视图 (UAV)创建资源时指定 D3D10_DDI_BIND_STREAM_OUTPUT
输出数据量不可预测预分配足够大的缓冲区,或动态调整。
仅支持顶点数据(非结构化)需通过GS组织输出结构。

7. 驱动调试与验证

  • 验证SO签名匹配:确保 CreateGeometryShaderWithStreamOutput 声明的输出格式与 SoSetTargets 绑定的缓冲区兼容。
  • 检查溢出查询:在复杂场景中强制触发溢出,验证驱动正确处理。
  • 性能分析:使用GPU Profiler(如PIX)监测SO带宽占用。

总结

流输出 (SO) 是 Direct3D 10 实现 GPU数据闭环 的关键技术,其核心价值包括:

  • 数据持久化:避免CPU-GPU通信开销。
  • 动态处理:支持可变长度输出与自动绘制(DrawAuto)。
  • 高效复用:适用于粒子系统、几何变形等场景。

开发者需关注:

  • GS与SO的协同设计:明确定义输出属性。
  • 缓冲区管理:防止溢出并优化内存访问。
  • 查询机制:确保动态数据量可控。
http://www.lryc.cn/news/571688.html

相关文章:

  • 解决你的100个问题——梦想
  • 正态分布:AI大模型中的概率统计基石
  • 我的256天创作纪念日
  • 【5G通信基础】UCI上行链路控制信息简介
  • 义乌购平台店铺商品接口开发指南
  • TIGAR 如何逆转多囊卵巢综合征的困局【AbMole】
  • 分发平台是一个专注于APP应用分发
  • 《Effective Python》第九章 并发与并行——使用 Queue 实现并发重构
  • 跟着AI学习C# Day20
  • SKUA-GOCAD入门教程-第八节 线的创建与编辑5
  • Web攻防-XSS跨站浏览器UXSS突变MXSSVueReactElectron框架JQuery库写法和版本
  • ubuntu下python版本升级导致pyqt不能正常运行解决
  • CppCon 2017 学习:C++ atomics:from basic to advanced. What do they do?
  • Java大模型开发入门 (15/15):总结与展望 - Java开发者的AI进阶之路
  • 单例模式:全局唯一实例的设计艺术
  • web3.js v4.x 模块架构
  • linux618 NFS web.cn NFS.cn backup.cn
  • 亚矩阵云手机+Whatnot:直播电商的自动化增长引擎
  • Linux lsof 命令详解+实例
  • 【Python与生活】如何实现一个条形码检测算法?
  • IEEE RAL 双臂机器人三连抓估计物体状态 无需特制夹爪或视觉相机 - 大阪大学万伟伟老师团队
  • PCL 四元数转轴角
  • 【学习笔记】2.1注意力机制
  • C#开发MES管理系统源码工业生产线数据采集WPF上位机产线执行系统源码
  • crackme010
  • 01初始uni-app+tabBar+首页
  • 关于球面投影SphericalProjector的介绍以及代码开发
  • 分治算法之归并排序
  • webpack+vite前端构建工具 - 3webpack处理js
  • 深入ZGC并发处理的原理