【EGSR2025】材质+扩散模型+神经网络相关论文整理随笔(四)
An evaluation of SVBRDF Prediction from Generative Image
Models for Appearance Modeling of 3D Scenes
输入3D场景的几何和一张参考图像,通过扩散模型和SVBRDF预测器获取多视角的材质maps,这些maps最终合并成场景的纹理地图集,并支持在任意视角、任意光照条件下进行重新渲染。样例图如下:

在当前时代的技术背景下,生成与几何匹配的3D场景,以及根据RGB图像恢复SVBRDF都已经能够做到【1】。结合这两个技术可以使得我们根据一个几何快速生成多个视角的RGB图像,并估计出SVBRDF来。但是这么做仍面临一些问题。第一,从单个视角的图像中预测SVBRDF,会出现和其他视角下预测的SVBRDF不一致的问题,从而产生错误的纹理地图集。第二,根据模型去生成RGB图像时,不同模态下的模型(我理解为视角)也会导致生成的RGB图像在多个视角下不一致,所以也会间接影响到SVBRDF的多视角下的一致性估计。作者采用了一个标准的U-Net和相关的复杂设计解决这一问题。具体怎么解决的,请看下文对文章overview的介绍。
【1】真的吗,挠头。实际上diffuse类型材质的恢复还是可以的,如果带有glossy材质,我认为仍然面临着巨大问题,因为高频的反光、阴影、焦散的效果会和几何直接过分耦合,特别是单图输入且带有强光照时,高光会导致被照射的区域过曝,这部分的像素对恢复该区域的纹理无法提供有效信息,所以glossy材质的场景恢复出来的SVBRDF必然会在maps中表现出不均匀的情况,其中与高光相关的区域会出现明显的burn in artifacts,在重新渲染时,会明显看到光照在同一类型材质上的形状非常不稳定。
SVBRDF texturing pipeline overview。Step1. 先用一个image diffusion model以深度图、轮廓图为条件生成一系列的不同视角的场景图。其中,第一张生成的场景图要求必须是尽可能完整的,意思是尽可能地看到场景全貌,剩下不同视角的场景图在生成时,会进行额外的处理:首先将完整的场景图进行重新投影到不同的视角上,然后再结合不同视角的深度、轮廓图进行条件重绘,投影时因为遮挡出现的孔洞会在重绘的过程中修复。这样能确保生成过程的一致性【2】。Step2. 然后再继续根据每个不同视角的图像估计SVBRDF。Step3.重新渲染。整个流程见下图:

【2】这种重新投影会影响物理上的一致性,因为不同视角下的光照效果是不一样的,重投影无法弥补这一点。作者也意识到了这一点,见4.1节Scope of the study。不过确实可以提供一定的先验,让扩散模型借助自身强大的数据分布来消除这种误差。
作者主要是对现有的一些主流SVBRDF估计方法再神经网络架构选择和输入通道选择上进行了实验,结构设计见下图,虚线部分代表引入的额外的条件。
