当前位置：首页 > news >正文

论文笔记NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis

news 2025/6/28 20:11:49

NeRF使用神经网络来表示场景。给定一个场景，输入该场景稀疏的视角图片，NeRF可以合成该场景新的视角的图片。
在这里插入图片描述

神经辐射场

神经辐射场（neural radiance field，NeRF）使用5D的向量值函数表示一个场景。
输入是连续的5D坐标（包括位置 $x=(x,y,z)\mathbf x = (x,y,z)$ 和视角方向 $d=(θ,ϕ)\mathbf d = (\theta, \phi)$ ），输出是发光颜色 $c=(r,g,b)\mathbf c = (r, g, b)$ 和体积密度 $σ\sigma$ 。
具体地，用一个全连接网络近似这个场景，也就是学习 $FΘ:(x,d)→(c,σ)F_{\Theta}:(\mathbf x, \mathbf d) \rightarrow (\mathbf c, \sigma)$ 。
作者鼓励让体积密度只依赖于位置。所以网络结构是先输入位置 $x\mathbf x$ ，输出 $σ\sigma$ 和一个特征向量。之后将特征向量和视角方向拼接，最后映射到 $c\mathbf c$ 颜色。
注意不同的场景需要训练不同的NeRF。

位置编码

在将输入传递到网络之前，使用高频函数将输入映射到更高维空间可以更好地拟合包含高频变化的数据。类似Transformer，作者提出将 $x,d\mathbf x, \mathbf d$ 映射到高维空间中，再输入网络。

使用辐射场进行立体渲染

为了配合辐射场，作者采用立体渲染（volume rendering）方法渲染图像。
关于立体渲染可以参考 https://zhuanlan.zhihu.com/p/595117334
体积密度 $σ(x)\sigma(\mathbf x)$ 可以解释为光线在位置 $x\mathbf x$ 处终止于无穷小粒子的微分概率。
立体渲染中，相机光线 $r(t)=o+td\mathbf r(t) = \mathbf o + t\mathbf d$ 在范围 $t_n, t_f]$ 的期望颜色 $C(r)C(\mathbf r)$ 如下计算：
$C(r)=∫tntfT(t)σ(r(t))c(r(t),d)dtwhereT(t)=exp⁡(−∫tntσ(r(s))ds)C(\mathbf r) = \int_{t_n}^{t_f} T(t) \sigma(\mathbf r(t)) \mathbf c(\mathbf r(t), \mathbf d) dt \\ where~~ T(t) = \exp(-\int_{t_n}^t \sigma(\mathbf r(s))ds)$ 从连续的神经辐射场渲染一个视角，需要追踪所需虚拟相机的相机光线上的每个像素，来估计积分 $C(r)C(\mathbf r)$ 。

上面公式的积分实际中用数值方法计算。如果固定在某些点采样计算积分，会限制表示的分辨率。为了解决这个问题，作者提出使用分层采样（stratified sampling）的方法。首先将 $t_n, t_f]$ 平分成N个大小一样的桶，然后在每个桶中采样一个样本：
$ti∼U[tn+i−1N(tf−tn),tn+iN(tf−tn)]t_i \sim \mathcal U [t_n + \frac{i-1}{N}(t_f - t_n), t_n + \frac{i}{N}(t_f - t_n)]$ 虽然采样的样本还是离散的，但是优化过程是循环的，需要进行多次采样，每次采样可以采样到不同的位置，所以相当于在连续的位置优化。用采样的样本估计 $C(r)C(\mathbf r)$ 的方法如下：
$C^(r)=∑iNTi(1−exp⁡(−σiδi))ciwhereTi=exp⁡(−∑j=1i−1σjδj)\hat C(\mathbf r) = \sum_{i}^{N} T_i (1-\exp(-\sigma_i \delta_i)) \mathbf c_i \\ where~~ T_i = \exp(- \sum_{j=1}^{i-1} \sigma_j \delta_j)$ 其中 $δi=ti+1−ti\delta_i = t_{i+1} - t_i$ 。这个估计 $C(r)C(\mathbf r)$ 的方法是可导的，所以可以方便的优化参数。

Hierarchical立体采样

如果沿每个相机光线的 N 个查询点密集地计算NeRF的值，这样的渲染策略是效率低下的，因为对渲染图像没有贡献的自由空间和遮挡区域会被重复采样。
为了解决这个问题，作者提出训练两个网络，一个是粗粒度（coarse）的，一个细粒度（fine）的。首先对粗粒度网络分层采样 $N_c$ 个点，然后计算 $C^c(r)\hat{C}_c(\mathbf r)$ 。
在这里插入图片描述标准化 $w^i=wi∑jwj\hat{w}_i=\frac{w_i}{\sum_j w_j}$ 得到一个概率密度函数。根据这个分布，采样得到 $N_f$ 个点。再使用细粒度网络计算这 $N_c + N_f$ 个点的颜色 $C^f(r)\hat{C}_f(\mathbf r)$ 。这样的方式可以对可见部分采样更多的点。