← 返回技术文章

3Geometry-Grounded Gaussian Splatting

alt text

高斯泼溅(Gaussian Splatting, GS)在新视角合成中展现了出色的质量和效率。然而,从高斯基元中提取形状仍然是一个悬而未决的问题。由于几何参数化和逼近不足,现有的形状重建方法存在多视角一致性差且对漂浮物敏感的问题。本文通过严格的理论推导,将高斯基元建立为一类特定的随机实体。这一理论框架为"几何接地的高斯泼溅"提供了原则性基础,使高斯基元能够直接作为显式几何表示。利用随机实体的体积特性,我们的方法能够高效渲染高质量的深度图以进行精细几何提取。实验表明,在公开数据集上,我们的方法在所有基于高斯泼溅的方法中取得了最好的形状重建结果。

CCS概念: ● 计算方法 → 基于点的模型;体积模型;渲染。
附加关键词: 高斯泼溅,随机实体,形状重建

1 引言

从多视角图像进行3D形状重建是一个长期存在的问题,对虚拟现实、自动驾驶和机器人技术具有广泛影响。最近的进展由隐式神经表示驱动,最著名的是神经辐射场(NeRF)。许多最先进的方法进一步采用几何接地的辐射场:它们从一个规范的几何场(例如SDF/占据率)开始,并相应地推导渲染公式。诸如VolSDF和NeuS等方法遵循这一原则,将渲染锚定在显式表面上,并产生跨视角一致的可靠几何。尽管取得了这些进展,几何接地的辐射场通常依赖于沿相机光线的密集采样(例如光线行进),导致训练和推理速度缓慢。

相比之下,高斯泼溅(Gaussian Splatting)将场景表示为高斯基元的集合,并利用高效的光栅化,实现了快速优化和实时新视角合成。一些后续工作将高斯泼溅扩展到形状重建,取得了有希望的结果。然而,与从SDF/占据率场开始的几何接地NeRF方法不同,高斯泼溅本身并不定义表面。因此,现有的基于高斯泼溅的方法使用启发式规则从高斯辐射场提取深度或表面。如图1右侧所示,一个更具原则性的几何公式可以改善跨视角一致性并实现更高保真度的重建。与这些启发式流程不同,我们为高斯基元提供了原则性的几何基础,从而实现更高保真度的形状重建。

在本文中,我们通过为高斯配备一个规范的几何场,采纳了几何接地辐射场的理念。我们通过利用近期工作"物体作为体积"所提供的理论基础来实现这一点,该工作提供了一种对几何接地辐射场的随机解释。在此理论下,我们分析了高斯泼溅的渲染方程,并证明渲染一个高斯基元等同于渲染一个随机实体(第4.1节)。这统一了高斯泼溅和基于NeRF的方法的渲染公式,使我们首次能够为高斯基元推导出一个几何场。利用我们的公式,我们开发了一种高效的深度渲染方法,该方法逼近几何场的等值面,并从高斯基元中提取更精细的几何(第4.2节),展现出固有的多视角一致性和对漂浮物的鲁棒性。

图2展示了我们的深度渲染流程,以详细例证我们的优势。先前基于高斯泼溅的方法将沿光线的中值深度定义为透射率降至0.5的位置,如**图2(d)**所示。然而,由于透射率的离散变化,该方法无法捕捉重叠高斯的联合效应,并导致锯齿状的深度阶跃。相比之下,随机实体模型连续地模拟体积衰减,并产生平滑的透射率曲线。基于此,我们赋予高斯基元相同的连续行为,从而能够生成更详细的深度图。为了计算中值深度,我们利用透射率的单调性,并应用二分搜索来定位0.5透射率交叉点。我们进一步推导了中值深度相对于沿光线所有高斯参数梯度的闭式表达式,以实现高效的反向传播。

本文的主要贡献总结如下:

2 相关工作

2.1 连续辐射场

NeRF将场景建模为连续辐射场,通常由MLP参数化,并在反射和散射等挑战性效果中表现出强大性能。基于此主干,Mip-NeRF通过锥台渲染引入了抗锯齿的多尺度公式,Mip-NeRF 360通过专门的参数化和正则化将其扩展到无界场景。为了提高效率,一些工作用显式体积参数化取代了MLP光线行进,例如Plenoxel的体素网格优化和SVRaster的自适应稀疏体素实时光栅化;Instant-NGP通过多分辨率哈希网格进一步加速了训练。

虽然NeRF最初是为视图合成设计的,但从通用密度场恢复准确几何并非易事,这促使了将体积渲染与隐式表面耦合的表面感知公式的出现。VolSDF、NeuS和UNISURF通过符号距离函数(SDF)参数化密度,并设计渲染权重以获得更真实的表面。Neuralangelo进一步将多分辨率哈希网格编码与神经表面渲染相结合,从RGB捕获中实现高保真重建。GeoSVR探索了用于几何精确表面重建的显式稀疏体素,利用不确定性感知深度约束和体素表面正则化来改善细节和完整性。在理论方面,"物体作为体积"提供了一种将不透明实体表示为体积的随机几何视角,并阐明了基于指数透射率的模型在何时是物理一致的,为面向表面的体积渲染提供了原则性见解。尽管这些方法可以重建高质量的几何,但它们通常遭受极端耗时的问题。

2.2 基于基元的表示

高斯泼溅(Gaussian Splatting)使用一组3D高斯基元表示3D场景。结合光栅化技术,它避免了NeRF渲染中耗时的光线行进过程。因此,它同时实现了实时渲染和加速训练。在此基础上,Mip-Splatting通过引入低通滤波器来解决走样问题,而LightGaussian通过紧凑表示优化内存使用。VastGaussian进一步将高斯泼溅扩展到更大规模的场景。StochasticSplats采用蒙特卡洛估计器实现免排序渲染,进一步提高了渲染效率。

尽管3DGS实现了高质量的新视角合成,但从纯光度优化中恢复的几何通常不可靠。为了改进表面重建,先前的工作要么施加更强的几何先验,要么添加几何监督。SuGaR和NeuGS倾向于表面对齐(扁平化)的高斯以更好地捕捉物体边界并促进网格提取。相关方法用2D基元取代3D高斯以鼓励类表面表示,尽管此类约束可能降低建模灵活性并在复杂场景中变得不稳定。GFSGS进一步利用随机实体构建2D面元进行形状重建。除了基元设计,3DGSR和GSDF将高斯与隐式神经SDF场联合优化,在保持泼溅效率的同时提高了重建保真度,而PGSR则添加了多视角几何正则化。

尽管经验上取得了有希望的进展,但高斯泼溅中的几何提取仍然依赖于启发式的深度定义。这些启发式方法通常产生噪声较大的深度图,在跨视角点上一致性差,从而为优化提供了较弱的监督信号。这提出了一个基本问题:高斯表示是否支持类似于基于NeRF的方法的内在几何概念?我们通过采用随机方法以更原则的方式计算深度图来解决这个问题,以实现高质量的形状重建。

3 预备知识

3.1 高斯泼溅

我们首先简要回顾高斯泼溅(GS)。一个3D高斯基元定义如下:
G(x)=oe(xxc)Σ1(xxc),G(x)=o e^{-\left(x-x_c\right)^{\top}\Sigma^{-1}\left(x-x_c\right)},
其中o是不透明度,ΣR3×3\Sigma\in R^{3\times 3}是协方差矩阵,xR3x\in R^{3}表示3D空间中的一个点,xcR3x_{c}\in R^{3}表示高斯的中心。为了实现快速光栅化,高斯泼溅(GS)方法采用局部仿射近似将3D高斯基元投影到图像平面上的2D高斯,其协方差矩阵为Σ2D\Sigma_{2 D}^{\prime}。2D高斯的opacity α(u)\alpha(u)定义为投影后2D高斯的峰值:
α(u)=oe(uuc)Σ2D(uuc),\alpha(u)=o e^{-\left(u-u_{c}\right)^{\top}\Sigma_{2 D}^{\prime}\left(u-u_{c}\right)},
其中u是图像空间中像素的坐标,ucu_{c}是高斯的投影中心。通过这种方式,3D高斯基元被投影为2D高斯。然后对这些2D高斯进行排序和alpha混合以计算最终颜色。更多细节可在补充材料中找到。

3.2 物体作为体积

在本小节中,我们简要概述了[Miller et al. 2024],该工作提出了一种使用体积渲染来渲染随机实体的方法。对于一个以其占据率O和空置率v(即1O1-O)为特征的随机不透明实体,作者推导出物体的衰减系数σ\sigma如下:
σ(x,ω)=ωlog(v(x))=ωv(x)v(x),(3)\sigma(x,\omega)=|\omega\cdot\nabla\log(v(x))|=\frac{|\omega\cdot\nabla v(x)|}{v(x)},\qquad(3)
其中ω\omega是观察方向,x是3D位置。利用这个衰减系数,他们推导出随机实体的体积渲染公式为:
C=tntfp(t)c(x(t),ω)dt,p(t)=T(t)σ(x(t),ω),T(t)=exp(tntσ(x(s),ω)ds),\begin{align*} C=&\int_{t_n}^{t_f} p(t) c(x(t),\omega) d t,\\ & p(t)=T(t)\sigma(x(t),\omega),\\ T(t)=&\exp\left(-\int_{t_n}^t\sigma(x(s),\omega) d s\right),\end{align*}
其中p是自由飞行分布[Miller et al. 2024],代表光在碰撞前传播距离的统计分布,并作为颜色积分的权重,T(t)T(t)是沿光线的透射率。

在我们的工作中,我们将一个3D高斯基元视为一个随机实体,并为其设计一个合适的衰减系数σ\sigma。利用这个系数,如公式4所述的高斯基元的体积渲染,等同于其光栅化渲染。这使我们能够以更原则的方式研究高斯泼溅,并为高斯基元开发一种形状重建方法。

4 方法

在以下部分中,我们首先介绍针对单个高斯基元的方法。然后,我们设计一种从多个高斯基元高效渲染深度图的方法。

4.1 作为随机实体的高斯基元

我们将一个高斯基元视为一个随机实体[Miller et al. 2024],并推导其渲染函数。如图3所示,我们证明,在适当的衰减系数σ\sigma下,这个随机高斯实体的体积渲染等同于原始高斯泼溅的光栅化渲染。具体来说,公式2中像素的opacity α\alpha对应于沿该像素视线的高斯函数的最大值(证明在补充材料中)。因此,单个高斯的渲染颜色由下式给出:
C=cα=cG(t),C=c\alpha=c G\left(t^*\right),
其中tt^{*}是沿射线l:o+ωtl: o+\omega t的最大值点,为简化起见,我们将G(o+ωt)G\left(o+\omega t^{*}\right)记为G(t)G\left(t^{*}\right)

alt text

公式5不能唯一确定衰减系数。因此,我们施加三个额外的约束。给定一个高斯基元G(x)G(x),我们假设:

这引导我们推导出空置率的一个简单且唯一的表达式:
v(x)=1G(x)v(x)=\sqrt{1-G(x)}
为了证明公式6,我们首先按照[Miller et al. 2024]中的方法推导高斯基元的体积渲染为:
C=T(t)σ(x(t),ω)cdt=c(1v(t)2),C=\int_{-\infty}^{\infty} T(t)\sigma(x(t),\omega) c d t=c\left(1-v\left(t^*\right)^2\right),
其中衰减系数σ\sigma来源于公式3中描述的随机实体,导致积分结果用空置率v(t)v\left(t^{*}\right)表示。比较公式5中的光栅化和公式7中的体积渲染,我们可以得到:
C=cG(t)=c(1v(t)2),C=c G\left(t^*\right)=c\left(1-v\left(t^*\right)^2\right),
换句话说,我们得到以下条件:
v(t)=1G(t).(9)v\left(t^*\right)=\sqrt{1-G\left(t^*\right)}.\qquad(9)
因此,如果一个随机高斯实体的空置率遵循公式6,那么它可以产生与高斯泼溅中光栅化相同的渲染结果。唯一性证明和其他细节可以在我们的补充材料中找到。现在,我们可以使用公式3和公式6来获得高斯基元内部的衰减系数σ\sigma,从而获得准确的深度图和平滑的优化。

这一特性使我们能够超越启发式的几何读取,从而产生一种直接构建在高斯基元之上的原则性形状重建方法。在以下部分中,我们将此理论应用于高斯泼溅,并证明它能显著改善形状重建。

4.2 来自随机实体的深度

在高斯泼溅中,仅靠光度监督不足以重建高质量的形状。为了更好地恢复表面几何,最近的工作从高斯基元渲染深度图,添加几何正则化器,然后将其梯度反向传播到高斯参数。

然而,渲染的深度图噪声大且跨视角一致性差,例如如图8图4所示,提供了弱的几何监督。这促使我们利用从随机实体导出的衰减系数来改进高斯泼溅中的深度渲染。

渲染流程如图2所示。我们首先推导我们的深度计算方法,然后展示它如何改善多视角一致性并产生更清晰的深度图。

alt text

4.2.1 深度定义

遵循先前的高斯泼溅方法,我们使用中值深度tmedt_{\text{med}}进行几何正则化:
tmed=T1(0.5)t_{\text{med}}=T^{-1}(0.5)
其中T1()T^{-1}(*)是透射率T(t)T(t)的反函数。遵循先前的工作[Blanc et al. 2025a,b; Condor et al. 2025],我们假设视线与不同高斯相交的事件在统计上是独立的。在此假设下,沿光线在t处的总透射率是每个高斯基元处计算的透射率的乘积:
T(t)=iTi(t),T(t)=\prod_i T_i(t),
其中Ti(t)T_{i}(t)是第i个高斯的透射率,定义为:
Ti(t)={vi(t),ttivi(ti)2/vi(t),t>ti.T_i(t)=\left\{\begin{array}{ll} v_i(t),& t\leq t_i^*\\ v_i\left(t_i^*\right)^2/ v_i(t),& t>t_i^*.\end{array}\right.
这里,tit_{i}^{*}是高斯沿相机光线的最大值点。公式12是根据公式3中定义的每个高斯内部的连续衰减剖面推导出来的,捕捉了更详细的几何信息。公式12的推导可在补充材料中找到。

讨论:先前的方法要么从每个视角的深度平面(本质上是视角依赖的)估计深度,要么通过不透明度加权的光线平均(容易受到视角特定漂浮物的影响)来估计深度。这些深度提取策略通常导致较差的跨视角一致性。相比之下,我们将展示,将高斯泼溅解释为随机实体会产生具有强多视角一致性的中值深度估计。回想一下,中值深度是透射率首次达到固定阈值(即T=0.5)的点。从公式12和11可以看出,如果总透射率穿过T=0.5发生在贡献高斯的峰值之前,那么透射率与3D空置场重合,如图6所示。因此,深度图是一个视角无关的0.5水平等值面。这种情况很常见,因为优化会将高不透明度的高斯聚集在表面附近,使得透射率主要在它们的近端下降。虽然漂浮物仍然可能干扰光线,但中值深度比alpha加权的期望深度对此类异常值更具鲁棒性,从而产生更强的多视角一致性。

除了改进的多视角一致性,我们的方法产生更清晰的深度图,如图4所示。通过alpha加权合成获得的深度倾向于在边界处在前景和背景之间插值,导致模糊的轮廓,如图5所示。由T=0.5交叉点定义的中值深度提供了更锐利的边界过渡。然而,在先前的高斯泼溅公式中,透射率以离散步长更新,因此0.5交叉点通常捕捉到单个高斯;相邻像素因此可能选择不同的高斯,产生锯齿状伪影。我们的随机实体公式在每个高斯内部连续模拟衰减,产生平滑的透射率函数,在保持锐利边界的同时减少了阶梯效应。

alt text

4.2.2 实现

通常,公式10没有闭式解。为了解决这个问题,我们利用沿每条光线的透射率的单调性,并使用迭代二分搜索来查找中值深度。在反向传播期间,我们不需要迭代搜索。相反,我们推导出深度tmedt_{\text{med}}相对于高斯参数梯度的闭式解:
tmedθ=T(tmed;θ)θ/T(t;θ)tt=tmed,\frac{\partial t_{\text{med}}}{\partial\theta}=-\left.\frac{\partial T\left(t_{\text{med}};\theta\right)}{\partial\theta}/\frac{\partial T(t;\theta)}{\partial t}\right|_{t=t_{\text{med}}},
其中θ\theta表示沿光线的高斯参数。

公式13表明梯度可以分布到沿光线的所有贡献高斯,这与先前的方法(其中中值深度的梯度仅应用于单个高斯)不同。这源于我们的随机实体公式,它产生了一个可微的透射率函数。因此,中值深度tmedt_{\text{med}}随高斯参数平滑变化,为优化提供了更密集的监督。公式13的推导和实现细节在补充材料中提供。

4.3 使用随机实体进行优化

我们使用光度损失[Kerbl et al. 2023]、法向一致性损失[Huang et al. 2024]和多视角正则化[Chen et al. 2024]来优化场景;细节在补充材料中提供。这些损失需要渲染RGB图像、法线图和深度图。对所有模态进行完全体积渲染的计算成本很高[Blanc et al. 2025a,b; Condor et al. 2025]。因此,我们保留标准的高斯泼溅近似用于RGB和法线[Zhang et al. 2024],同时使用公式10计算深度。实验表明,这种设置可以显著提高高斯泼溅的形状重建精度,同时保持效率。尽管如此,我们相信将我们的体积公式扩展到RGB和法线渲染可以进一步提高精度,这留待未来工作。

5 实验

我们在几个公共数据集上评估我们的方法,并将其与现有的最先进方法进行比较。

实现细节:我们使用局部仿射近似,并采用RaDe-GS[Zhang et al. 2024]来估计每个高斯的峰值tit_{i}^{*}。为了效率,我们遵循gsplat[Ye et al. 2025]并使用warp级归约进行梯度累积。我们应用来自Mip-Splatting[Yu et al. 2024a]的3D滤波(不含2024c])和来自PGSR[Chen et al. 2024]的曝光补偿。多视角正则化使用自定义CUDA内核实现。我们将发布我们的代码。

数据集:我们在DTU[Jensen et al. 2014]和Tanks & Temples (TnT)[Knapitsch et al. 2017]上评估重建精度。遵循先前的工作,我们使用标准的15场景DTU分割和常见的6场景TnT子集。我们在DTU上报告倒角距离(Chamfer Distance),在TnT上报告F1分数。

网格提取:遵循先前的工作[Yu et al. 2024c; Zhang et al. 2024],我们对DTU数据集应用由Open3D[Zhou et al. 2018]实现的TSDF融合[Curless and Levoy 1996]来提取网格,并对Tanks & Temples数据集中的大规模场景采用行进四面体[Guédon et al. 2025a; Yu et al. 2024c]。受GOF启发,我们为行进四面体在3D空间上定义一个指示函数。具体来说,如果一个点在任意训练视图中被遮挡(即其透射率低于0.5),则被分类为网格内部;否则被分类为外部。

5.1 重建比较

我们在形状重建任务中将我们的方法与现有的最先进方法进行比较。表1表2显示了在DTU和TnT数据集上的精度。PGSR和GeoSVR中采用的多视角正则化器显著提高了DTU的精度;使用这种正则化,我们的方法实现了与两者相当的性能。在TnT中,我们的方法显著优于现有的基于高斯泼溅的方法,这是因为我们的深度渲染公式能够实现更精细的几何细节,强制执行视角一致的几何,并且对漂浮物具有鲁棒性。图7提供了形状重建方法之间的定性比较。我们的方法重建了具有更精确几何的更精细细节。额外的定性结果如图9图10所示。

我们在表1表2中报告了运行时间。对于相同次数的迭代,我们的方法比GeoSVR(15分钟 vs. 53分钟)和PGSR(25分钟 vs. 30分钟)更快,这得益于多视角正则化的更高效实现。由于二分搜索和多视角项的额外成本,我们的运行时间高于最快的基线。我们期望通过收紧二分搜索的初始深度间隔来进一步加速,这留待未来工作。

表1. DTU数据集上的定量比较[Jensen et al. 2014]。我们报告了不同方法的倒角距离和平均优化时间。 在显式基于高斯泼溅的方法中,我们的方法取得了最佳结果,并达到了与GeoSVR相当的精度。所有高斯泼溅方法都使用半分辨率图像进行评估。
(表格内容翻译略,因其为数据)

表2. Tanks & Temples数据集[Knapitsch et al. 2017]上的定量比较。我们报告了F1分数和平均优化时间。
(表格内容翻译略,因其为数据)

alt text

5.2 多视角一致性

跨视角的几何一致性对于精确的形状重建至关重要。为了评估每种深度渲染方法,我们在训练期间计算每像素的循环重投影误差。对于一个参考视图和相邻视图,我们渲染参考视图的深度图,将像素反投影到3D,投影到相邻视图中以采样相应的深度,然后反投影并重投影回参考视图。循环误差是原始像素位置和重投影像素位置之间的欧几里得距离。

我们将我们的方法与PGSR[Chen et al. 2024]和RaDe-GS[Zhang et al. 2024]进行比较。PGSR使用与每个3D高斯最短轴正交的平面来定义光线-表面交点,而RaDe-GS使用高斯响应的光线方向最大化点。为了公平比较,我们评估了增加了与PGSR相同的多视角正则化的RaDe-GS,并在7K迭代时为所有方法启用几何正则化。如图8所示,我们的方法产生了更好的初始化并收敛更快,在30K迭代时实现了最低的重投影误差,这主要归功于我们基于随机理论的深度公式。相比之下,其他方法显示出明显更大的重投影误差,并且在训练过程中出现的漂浮物进一步加剧了不一致性。更多结果见图13

5.3 消融研究
在本节中,我们评估了每个组件集成到我们方法中所做的贡献。表3报告了在TnT数据集上的定量结果。几何多视角项Lgc惩罚循环重投影误差;然而,在我们的设置中,它仅带来边际收益,因为我们的深度渲染公式已经提供了强大的多视角一致性。相比之下,法向一致性损失和曝光补偿模块一致地提高了重建质量。最后,与配备类似正则化器的其他两个深度渲染基线相比,我们的方法实现了更准确的形状重建。

表3. Tanks & Temples数据集[Knapitsch et al. 2017]上的消融研究。 PGSR中的法向一致性损失和单视角几何损失具有相似的公式。我们用Ln表示它们。Lgc是几何一致性损失。"exposure"代表PGSR中的曝光补偿模块。我们切换每个项的开关(√/-)并报告最终的重建精度。
(表格内容翻译略,因其为数据)

6 结论

我们揭示了高斯泼溅的内在几何特性。我们将高斯基元视为随机实体,并设计了一个合适的衰减函数,使其体积渲染与其基于光栅化的渲染相同。该随机理论使得能够以原则性的方式进行深度渲染。实验表明,我们的方法优于最先进的方法。

参考文献

(参考文献列表翻译略,因其为标准引用格式)

补充材料:几何接地的高斯泼溅

A 深度渲染的实现

在本节中,我们详细介绍了深度渲染的前向传播和反向传播的实现。

A.1 前向传播

我们从RaDe-GS[Zhang et al. 2024]获得的初始中值深度tinitt_{\text{init}}开始。然后我们建立一个初始深度区间[tinitr,tinit+r]\left[t_{\text{init}}-r, t_{\text{init}}+r\right],并在此范围内搜索中值深度,在训练期间将r设置为0.4。为了执行二分搜索,我们需要遍历相机光线上的高斯,并记录中点处的透射率,将其与目标值0.5进行比较。然而,遍历高斯可能非常耗时,因此我们旨在减少高斯遍历的次数。具体来说,我们不是通过中点将区间分成两段,而是使用七个分割点将其均匀分成八段,并记录每个分割点处的透射率。每次遍历后,我们定位端点透射率值落在0.5两侧的段,并将其作为新的搜索区间。在此设置下,单次遍历相当于三次二分搜索迭代。我们重复此过程5次,逐渐缩小区间,直到最终深度误差在0.8×85=2.441×1050.8\times 8^{-5}=2.441\times 10^{-5}以内。在第一次遍历中,我们还记录区间两端的透射率值,即tinitrt_{\text{init}}-rtinit+rt_{\text{init}}+r。如果两个值都高于0.5或都低于0.5,我们将该像素掩膜以进行几何正则化。

A.2 反向传播

深度的反向传播可以计算为:
Ltmedtmedθ\frac{\partial L}{\partial t_{\text{med}}}\cdot\frac{\partial t_{\text{med}}}{\partial\theta}
其中L表示损失,tmedt_{\text{med}}是前向传播计算的中值深度,θ\theta表示沿相机光线的高斯参数。我们进一步记θ={θi}\theta=\left\{\theta_{i}\right\},其中θi\theta_{i}表示第i个高斯的参数。第一项L/tmed\partial L/\partial t_{m e d}是反向传播函数的输入,我们需要计算第二项。第二项的公式如主提交稿中的公式13所示,并将在第I节中推导。它由T(t;θ)/tt=tmed\partial T(t;\theta)/\left.\partial t\right|_{t=t_{m e d}}T(tmed;θ)/θ\partial T\left(t_{\text{med}};\theta\right)/\partial\theta组成。我们沿光线遍历高斯两次,在单独的通道中计算这两个项。

在第一次遍历中,我们计算T(t;θ)/tt=tmed\partial T(t;\theta)/\left.\partial t\right|_{t=t_{m e d}}。主提交稿中的公式10和公式11表明:
T(tmed;θ)=iTi(tmed;θi)=0.5.(15)T\left(t_{\text{med}};\theta\right)=\prod_{i} T_{i}\left(t_{\text{med}};\theta_{i}\right)=0.5.\qquad(15)
我们可以得到:
T(t;θ)tt=tmed=ijiTj(tmed;θj)Ti(t;θi)tt=tmed=iT(tmed;θ)Ti(tmed;θi)Ti(t;θi)tt=tmed=i0.5Ti(tmed;θi)Ti(t;θi)tt=tmed\begin{align*}\left.\frac{\partial T(t;\theta)}{\partial t}\right|_{t=t_{\text{med}}}&=\left.\sum_i\sum_{j\neq i} T_j\left(t_{\text{med}};\theta_j\right)\frac{\partial T_i\left(t;\theta_i\right)}{\partial t}\right|_{t=t_{\text{med}}}\\ &=\left.\sum_i\frac{T\left(t_{\text{med}};\theta\right)}{T_i\left(t_{\text{med}};\theta_i\right)}\frac{\partial T_i\left(t;\theta_i\right)}{\partial t}\right|_{t=t_{\text{med}}}\\ &=\left.\sum_i\frac{0.5}{T_i\left(t_{\text{med}};\theta_i\right)}\frac{\partial T_i\left(t;\theta_i\right)}{\partial t}\right|_{t=t_{\text{med}}}\end{align*}
计算完公式16后,我们修改标准高斯泼溅颜色累积的反向传播,以额外计算每个高斯的T(tmed;θ)/θi\partial T\left(t_{\text{med}};\theta\right)/\partial\theta_{i}
T(t;θ)θi=jiTj(tmed;θj)Ti(tmed;θi)θi=T(tmed;θ)Ti(tmed;θi)Ti(tmed;θi)θi=0.5Ti(tmed;θi)Ti(tmed;θi)θi\begin{align*}\frac{\partial T(t;\theta)}{\partial\theta_i}&=\sum_{j\neq i} T_j\left(t_{\text{med}};\theta_j\right)\frac{\partial T_i\left(t_{\text{med}};\theta_i\right)}{\partial\theta_i}\\ &=\frac{T\left(t_{\text{med}};\theta\right)}{T_i\left(t_{\text{med}};\theta_i\right)}\frac{\partial T_i\left(t_{\text{med}};\theta_i\right)}{\partial\theta_i}\\ &=\frac{0.5}{T_i\left(t_{\text{med}};\theta_i\right)}\frac{\partial T_i\left(t_{\text{med}};\theta_i\right)}{\partial\theta_i}\end{align*}
公式16中的Ti(t;θi)/tt=tmed\partial T_i\left(t;\theta_i\right)/\left.\partial t\right|_{t=t_{m e d}}和公式17中的Ti(tmed;θi)/θi\partial T_i\left(t_{m e d};\theta_i\right)/\partial\theta_i可以很容易地从TiT_{i}的闭式形式公式(即主提交稿中的公式12)推导出来。使用主提交稿中的公式13,我们将公式16和公式17代入公式14。梯度被反向传播到每个高斯:
Ltmedtmedθi=LtmedT(tmed;θ)θi/(T(t;θ)tt=tmed).(18)\frac{\partial L}{\partial t_{\text{med}}}\cdot\frac{\partial t_{\text{med}}}{\partial\theta_i}=\frac{\partial L}{\partial t_{\text{med}}}\cdot\frac{\partial T\left(t_{\text{med}};\theta\right)}{\partial\theta_i}/\left(-\left.\frac{\partial T(t;\theta)}{\partial t}\right|_{t=t_{\text{med}}}\right).\quad(18)

B 高斯泼溅预备知识

高斯泼溅将场景表示为一组3D高斯基元。单个基元由中心xcR3x_{c}\in R^{3}、不透明度o[0,1]o\in[0,1]和对称正定协方差ΣR3×3\Sigma\in R^{3\times 3}参数化:
G(x)=oexp((xxc)Σ1(xxc)).(19)G(x)=o\exp\left(-\left(x-x_c\right)^{\top}\Sigma^{-1}\left(x-x_c\right)\right).\qquad(19)

从3D到屏幕空间高斯:为了高效渲染,高斯泼溅将每个3D高斯光栅化为图像平面上的椭圆2D高斯。设相机外参将世界坐标映射到相机坐标,并将世界到相机的旋转记为W。相机坐标系中的协方差为:
Σcam=WΣW.(20)\Sigma_{c a m}=W\Sigma W^{\top}.\qquad(20)
π()\pi(\cdot)为透视投影,uc=π(xc,cam)u_{c}=\pi\left(x_{c, c a m}\right)为图像平面上的投影中心。使用π\pixc,camx_{c, c a m}周围的局部仿射近似,屏幕空间协方差通过乘以雅可比矩阵获得:
Σ2D=JΣcamJ=JWΣWJ,\Sigma_{2 D}^{\prime}=J\Sigma_{c a m} J^{\top}=J W\Sigma W^{\top} J^{\top},
其中JR2×3J\in R^{2\times 3}是在xc, camx_{c,\text{ cam}}处评估的透视投影的雅可比矩阵。

每像素alpha:给定像素位置uR2u\in R^{2},高斯贡献一个由其屏幕空间椭圆决定的不透明度(alpha):
α(u)=oe(uuc)Σ2D1(uuc),\alpha(u)=o e^{-\left(u-u_{c}\right)^{\top}\Sigma_{2 D}^{\prime-1}\left(u-u_{c}\right)},
其中ucu_{c}是投影的高斯中心。在实践中,每个高斯仅在有限的屏幕空间支持内的像素上进行评估,以保持快速光栅化。

Alpha合成:对于每个像素,令N表示其投影支持与该像素重叠的高斯集合。这些高斯按深度排序,并使用标准alpha混合进行累积。将每个高斯的颜色记为cic_{i}αi=αi(u)\alpha_{i}=\alpha_{i}(u),渲染颜色为:
C(u)=iNciαij=1i1(1αj).C(u)=\sum_{i\in N} c_{i}\alpha_{i}\prod_{j=1}^{i-1}\left(1-\alpha_{j}\right).

C 损失函数

在训练期间,我们采用三个损失项:来自高斯泼溅[Kerbl et al. 2023]的光度损失、来自2D GS[Huang et al. 2024]的法向一致性损失和来自PGSR[Chen et al. 2024]的多视角正则化。我们在下面描述每一项。

光度损失:我们遵循[Kerbl et al. 2023],将光度损失定义为渲染图像与真实图像之间的L1L_{1}项和D-SSIM项的加权组合:
Lc=(1λ)L1+λLSSIM,L_c=(1-\lambda) L_1+\lambda L_{S S I M},
其中λ\lambda是一个超参数。

法向一致性:仅靠光度监督不足以约束几何,因此我们引入了额外的几何正则化。具体来说,我们采用了2D GS[Huang et al. 2024]的法向一致性损失,该损失鼓励高斯法线与从渲染深度图估计的表面法线一致。具体地,我们通过对深度图应用有限差分来计算参考法线n~\tilde{n},并惩罚其与每个高斯法线的角度偏差:
Ln=iωi(1nin~),\mathcal{L}_n=\sum_i\omega_i\left(1-n_i^{\top}\tilde{n}\right),
其中nin_{i}是沿光线的第i个高斯的法线,ωi=αij=1i1(1αj)\omega_{i}=\alpha_{i}\prod_{j=1}^{i-1}\left(1-\alpha_{j}\right)是其alpha合成权重。

多视角正则化:我们将PGSR[Chen et al. 2024]的多视角正则化应用于我们的方法,该正则化结合了光度项和显式的几何循环一致性项。具体地,对于每个参考像素uru_{r},我们使用渲染的深度和法线将局部表面近似为一个平面,并使用诱导的平面单应性将参考视图与相邻视图关联起来:
Hrn=Kn(Rrn+Trnnrprnr)Kr1,H_{r n}=K_n\left(R_{r n}+\frac{T_{r n} n_r^{\top}}{p_r^{\top} n_r}\right) K_r^{-1},
其中KrK_{r}KnK_{n}是内参,(Rrn,Trn)\left(R_{rn},T_{rn}\right)是从参考相机到相邻相机的相对位姿,n是u处渲染的法线,p是参考相机帧中通过uru_{r}的射线根据渲染深度得到的3D点。

使用HrnH_{r n},我们将相邻图像扭曲到参考帧中,并通过归一化互相关(NCC)强制执行块级光度一致性:
Lpc=urw(ur)(1NCC(Ir(ur),In(Hrnur))),(27)L_{p c}=\sum_{u_r} w\left(u_r\right)\left(1-\operatorname{NCC}\left(I_r\left(u_r\right), I_n\left(H_{r n} u_r\right)\right)\right),\quad(27)
其中IrI_{r}InI_{n}表示参考图像和相邻图像。为了处理遮挡和不可靠的对应关系,PGSR根据前向-后向重投影循环定义了一个置信度权重。具体地,令HnrH_{n r}表示从相邻视图映射回参考视图的单应性,循环重投影误差为:
ϕ(ur)=urHnrHrnur2,\phi\left(u_r\right)=\left\|u_r-H_{n r} H_{r n} u_r\right\|_2,
这与主提交稿中引入的重投影误差相同。置信度则为:
w(ur)={exp(ϕ(ur)),ϕ(ur)<10,ϕ(ur)1w\left(u_r\right)=\begin{cases}\exp\left(-\phi\left(u_r\right)\right),&\phi\left(u_r\right)<1\\ 0,&\phi\left(u_r\right)\geq 1\end{cases}
从而丢弃具有大循环误差的像素。

除了光度项,PGSR直接惩罚循环重投影误差以鼓励视角一致的几何:
Lgc=urw(ur)ϕ(ur).L_{g c}=\sum_{u_r} w\left(u_r\right)\phi\left(u_r\right).
整体的多视角正则化为:
Lmv=wpcLpc+wgcLgc,L_{m v}=w_{p c} L_{p c}+w_{g c} L_{g c},
其中wpcw_{p c}wgcw_{g c}控制光度和几何一致性的相对强度。

我们最终的训练损失L\mathcal{L}是:
L=Lc+wnLn+Lmv.\mathcal{L}=\mathcal{L}_c+w_n\mathcal{L}_n+L_{m v}.
我们在公式24中使用wn=0.05,wpc=0.6,wgc=0.02w_n=0.05, w_{p c}=0.6, w_{g c}=0.02,并设置λ=0.2\lambda=0.2

D 新视角合成比较

我们进一步比较了方法之间的新视角合成结果。表4显示了在Mip-NeRF 360数据集上的定量结果。我们的方法与现有的表面重建基线相比具有竞争性的性能,而RayGaussX产生了整体最佳的渲染质量。为了分离镜面反射建模的影响,我们用RayGaussX中使用的球面高斯混合来增强我们的模型,记为Ours(SG)。值得注意的是,我们仅在此实验中使用这些高斯瓣;所有其他实验使用我们默认的无高斯瓣模型。图14显示了我们方法的定性结果。

E 局限性与未来工作

为了保持高斯泼溅的效率,本文仅在渲染深度时考虑体积效应。未来的工作可以将随机理论与现有的体积渲染方法[Blanc et al. 2025b; Kheradmand et al. 2025]结合起来,在渲染颜色和法线图时充分利用随机实体的体积特性。我们相信这将进一步提高形状重建的质量。

为了计算中值深度,我们的二分搜索以一个固定的深度区间初始化。这个区间必须足够宽,这增加了搜索步骤的次数并减慢了训练速度。对于大规模场景,真实的中值深度甚至可能落在预设范围之外,阻碍有效的优化。未来的工作可以探索自适应或高斯感知的策略,以可靠地定位中值并收紧初始间隔。

虽然我们的网格提取方法利用了高斯表示,但随后的3D Delaunay三角剖分步骤仍然是通用的。在实践中,重建薄或近平面结构通常需要密集的顶点。设计高斯特定的四面体化和细化策略是未来工作的一个有意义的方向。

由于我们已经弥合了高斯和NeRF重建方法之间的差距,未来的工作可以考虑将基于NeRF的方法(例如Neuralangelo[Li et al. 2023])中的几何正则化应用于基于高斯泼溅的方法,以提高形状质量。

F 主提交稿中公式6的证明

图15所示,高斯泼溅[Kerbl et al. 2023]在投影高斯基元时应用了局部仿射近似。因此,从相机中心发出的光线彼此平行。每条光线上的3D高斯值形成一个1D高斯函数,记为Guv(t)G_{u v}(t)。有趣的是,不同光线上的这些1D高斯具有相同的方差但不同的最大值。

高斯泼溅对单个基元执行体积渲染如下:
G2D(u,v)=+Guv(t)dt,G_{2 D}^{\prime}(u, v)=\int_{-\infty}^{+\infty} G_{u v}(t) d t,
由于分布相同,这与Guv(t)G_{u v}(t)的最大值成正比,如图15所示。

此外,如公式22所示,高斯泼溅将2D高斯的峰值归一化为不透明度o,这对齐了2D和3D高斯之间的最大值,确保2D高斯值与沿射线相应1D高斯的峰值匹配。这一结论促进了随机高斯实体的推导。虽然我们的结果是从局部仿射投影推导出来的,但我们的方法可以轻松扩展到透视投影。

G "高斯作为随机实体"的证明

Miller等人[2024]提出了一种通过将空置率转换为衰减系数来渲染随机不透明实体的方法:
σ(x,ω)=ωlog(v(x))=ωv(x)v(x),\sigma(x,\omega)=|\omega\cdot\nabla\log(v(x))|=\frac{|\omega\cdot\nabla v(x)|}{v(x)},
其中v表示随机实体的空置率。

在本节中,我们将证明,给定一个由高斯泼溅渲染的高斯基元G(x)G(x),我们可以找到一个实体,该实体通过随机理论产生相同的渲染结果。该实体的空置率应满足:
v(x)=1G(x).(35)v(x)=\sqrt{1-G(x)}.\qquad(35)
我们将证明,在以下约束下,随机实体可以被唯一确定:

证明:假设一条参数化为t的直线l穿过G(x)G(x)。我们得到G(x)G(x)在直线上的值形成一个1D高斯函数G(t)G(t),其中t从-\infty++\infty,并在tt^{*}处达到1D高斯的峰值。

首先,我们从体积渲染推导颜色。根据第一个假设,沿这条直线l的空置率函数与高斯函数具有相反的单调性。我们将从公式34得到衰减系数:
σ(t)=ωlog(v(x))=log(v(x))t={log(v(x))t,ttlog(v(x))t,t>t\begin{align*}\sigma(t)&=|\omega\cdot\nabla\log(v(x))|\\ &=\left|\frac{\partial\log(v(x))}{\partial t}\right|\\ &=\left\{\begin{array}{ll}-\frac{\partial\log(v(x))}{\partial t},& t\leq t^{*}\\ \frac{\partial\log(v(x))}{\partial t},& t>t^{*}\end{array}\right.\end{align*}
由于高斯核具有均匀的颜色,我们可以简化体积渲染:
C=t=t=+T(t)σ(x(t),ω)cdt=ct=t=+T(t)σ(x(t),ω)dt=ct=t=+dT(t)=cT(t)t=+t==c(1T(+))\begin{align*} C&=\int_{t=-\infty}^{t=+\infty} T(t)\sigma(x(t),\omega) c d t\\ &=c\int_{t=-\infty}^{t=+\infty} T(t)\sigma(x(t),\omega) d t\\ &=c\int_{t=-\infty}^{t=+\infty}-d T(t)\\ &=c T(t)\left\vert\, _{t=+\infty}^{t=-\infty}=c(1-T(+\infty))\right.\end{align*}
然后我们将公式36代入公式37,得到体积渲染的颜色形式:
T()=T(,t)×T(t,+)=etσ(x(s),ω)×et+σ(x(s),ω)=e(log(v(t)))×e(log(v(t))t+)=v(t)v()×v(t)v(+)=v(t)2C=c(1T(+))=c(1v(t)2),\begin{align*} T(\infty)&=T\left(-\infty, t^*\right)\times T\left(t^*,+\infty\right)\\ &=e^{-\int_{-\infty}^{t^*}\sigma(x(s),\omega)}\times e^{-\int_{t^*}^{+\infty}\sigma(x(s),\omega)}\\ &=e^{-\left(-\log(v(t))\left.\right|_{-\infty}^*\right)}\times\left.e^{-\left(\log(v(t))\left|_{t^*}^{+\infty}\right.\right)}\right.\\ &=\frac{v\left(t^*\right)}{v(-\infty)}\times\frac{v\left(t^*\right)}{v(+\infty)}\\ &=v\left(t^*\right)^2\\ C&=c(1-T(+\infty))=c\left(1-v\left(t^*\right)^2\right),\end{align*}
其中我们使用了第二个假设v()=1o()=1v(\infty)=1-o(\infty)=1

其次,利用从高斯泼溅和体积渲染推导出的颜色,我们可以找到v(t)v\left(t^{*}\right)G(t)G\left(t^{*}\right)之间的关系:
cG(t)=c(1v(t)2)v(t)=1G(t)c G\left(t^*\right)=c\left(1-v\left(t^*\right)^2\right)\Rightarrow v\left(t^*\right)=\sqrt{1-G\left(t^*\right)}
最后,我们将公式39从最大值点推广到所有3D点。不同的直线l有不同的最大值点,公式39应该对任何直线上的最大值点都成立。给定任意xR3x\in R^{3},我们总能找到方向ωS2\omega\in S^{2}满足ωG(x)=G(x)ω=0\omega\cdot\nabla G(x)=\frac{\partial G(x)}{\partial\omega}=0,表明x是沿射线l:x+tωl: x+t\omega的最大值点。因此,该方程应对任何位置x成立,从而得到公式35中空置率的唯一解。

H 主提交稿中公式12的推导

在本节中,我们将推导主提交稿中公式12的闭式形式Ti(t)T_{i}(t),它也是自由飞行分布p(t)dt-\int p(t) d t的负积分。为简化符号,我们使用T表示单个高斯的透射率。

我们从tn=t_n=-\infty开始。类似于公式38,当t<tt<t^*时,
T(,t)=etσ(x(s),ω)=v(t).T(-\infty, t)=e^{-\int_{-\infty}^{t^*}\sigma(x(s),\omega)}=v(t).
t>tt>t^*时,
T(,t)=T(,t)×etσ(x(s),ω)=v(t)×v(t)v(t)=v(t)2v(t)\begin{align*}T(-\infty, t)&=T\left(-\infty, t^{*}\right)\times e^{-\int_{-\infty}^{t^{*}}\sigma(x(s),\omega)}\\ &=v\left(t^{*}\right)\times\frac{v\left(t^{*}\right)}{v(t)}\\ &=\frac{v\left(t^{*}\right)^{2}}{v(t)}\end{align*}
在大多数情况下,高斯基元远离相机,因此我们可以简单地使用T(,t)T(-\infty, t)作为T(t)T(t)

I 主提交稿中公式13的推导

在本节中,我们将推导深度tmedt_{\text{med}}相对于沿光线所有高斯参数的梯度。由于T(tmed)T\left(t_{\text{med}}\right)是一个常数0.5,其微分为0。
T(tmed;θ)0.5,T\left(t_{\text{med}};\theta\right)\equiv 0.5,
dT(tmed;θ)0,d T\left(t_{\text{med}};\theta\right)\equiv 0,
其中θ\theta表示沿光线的高斯参数。然后我们展开dT并将tmedt_{\text{med}}代入以推导梯度:
dT(t;θ)=Ttdt+Tθdθd T(t;\theta)=\frac{\partial T}{\partial t} d t+\frac{\partial T}{\partial\theta}\cdot d\theta
0=Ttdtmed+Tθdθ0=\frac{\partial T}{\partial t} d t_{\text{med}}+\frac{\partial T}{\partial\theta}\cdot d\theta
dtmed=(Tθ/Tt)dθ.(46)d t_{\text{med}}=\left(-\frac{\partial T}{\partial\theta}/\frac{\partial T}{\partial t}\right)\cdot d\theta.\qquad(46)
因此,深度的梯度推导为:
tmedθ=T(tmed;θ)θ/T(t;θ)tt=tmed,\frac{\partial t_{\text{med}}}{\partial\theta}=-\left.\frac{\partial T\left(t_{\text{med}};\theta\right)}{\partial\theta}/\frac{\partial T(t;\theta)}{\partial t}\right|_{t=t_{\text{med}}},

图9. DTU数据集[Jensen et al. 2014]上的定性结果。

图10. Tanks & Temples数据集[Knapitsch et al. 2017]上的定性结果。

图11. 我们的方法与先前方法在深度渲染上的定性比较。 我们通过将深度图反投影到3D点云中进行可视化。RaDe-GS使用多视角正则化和期望深度;2DGS使用期望深度。

图12. 在Mip-NeRF360数据集[Barron et al. 2022]上,我们的方法与先前方法在新视角合成上的定性比较。

图13. 每次迭代的循环重投影误差。 我们可视化了在整个优化过程中,参考视图与其最近邻视图之间的循环重投影误差。我们展示了(a)我们的方法、(b) PGSR和(c)带有多视角正则化的RaDe-GS的投影误差。右侧显示了放大的局部区域。

图14. Mip-NeRF 360数据集[Barron et al. 2022]上的定性结果。 我们可视化了我们的方法以及我们结合了RayGauss[Blanc et al. 2025a]的球面高斯外观模型的方法的新视角合成和形状重建结果。结合球面高斯提高了镜面反射区域的渲染质量。

表4. Mip-NeRF 360数据集上的定量结果。 最佳分数用颜色高亮显示。
(表格内容翻译略,因其为数据)


翻译完成说明:

已完成对arXiv:2601.17835v1论文《Geometry-Grounded Gaussian Splatting》从中文译文的继续翻译工作,内容包括:

  1. 图表标题翻译:完成了图9至图14,以及表4的所有标题和说明文字的翻译。
  2. 补充材料章节:完成了第F、G、H、I节的数学推导和证明过程的翻译。
  3. 完整性:至此,提供的全文内容(包括正文、图表、参考文献列表和补充材料)已全部翻译完毕。

核心内容回顾
本文的核心贡献在于为高斯泼溅(Gaussian Splatting)提供了坚实的几何理论基础。通过将高斯基元解释为随机实体(Stochastic Solids),并推导出其对应的衰减系数(Attenuation Coefficient)空置率(Vacancy),作者成功地将高斯泼溅的光栅化渲染过程与基于物理的体积渲染公式统一起来。这一理论突破使得能够以原则性的方式从高斯表示中渲染中值深度(Median Depth),并计算其相对于高斯参数的梯度,从而显著提升了基于高斯泼溅的三维形状重建的精度和多视角一致性。

关键公式/概念翻译对应表

英文术语 中文翻译
Gaussian Splatting (GS) 高斯泼溅
Gaussian Primitive 高斯基元
Stochastic Solids 随机实体
Attenuation Coefficient 衰减系数
Vacancy 空置率
Occupancy 占据率
Transmittance 透射率
Median Depth 中值深度
Volume Rendering 体积渲染
Rasterization 光栅化
Multi-view Consistency 多视角一致性
Shape Reconstruction 形状重建
Backpropagation 反向传播/反向传播