智能论文笔记

VPFusion: Joint 3D Volume and Pixel-Aligned Feature Fusion for Single and Multi-view 3D Reconstruction

Jisan Mahmud , Jan-Michael Frahm

分类：计算机视觉

2022-03-14

我们引入了统一的单一和多视图神经隐式3D重建框架VPFusion。 VPFusion使用-3D功能卷获得高质量的重建，以捕获3D结构感知的上下文和像素对齐的图像特征，以捕获精细的本地细节。现有方法使用RNN，功能池或注意力在每个视图中独立计算以进行多视图融合。 RNN遭受长期记忆丧失和置换差异的困扰，而特征池或独立计算的注意力会导致每种视图中的表示形式在最后的合并步骤之前都不知道其他视图。相比之下，我们通过建立基于变压器的成对视图关联来显示改进的多视图融合。特别是，我们提出了一种新颖的交错3D推理和成对视图的关联结构，以跨不同视图的特征体积融合。使用此结构感知和多视图感知功能量，与现有方法相比，我们显示出改进的3D重建性能。 VPFusion还通过合并与像素一致的本地图像功能来进一步提高重建质量，以捕获细节。我们验证了VPFusion在Shapenet和ModelNet数据集上的有效性，在该数据集中，我们在该数据集中胜过或执行最先进的单个和多视图3D形状重建方法。

translated by 谷歌翻译

从单目视频重建3D网格的关键元素之一是生成每个帧的深度图。然而，在结肠镜检查视频重建的应用中，产生良好质量的深度估计是具有挑战性的。神经网络可以容易地被光度分散注意力欺骗，或者不能捕获结肠表面的复杂形状，预测导致破碎网格的缺陷形状。旨在从根本上提高结肠镜检查3D重建的深度估计质量，在这项工作中，我们设计了一系列培训损失来应对结肠镜检查数据的特殊挑战。为了更好的培训，使用深度和表面正常信息开发了一组几何一致性目标。而且，经典的光度损耗延伸，具有特征匹配以补偿照明噪声。随着足够强大的培训损失，我们的自我监督框架命名为COLLE，与利用先前的深度知识相比，我们的自我监督框架能够产生更好的结肠镜检查数据地图。用于重建，我们的网络能够实时重建高质量的结肠网格，而无需任何后处理，使其成为第一个在临床上适用。

translated by 谷歌翻译