我们在本文中重新审视语义场景(SSC),是预测3D场景的语义和占用表示的有用任务。此任务的许多方法始终基于用于保存本地场景结构的体蛋白化场景表示。然而,由于存在可见空体素,当网络更深时,这些方法总是遭受重型计算冗余,从而限制完成质量。为了解决这种困境,我们提出了我们为此任务的新型点体素聚集网络。首先,我们通过去除这些可见的空体素来将Voxized场景传输到点云,并采用深点流,以有效地从场景中捕获语义信息。同时,仅包含两个3D卷积层的轻重体素流保留了体蛋白化场景的局部结构。此外,我们设计一个各向异性体素聚合运算符,将结构细节从体素流融合到点流中,并通过语义标签来增强点流中的上采样过程的语义感知传播模块。我们展示了我们的模型在两个基准上超越了最先进的余量,只有深度图像作为输入。
translated by 谷歌翻译