在单光子激光雷达,光子效率成像捕捉所述3D场景的由每个像素只几个检测到的信号的光子结构。此任务的现有深度学习模型被训练在模拟数据集,当应用到现实的情景,这对域转移的挑战。在本文中,我们提出了一种时空以来网络(STIN)用于光子效率成像,这是能够通过充分利用空间和时间信息精确地预测从稀疏和高噪声光子计数直方图的深度。然后,域对抗性适应框架,包括域对抗性神经网络和对抗性判别域适应,被有效地应用于STIN缓解域移位问题对于实际应用。从NYU〜v2和所述数据集Middlebury的所产生的模拟数据综合实验证明STIN优于国家的最先进的模型在低信号 - 背景比为2:10至2:100。此外,在由该单光子成像原型显示,相比与域对抗性训练STIN取得了较好的推广性能捕捉到的真实世界的数据集实验结果的国家的最艺术以及由模拟数据训练基线STIN 。
translated by 谷歌翻译
间接飞行时间(ITOF)相机是一个有希望的深度传感技术。然而,它们容易出现由多路径干扰(MPI)和低信噪比(SNR)引起的错误。传统方法,在去噪后,通过估计编码深度的瞬态图像来减轻MPI。最近,在不使用中间瞬态表示的情况下,共同去噪和减轻MPI的数据驱动方法已经成为最先进的。在本文中,我们建议重新审视瞬态代表。使用数据驱动的Priors,我们将其插入/推断ITOF频率并使用它们来估计瞬态图像。给定直接TOF(DTOF)传感器捕获瞬态图像,我们将我们的方法命名为ITOF2DTOF。瞬态表示是灵活的。它可以集成与基于规则的深度感测算法,对低SNR具有强大,并且可以处理实际上出现的模糊场景(例如,镜面MPI,光学串扰)。我们在真正深度传感方案中展示了先前方法上的ITOF2DTOF的好处。
translated by 谷歌翻译
在极低光线条件下捕获图像会对标准相机管道带来重大挑战。图像变得太黑了,太吵了,这使得传统的增强技术几乎不可能申请。最近,基于学习的方法已经为此任务显示了非常有希望的结果,因为它们具有更大的表现力能力来允许提高质量。这些研究中的激励,在本文中,我们的目标是利用爆破摄影来提高性能,并从极端暗的原始图像获得更加锐利和更准确的RGB图像。我们提出的框架的骨干是一种新颖的粗良好网络架构,逐步产生高质量的输出。粗略网络预测了低分辨率,去噪的原始图像,然后将其馈送到精细网络以恢复微尺的细节和逼真的纹理。为了进一步降低噪声水平并提高颜色精度,我们将该网络扩展到置换不变结构,使得它作为输入突发为低光图像,并在特征级别地合并来自多个图像的信息。我们的实验表明,我们的方法通过生产更详细和相当更高的质量的图像来引起比最先进的方法更令人愉悦的结果。
translated by 谷歌翻译
引导过滤器是计算机视觉和计算机图形中的基本工具,旨在将结构信息从引导图像传输到目标图像。大多数现有方法构造来自指导本身的滤波器内核,而不考虑指导和目标之间的相互依赖性。然而,由于两种图像中通常存在显着不同的边沿,只需将引导的所有结构信息传送到目标即将导致各种伪像。要应对这个问题,我们提出了一个名为Deep Enterponal引导图像过滤的有效框架,其过滤过程可以完全集成两个图像中包含的互补信息。具体地,我们提出了一种注意力内核学习模块,分别从引导和目标生成双组滤波器内核,然后通过在两个图像之间建模像素方向依赖性来自适应地组合它们。同时,我们提出了一种多尺度引导图像滤波模块,以粗略的方式通过所构造的内核逐渐产生滤波结果。相应地,引入了多尺度融合策略以重用中间导点在粗略的过程中。广泛的实验表明,所提出的框架在广泛的引导图像滤波应用中,诸如引导超分辨率,横向模态恢复,纹理拆除和语义分割的最先进的方法。
translated by 谷歌翻译
在本文中,我们的目标是在各种照明条件下解决复杂场景中一致的深度预测问题。现有的基于RGB-D传感器或虚拟渲染的室内数据集具有两个关键限制 - 稀疏深度映射(NYU深度V2)和非现实照明(Sun CG,SceneNet RGB-D)。我们建议使用Internet 3D室内场景并手动调整其照明,以呈现照片逼真的RGB照片及其相应的深度和BRDF地图,获取名为Vari DataSet的新室内深度数据集。通过在编码特征上应用深度可分离扩张的卷积来处理全局信息并减少参数,提出了一个名为DCA的简单卷积块。我们对这些扩张的特征进行横向关注,以保留不同照明下深度预测的一致性。通过将其与Vari数据集上的当前最先进的方法进行比较来评估我们的方法,并且在我们的实验中观察到显着改善。我们还开展了融合研究,Finetune我们的NYU深度V2模型,并评估了真实数据,以进一步验证我们的DCA块的有效性。代码,预先训练的权重和vari数据集是开放的。
translated by 谷歌翻译
深度映射记录场景中的视点和对象之间的距离,这在许多真实应用程序中起着关键作用。然而,消费者级RGB-D相机捕获的深度图遭受了低空间分辨率。引导深度地图超分辨率(DSR)是解决此问题的流行方法,该方法试图从输入的低分辨率(LR)深度及其耦合的HR RGB图像中恢复高分辨率(HR)深度映射和作为指引。引导DSR最具挑战性的问题是如何正确选择一致的结构并传播它们,并正确处理不一致的结构。在本文中,我们提出了一种用于引导DSR的新型关注的分层多模态融合(AHMF)网络。具体地,为了有效地提取和组合来自LR深度和HR引导的相关信息,我们提出了一种基于多模态注意力的融合(MMAF)策略,包括分层卷积层,包括特征增强块,以选择有价值的功能和特征重新校准块来统一不同外观特征的方式的相似性度量。此外,我们提出了一个双向分层特征协作(BHFC)模块,以完全利用多尺度特征之间的低级空间信息和高级结构信息。实验结果表明,在重建精度,运行速度和记忆效率方面,我们的方法优于最先进的方法。
translated by 谷歌翻译
深度是自治车辆以感知障碍的重要信息。由于价格相对较低,单目一体相机的小尺寸,从单个RGB图像的深度估计引起了对研究界的兴趣。近年来,深神经网络(DNN)的应用已经显着提高了单眼深度估计(MDE)的准确性。最先进的方法通常设计在复杂和极其深的网络架构之上,需要更多的计算资源,而不使用高端GPU实时运行。虽然一些研究人员试图加速运行速度,但深度估计的准确性降低,因为压缩模型不代表图像。另外,现有方法使用的特征提取器的固有特性导致产生的特征图中的严重空间信息丢失,这也损害了小型图像的深度估计的精度。在本研究中,我们有动力设计一种新颖且有效的卷积神经网络(CNN),其连续地组装两个浅编码器解码器样式子网,以解决这些问题。特别是,我们强调MDE准确性和速度之间的权衡。已经在NYU深度V2,Kitti,Make3D和虚幻数据集上进行了广泛的实验。与拥有极其深层和复杂的架构的最先进的方法相比,所提出的网络不仅可以实现可比性的性能,而且在单个不那么强大的GPU上以更快的速度运行。
translated by 谷歌翻译
我们呈现ITEMVS,一种用于高分辨率多视图立体声的新数据驱动方法。我们提出了一种基于GRU的基于GRU的估计器,其在其隐藏状态下编码深度的像素明显概率分布。摄入多尺度匹配信息,我们的模型将这些分布物流在多个迭代和Infers深度和信心上。要提取深度图,我们以新颖的方式结合传统的分类和回归。我们验证了我们对DTU,坦克和寺庙和ETH3D的方法的效率和有效性。虽然成为内存和运行时最有效的方法,但我们的模型在DTU和坦克和寺庙的更好的泛化能力方面取得了竞争性能,以及Eth3D而不是最先进的方法。代码可在https://github.com/fangjinhuawang/Itermvs获得。
translated by 谷歌翻译
作为许多自主驾驶和机器人活动的基本组成部分,如自我运动估计,障碍避免和场景理解,单眼深度估计(MDE)引起了计算机视觉和机器人社区的极大关注。在过去的几十年中,已经开发了大量方法。然而,据我们所知,对MDE没有全面调查。本文旨在通过审查1970年至2021年之间发布的197个相关条款来弥补这一差距。特别是,我们为涵盖各种方法的MDE提供了全面的调查,介绍了流行的绩效评估指标并汇总公开的数据集。我们还总结了一些代表方法的可用开源实现,并比较了他们的表演。此外,我们在一些重要的机器人任务中审查了MDE的应用。最后,我们通过展示一些有希望的未来研究方向来结束本文。预计本调查有助于读者浏览该研究领域。
translated by 谷歌翻译
这些年来,展示技术已经发展。开发实用的HDR捕获,处理和显示解决方案以将3D技术提升到一个新的水平至关重要。多曝光立体声图像序列的深度估计是开发成本效益3D HDR视频内容的重要任务。在本文中,我们开发了一种新颖的深度体系结构,以进行多曝光立体声深度估计。拟议的建筑有两个新颖的组成部分。首先,对传统立体声深度估计中使用的立体声匹配技术进行了修改。对于我们体系结构的立体深度估计部分,部署了单一到stereo转移学习方法。拟议的配方规避了成本量构造的要求,该要求由基于重新编码的单码编码器CNN取代,具有不同的重量以进行功能融合。基于有效网络的块用于学习差异。其次,我们使用强大的视差特征融合方法组合了从不同暴露水平上从立体声图像获得的差异图。使用针对不同质量度量计算的重量图合并在不同暴露下获得的差异图。获得的最终预测差异图更强大,并保留保留深度不连续性的最佳功能。提出的CNN具有使用标准动态范围立体声数据或具有多曝光低动态范围立体序列的训练的灵活性。在性能方面,所提出的模型超过了最新的单眼和立体声深度估计方法,无论是定量还是质量地,在具有挑战性的场景流以及暴露的Middlebury立体声数据集上。该体系结构在复杂的自然场景中表现出色,证明了其对不同3D HDR应用的有用性。
translated by 谷歌翻译
多视图立体声(MVS)是精确三维重建的重要任务。最近的研究试图通过设计聚合的3D成本卷及其正则化来提高MV中匹配成本体积的性能。本文侧重于学习强大的特征提取网络,以增强匹配成本的性能,在其他步骤中没有重大计算。特别是,我们提出了一种动态刻度特征提取网络,即CDSFNET。它由多个新颖的卷积层组成,每个卷积层可以为由图像表面的法线曲率指导的每个像素选择适当的补丁比例。因此,CDFSNet可以估计最佳补丁尺度,以学习参考和源图像之间准确匹配计算的判别特征。通过将具有适当成本制定策略的强大提取功能组合,我们的MVS架构可以更精确地估计深度映射。广泛的实验表明,该方法在复杂的户外场景中优于其他最先进的方法。它显着提高了重建模型的完整性。结果,该方法可以在比其他MVS方法更快的运行时间和更低的内存中处理更高的分辨率输入。我们的源代码可用于URL {https:/github.com/truongkhang/cds-mvsnet}。
translated by 谷歌翻译
在部署非视线(NLOS)成像系统中,越来越兴趣,以恢复障碍物背后的物体。现有解决方案通常在扫描隐藏对象之前预先校准系统。在封堵器,对象和扫描模式的现场调整需要重新校准。我们提出了一种在线校准技术,直接将所获取的瞬态扫描到LOS和隐藏组件中的所获取的瞬态耦合。我们使用前者直接(RE)在场景/障碍配置,扫描区域和扫描模式的变化时校准系统,而后者通过空间,频率或基于学习的技术恢复后者。我们的技术避免使用辅助校准设备,例如镜子或棋盘,并支持实验室验证和现实世界部署。
translated by 谷歌翻译
卷积神经网络(CNNS)成功地进行了压缩图像感测。然而,由于局部性和重量共享的归纳偏差,卷积操作证明了建模远程依赖性的内在限制。变压器,最初作为序列到序列模型设计,在捕获由于基于自我关注的架构而捕获的全局背景中,即使它可以配备有限的本地化能力。本文提出了一种混合框架,一个混合框架,其集成了从CNN提供的借用的优点以及变压器提供的全局上下文,以获得增强的表示学习。所提出的方法是由自适应采样和恢复组成的端到端压缩图像感测方法。在采样模块中,通过学习的采样矩阵测量图像逐块。在重建阶段,将测量投射到双杆中。一个是用于通过卷积建模邻域关系的CNN杆,另一个是用于采用全球自我关注机制的变压器杆。双分支结构是并发,并且本地特征和全局表示在不同的分辨率下融合,以最大化功能的互补性。此外,我们探索一个渐进的战略和基于窗口的变压器块,以降低参数和计算复杂性。实验结果表明了基于专用变压器的架构进行压缩感测的有效性,与不同数据集的最先进方法相比,实现了卓越的性能。
translated by 谷歌翻译
具有已知相机参数的多视图立体声(MVS)基本上是有效深度范围内的1D搜索问题。最近的基于深度学习的MVS方法通常在深度范围内密集地样本深度假设,然后构造对深度预测的预测存储器消耗的3D成本卷。虽然粗细的抽样策略在一定程度上缓解了这个开销问题,但MVS的效率仍然是一个开放的挑战。在这项工作中,我们提出了一种用于高效MV的新方法,其显着降低了内存足迹,同时明显推进最先进的深度预测性能。考虑到效率和有效性,我们调查搜索策略可以合理地最佳地最佳。我们首先将MVS制定为二进制搜索问题,因此提出了用于MV的广义二进制搜索网络。具体地,在每个步骤中,深度范围被分成2个箱,两侧具有额外的1个误差容差箱。执行分类以确定哪个箱包含真实深度。我们还将三种机制分别设计为分别处理分类错误,处理超出范围的样本并降低培训记忆。新配方使我们的方法仅在每个步骤中示出非常少量的深度假设,这是高度记忆效率,并且还极大地促进了快速训练收敛。竞争力基准的实验表明,我们的方法达到了最先进的准确性,内存要少得多。特别是,我们的方法在DTU数据集中获得0.289的总分,并在所有基于学习的方法中排列在具有挑战性的坦克和寺庙高级数据集上的第一名。训练有素的型号和代码将在https://github.com/mizhenxing/gbi-net发布。
translated by 谷歌翻译
以知情方式监测和管理地球林是解决生物多样性损失和气候变化等挑战的重要要求。虽然森林评估的传统或空中运动提供了在区域一级分析的准确数据,但将其扩展到整个国家,以外的高度分辨率几乎不可能。在这项工作中,我们提出了一种贝叶斯深度学习方法,以10米的分辨率为全国范围的森林结构变量,使用自由可用的卫星图像作为输入。我们的方法将Sentinel-2光学图像和Sentinel-1合成孔径雷达图像共同变换为五种不同的森林结构变量的地图:95th高度百分位,平均高度,密度,基尼系数和分数盖。我们从挪威的41个机载激光扫描任务中培训和测试我们的模型,并证明它能够概括取消测试区域,从而达到11%和15%之间的归一化平均值误差,具体取决于变量。我们的工作也是第一个提出贝叶斯深度学习方法的工作,以预测具有良好校准的不确定性估计的森林结构变量。这些提高了模型的可信度及其适用于需要可靠的信心估计的下游任务,例如知情决策。我们提出了一组广泛的实验,以验证预测地图的准确性以及预测的不确定性的质量。为了展示可扩展性,我们为五个森林结构变量提供挪威地图。
translated by 谷歌翻译
作为一种引起巨大关注的新兴技术,通过分析继电器表面上的漫反射来重建隐藏物体的非视线(NLOS)成像,具有广泛的应用前景,在自主驾驶,医学成像和医学成像领域防御。尽管信噪比低(SNR)和高不良效率的挑战,但近年来,NLOS成像已迅速发展。大多数当前的NLOS成像技术使用传统的物理模型,通过主动或被动照明构建成像模型,并使用重建算法来恢复隐藏场景。此外,NLOS成像的深度学习算法最近也得到了很多关注。本文介绍了常规和深度学习的NLOS成像技术的全面概述。此外,我们还调查了新的拟议的NLOS场景,并讨论了现有技术的挑战和前景。这样的调查可以帮助读者概述不同类型的NLOS成像,从而加速了在角落周围看到的发展。
translated by 谷歌翻译
单眼深度估计和语义分割是场景理解的两个基本目标。由于任务交互的优点,许多作品研究了联合任务学习算法。但是,大多数现有方法都无法充分利用语义标签,忽略提供的上下文结构,并且仅使用它们来监督分段拆分的预测,这限制了两个任务的性能。在本文中,我们提出了一个网络注入了上下文信息(CI-Net)来解决问题。具体而言,我们在编码器中引入自我关注块以产生注意图。通过由语义标签创建的理想注意图的监督,网络嵌入了上下文信息,使得它可以更好地理解场景并利用相关特征来进行准确的预测。此外,构造了一个特征共享模块,以使任务特征深入融合,并且设计了一致性损耗,以使特征相互引导。我们在NYU-Deaft-V2和Sun-RGBD数据集上评估所提出的CI-Net。实验结果验证了我们所提出的CI-Net可以有效提高语义分割和深度估计的准确性。
translated by 谷歌翻译
在光子 - 稀缺情况下的成像引入了许多应用的挑战,因为捕获的图像具有低信噪比和较差的亮度。在本文中,我们通过模拟量子图像传感器(QIS)的成像来研究低光子计数条件下的原始图像恢复。我们开发了一个轻量级框架,由多级金字塔去噪网络(MPDNET)和亮度调整(LA)模块组成,以实现单独的去噪和亮度增强。我们框架的主要组成部分是多跳过的剩余块(MARB),其集成了多尺度特征融合和注意机制,以实现更好的特征表示。我们的MPDNET采用拉普拉斯金字塔的想法,以了解不同级别的小规模噪声图和大规模的高频细节,在多尺度输入图像上进行特征提取,以编码更丰富的上下文信息。我们的LA模块通过估计其照明来增强去噪图像的亮度,这可以更好地避免颜色变形。广泛的实验结果表明,通过抑制噪声并有效地恢复亮度和颜色,我们的图像恢复器可以在具有各种光子水平的具有各种光子水平的降解图像上实现优异的性能。
translated by 谷歌翻译
光谱超分辨率(SSR)是指从RGB对应物中恢复的高光谱图像(HSI)。由于SSR问题的一对多性,可以将单个RGB图像恢复到许多HSIS。解决这个暗示问题的关键是插入多源以前的信息,如自然RGB空间上下文的上下文,深度特征或固有的HSI统计事先等,以提高重建的置信度和保真度光谱。然而,大多数目前的方法只考虑设计定制的卷积神经网络(CNN)的一般和有限的前瞻,这导致无法有效地减轻不良程度。为解决有问题的问题,我们为SSR提出了一个新颖的全面的先前嵌入关系网络(HPRN)。基本上,核心框架由几个多剩余关系块(MRB)进行多种组装,其完全便于RGB信号之前的低频内容的传输和利用。创新性地,引入了RGB输入的语义之前,以识别类别属性,并且向前提出了语义驱动的空间关系模块(SSRM)以使用语义嵌入关系矩阵在聚类的类似特征之间执行特征聚合。此外,我们开发了一种基于变换器的通道关系模块(TCRM),其习惯使用标量作为先前深度特征中的频道方面关系的描述符,并用某些向量替换为变换器特征交互,支持表示更加歧视。为了保持高光谱频带之间的数学相关和光谱一致性,将二阶的先前约束(SOPC)结合到丢失功能中以引导HSI重建过程。
translated by 谷歌翻译
生成三维城市模型迅速对许多应用是至关重要的。单眼高度估计是最有效的,及时的方式来获得大型几何信息之一。但是,现有的工作主要集中在训练和测试模型中使用的数据集不偏不倚,不与现实世界的应用以及对齐。因此,我们提出了一个新的基准数据集,研究高度估计模型的可转移性在跨数据集的设置。为此,我们首先设计和构建跨数据集上的高度估计任务迁移学习了大规模的基准数据集。这个基准测试数据集包括一个新提出的大规模合成数据集,新集真实世界的数据集,并从不同的城市四个现有的数据集。接下来,两个新的实验方案,零次和几个次跨数据集传输,设计。对于一些次跨数据集的转移,我们增强了基于窗口的变压器与拟议规模变形卷积模块来处理严重的尺度变化问题。为了改善零射门跨数据集设置深模型的普遍性,基于最大规范化变压器网被设计成分离从绝对高度的相对高度的地图。实验结果表明在传统的和跨数据集传送设置两者所提出的方法的有效性。该数据集和代码是公开的,在https://thebenchmarkh.github.io/。
translated by 谷歌翻译