单眼深度估计是计算机视觉社区的重要任务。尽管巨大的成功方法取得了出色的结果,但其中大多数在计算上都是昂贵的,并且不适用于实时推论。在本文中,我们旨在解决单眼深度估计的更实际的应用,该解决方案不仅应考虑精度,而且还应考虑移动设备上的推论时间。为此,我们首先开发了一个基于端到端学习的模型,其重量大小(1.4MB)和短的推理时间(Raspberry Pi 4上的27fps)。然后,我们提出了一种简单而有效的数据增强策略,称为R2 CROP,以提高模型性能。此外,我们观察到,只有一个单一损失术语训练的简单轻巧模型将遭受性能瓶颈的影响。为了减轻此问题,我们采用多个损失条款,在培训阶段提供足够的限制。此外,采用简单的动态重量重量策略,我们可以避免耗时的超参数选择损失项。最后,我们采用结构感知的蒸馏以进一步提高模型性能。值得注意的是,我们的解决方案在MAI&AIM2022单眼估计挑战中排名第二,Si-RMSE为0.311,RMSE为3.79,推理时间为37 $ ms $,在Raspberry Pi上进行了测试4.值得注意的是,我们提供了,我们提供了。挑战最快的解决方案。代码和模型将以\ url {https://github.com/zhyever/litedepth}发布。
translated by 谷歌翻译
深度神经网络的成功在很大程度上取决于大量高质量注释的数据的可用性,但是这些数据很难或昂贵。由此产生的标签可能是类别不平衡,嘈杂或人类偏见。从不完美注释的数据集中学习无偏分类模型是一项挑战,我们通常会遭受过度拟合或不足的折磨。在这项工作中,我们彻底研究了流行的软马克斯损失和基于保证金的损失,并提供了一种可行的方法来加强通过最大化最小样本余量来限制的概括误差。我们为此目的进一步得出了最佳条件,该条件指示了类原型应锚定的方式。通过理论分析的激励,我们提出了一种简单但有效的方法,即原型锚定学习(PAL),可以轻松地将其纳入各种基于学习的分类方案中以处理不完美的注释。我们通过对合成和现实世界数据集进行广泛的实验来验证PAL对班级不平衡学习和降低噪声学习的有效性。
translated by 谷歌翻译
基于深度学习的分类中特征表示的主要挑战之一是设计表现出强大歧视力的适当损失功能。经典的SoftMax损失并不能明确鼓励对特征的歧视性学习。研究的一个流行方向是将边缘纳入良好的损失中,以实施额外的课内紧凑性和阶层间的可分离性,但是,这是通过启发式手段而不是严格的数学原则来开发的。在这项工作中,我们试图通过将原则优化目标提出为最大的利润率来解决这一限制。具体而言,我们首先将类别的边缘定义为级别间的可分离性的度量,而样品边缘是级别的紧凑性的度量。因此,为了鼓励特征的歧视性表示,损失函数应促进类和样品的最大可能边缘。此外,我们得出了广义的保证金软损失,以得出现有基于边缘的损失的一般结论。这个原则性的框架不仅提供了新的观点来理解和解释现有的基于保证金的损失,而且还提供了新的见解,可以指导新工具的设计,包括样本保证金正则化和最大的平衡案例的最大保证金损失,和零中心的正则化案例。实验结果证明了我们的策略对各种任务的有效性,包括视觉分类,分类不平衡,重新识别和面部验证。
translated by 谷歌翻译
通过新兴的大规模自动驾驶数据集和深度学习技术的快速发展,单眼3D对象检测(MONO3D)取得了巨大的改进。但是,由于严重的域间隙(例如,视野(FOV),像素大小和数据集中的对象大小)引起的,MONO3D检测器的泛化难度,导致对看不见的域的性能急剧下降。为了解决这些问题,我们将位置不变的变换和多尺度训练与像素大小的深度策略相结合,以构建有效的统一摄像机将军(CGP)。它充分考虑了不同摄像机捕获的图像的FOV和像素大小的差异。此外,当通过详尽的系统研究交叉描述时,我们进一步研究了定量指标的障碍。我们发现预测的大小偏见会导致巨大的失败。因此,我们提出了2d-3d几何符合对象缩放策略(GCO),以通过实例级级增强来弥合差距。我们称为DGMono3D的方法在所有评估的数据集上都能达到出色的性能,并且即使没有在目标域上使用数据,也超过了无监督域的适应方案。
translated by 谷歌翻译
我们提出了一种与变压器的端到端图像压缩和分析模型,针对基于云的图像分类应用程序。代替将现有的变换器的图像分类模型直接放置在图像编解码器之后,我们的目的是重新设计视觉变换器(VIV)模型,以从压缩特征执行图像分类,并促进来自变压器的长期信息的图像压缩。具体而言,我们首先用由卷积神经网络建模的轻量级图像编码器更换vit模型的涂抹杆(即图像分裂和嵌入)。由图像编码器产生的压缩特征被注入卷积电感偏压,并被馈送到变压器,用于绕过图像重建。同时,我们提出了一种特征聚合模块,使压缩特征熔断具有变压器的所选中间特征,并将聚合特征馈送到用于图像重建的解卷积神经网络。聚合特征可以从变压器的自我关注机构获得长期信息,并提高压缩性能。速率 - 失真准确度优化问题最终通过两步培训策略解决。实验结果证明了所提出的模型在图像压缩和分类任务中的有效性。
translated by 谷歌翻译
引导过滤器是计算机视觉和计算机图形中的基本工具,旨在将结构信息从引导图像传输到目标图像。大多数现有方法构造来自指导本身的滤波器内核,而不考虑指导和目标之间的相互依赖性。然而,由于两种图像中通常存在显着不同的边沿,只需将引导的所有结构信息传送到目标即将导致各种伪像。要应对这个问题,我们提出了一个名为Deep Enterponal引导图像过滤的有效框架,其过滤过程可以完全集成两个图像中包含的互补信息。具体地,我们提出了一种注意力内核学习模块,分别从引导和目标生成双组滤波器内核,然后通过在两个图像之间建模像素方向依赖性来自适应地组合它们。同时,我们提出了一种多尺度引导图像滤波模块,以粗略的方式通过所构造的内核逐渐产生滤波结果。相应地,引入了多尺度融合策略以重用中间导点在粗略的过程中。广泛的实验表明,所提出的框架在广泛的引导图像滤波应用中,诸如引导超分辨率,横向模态恢复,纹理拆除和语义分割的最先进的方法。
translated by 谷歌翻译
预训练已成为许多计算机视觉任务中的标准范式。但是,大多数方法通常都设计在RGB图像域上。由于二维图像平面和三维空间之间的差异,这种预先训练的模型无法感知空间信息,并用作3D相关任务的子最优解。为了弥合这种差距,我们的目标是学习可以描述三维空间的空间感知视觉表示,并且对这些任务更适合和有效。为了利用点云,在与图像相比提供空间信息时更有优越,我们提出了一个简单而有效的2D图像和3D点云无监督的预训练策略,称为Simipu。具体而言,我们开发了一种多模态对比学习框架,包括模态空间感知模块,用于从点云和模态特征交互模块中学习空间感知表示,以从点传输感知空间信息的能力云编码器分别到图像编码器。匹配算法和投影矩阵建立了用于对比损耗的正对。整个框架培训以无人监督的端到端时尚。据我们所知,这是第一项探索户外多模态数据集的对比学习训练策略的研究,其中包含配对的相机图像和LIDAR点云。 HTTPS://github.com/zhever/simipu提供代码和模型。
translated by 谷歌翻译
对比学习在各种高级任务中取得了显着的成功,但是为低级任务提出了较少的方法。采用VANILLA对比学习技术采用直接为低级视觉任务提出的VANILLA对比度学习技术,因为所获得的全局视觉表现不足以用于需要丰富的纹理和上下文信息的低级任务。在本文中,我们提出了一种用于单图像超分辨率(SISR)的新型对比学习框架。我们从两个视角调查基于对比的学习的SISR:样品施工和特征嵌入。现有方法提出了一些天真的样本施工方法(例如,考虑到作为负样本的低质量输入以及作为正样品的地面真理),并且它们采用了先前的模型(例如,预先训练的VGG模型)来获得该特征嵌入而不是探索任务友好的。为此,我们向SISR提出了一个实用的对比学习框架,涉及在频率空间中产生许多信息丰富的正负样本。我们不是利用其他预先训练的网络,我们设计了一种从鉴别器网络继承的简单但有效的嵌入网络,并且可以用主SR网络迭代优化,使其成为任务最通报。最后,我们对我们的方法进行了广泛的实验评估,与基准方法相比,在目前的最先进的SISR方法中显示出高达0.21 dB的显着增益。
translated by 谷歌翻译
为了解决高光谱图像超分辨率(HSISR)的不良问题,通常方法是使用高光谱图像(HSIS)的先前信息作为正则化术语来限制目标函数。使用手工制作前沿的基于模型的方法无法完全表征HSI的性质。基于学习的方法通常使用卷积神经网络(CNN)来学习HSI的隐式前导者。然而,CNN的学习能力是有限的,它仅考虑HSI的空间特性并忽略光谱特性,并且卷积对远程依赖性建模无效。还有很多改进的空间。在本文中,我们提出了一种新颖的HSISR方法,该方法使用变压器而不是CNN来学习HSI之前。具体地,我们首先使用近端梯度算法来解决HSISR模型,然后使用展开网络来模拟迭代解决方案过程。变压器的自我注意层使其具有空间全局互动的能力。此外,我们在变压器层后面添加3D-CNN,以更好地探索HSIS的时空相关性。两个广泛使用的HSI数据集和实际数据集的定量和视觉结果证明,与所有主流算法相比,所提出的方法实现了相当大的增益,包括最竞争力的传统方法和最近提出的基于深度学习的方法。
translated by 谷歌翻译
深度映射记录场景中的视点和对象之间的距离,这在许多真实应用程序中起着关键作用。然而,消费者级RGB-D相机捕获的深度图遭受了低空间分辨率。引导深度地图超分辨率(DSR)是解决此问题的流行方法,该方法试图从输入的低分辨率(LR)深度及其耦合的HR RGB图像中恢复高分辨率(HR)深度映射和作为指引。引导DSR最具挑战性的问题是如何正确选择一致的结构并传播它们,并正确处理不一致的结构。在本文中,我们提出了一种用于引导DSR的新型关注的分层多模态融合(AHMF)网络。具体地,为了有效地提取和组合来自LR深度和HR引导的相关信息,我们提出了一种基于多模态注意力的融合(MMAF)策略,包括分层卷积层,包括特征增强块,以选择有价值的功能和特征重新校准块来统一不同外观特征的方式的相似性度量。此外,我们提出了一个双向分层特征协作(BHFC)模块,以完全利用多尺度特征之间的低级空间信息和高级结构信息。实验结果表明,在重建精度,运行速度和记忆效率方面,我们的方法优于最先进的方法。
translated by 谷歌翻译