在本文中,我们为视觉域提出了一个新的神经体系结构块,该区域称为区域和本地混合(MRL),其目的是有效,有效地混合提供的输入特征。我们将输入特征混合任务分叉为区域和本地规模的混合。为了实现有效的混合,我们利用自我注意力提供的域范围内的接收场,用于局部尺度混合的区域尺度混合和卷积内核。更具体地说,我们提出的方法将与定义区域内的本地特征相关联的区域特征,然后是局部规模的特征,由区域特征增强。实验表明,这种自我注意力和卷积的杂交带来了能力提高,概括(右感应偏见)和效率。在类似的网络设置下,MRL的表现优于其分类,对象检测和细分任务的同等。我们还表明,基于MRL的网络体系结构可实现H&E组织学数据集的最新性能。我们在Kumar,ConSEP和CPM-17数据集中获得了0.843、0.855和0.892的骰子,同时通过合并了MRL框架所提供的多功能性,通过合并诸如小组卷积之类的层来改善数据集特异性通用化。
translated by 谷歌翻译
开放式对象检测(OSOD)最近引起了广泛的关注。它是在正确检测/分类已知对象的同时检测未知对象。我们首先指出,最近的研究中考虑的OSOD方案,该方案考虑了类似于开放式识别(OSR)的无限种类的未知物体,这是一个基本问题。也就是说,我们无法确定要检测到的内容,而对于这种无限的未知对象,这是检测任务所必需的。这个问题导致了对未知对象检测方法的性能的评估困难。然后,我们介绍了OSOD的新颖方案,该方案仅处理与已知对象共享超级类别的未知对象。它具有许多真实的应用程序,例如检测越来越多的细粒对象。这个新环境摆脱了上述问题和评估困难。此外,由于已知和未知对象之间的视觉相似性,它使检测到未知对象更加现实。我们通过实验结果表明,基于标准检测器类别预测的不确定性的简单方法优于先前设置中测试的当前最新OSOD方法。
translated by 谷歌翻译
图像字幕的当前最新方法采用基于区域的特征,因为它们提供了对象级信息,对于描述图像的内容至关重要;它们通常由对象检测器(例如更快的R-CNN)提取。但是,他们有几个问题,例如缺乏上下文信息,不准确检测的风险以及高计算成本。可以通过使用基于网格的功能来解决前两个。但是,如何提取和融合这两种功能是未知的。本文提出了一种仅使用变压器的神经结构,称为砂砾(基于网格和区域的图像字幕变压器),该构建物有效地利用了两个视觉特征来生成更好的字幕。粒度用基于DITR的方法代替了以前方法中使用的基于CNN的检测器,从而使其更快地计算。此外,它的整体设计仅由变压器组成,可以对模型进行端到端的训练。这种创新的设计和双重视觉功能的集成带来了重大的性能提高。几个图像字幕基准的实验结果表明,砂砾的推论准确性和速度优于先前的方法。
translated by 谷歌翻译
在本文中,我们考虑了Defocus图像去缩合中的问题。以前的经典方法遵循两步方法,即首次散焦映射估计,然后是非盲目脱毛。在深度学习时代,一些研究人员试图解决CNN的这两个问题。但是,代表模糊级别的Defocus图的简单串联导致了次优性能。考虑到Defocus Blur的空间变体特性和Defocus Map中指示的模糊级别,我们采用Defocus Map作为条件指导来调整输入模糊图像而不是简单串联的特征。然后,我们提出了一个基于Defocus图的空间调制的简单但有效的网络。为了实现这一目标,我们设计了一个由三个子网络组成的网络,包括DeFocus Map估计网络,该网络将DeFocus Map编码为条件特征的条件网络以及根据条件功能执行空间动态调制的DeFocus Deblurring网络。此外,空间动态调制基于仿射变换函数,以调整输入模糊图像的特征。实验结果表明,与常用的公共测试数据集中的现有最新方法相比,我们的方法可以实现更好的定量和定性评估性能。
translated by 谷歌翻译
从一组多曝光图像中重建无精神的高动态范围(HDR)图像是一项具有挑战性的任务,尤其是在大型对象运动和闭塞的情况下,使用现有方法导致可见的伪影。为了解决这个问题,我们提出了一个深层网络,该网络试图学习以正规损失为指导的多尺度特征流。它首先提取多尺度功能,然后对非参考图像的特征对齐。对齐后,我们使用残留的通道注意块将不同图像的特征合并。广泛的定性和定量比较表明,我们的方法可实现最新的性能,并在颜色伪像和几何变形大大减少的情况下产生出色的结果。
translated by 谷歌翻译
无监督的域适应性(UDA)仅使用未标记的数据适应一个在一个域上训练的模型。已经进行了许多研究,特别是由于其高注释成本而用于语义分割。现有研究坚持这样的基本假设,即新领域没有标记的样品。但是,这个假设有几个问题。首先,考虑到ML的标准实践,可以在部署前确认该模型的性能,这是非常不现实的。确认需要标记的数据。其次,任何UDA方法都将具有一些超参数,需要一定数量的标记数据。为了纠正现实的错误对准,我们从以数据为中心的角度重新考虑UDA。具体而言,我们从假设我们确实可以访问最低标记数据级别的假设。然后,我们询问需要多少个标记样品来找到现有UDA方法令人满意的超参数。如果我们使用相同的数据来训练模型,例如填充,它的工作原理如何?我们进行实验,以流行的情况为{GTA5,Synthia} $ \ rightarrow $ CityScapes。我们的发现如下:i)对于某些UDA方法,只有几个标记的样品(即图像),例如五个,可以找到良好的超参数,例如五个,但这不适用于其他样品,ii)较高的芬特(ii)均超过了大多数的芬特。现有的UDA方法只有十个标记的图像。
translated by 谷歌翻译