Domain adaptive detection aims to improve the generalization of detectors on target domain. To reduce discrepancy in feature distributions between two domains, recent approaches achieve domain adaption through feature alignment in different granularities via adversarial learning. However, they neglect the relationship between multiple granularities and different features in alignment, degrading detection. Addressing this, we introduce a unified multi-granularity alignment (MGA)-based detection framework for domain-invariant feature learning. The key is to encode the dependencies across different granularities including pixel-, instance-, and category-levels simultaneously to align two domains. Specifically, based on pixel-level features, we first develop an omni-scale gated fusion (OSGF) module to aggregate discriminative representations of instances with scale-aware convolutions, leading to robust multi-scale detection. Besides, we introduce multi-granularity discriminators to identify where, either source or target domains, different granularities of samples come from. Note that, MGA not only leverages instance discriminability in different categories but also exploits category consistency between two domains for detection. Furthermore, we present an adaptive exponential moving average (AEMA) strategy that explores model assessments for model update to improve pseudo labels and alleviate local misalignment problem, boosting detection robustness. Extensive experiments on multiple domain adaption scenarios validate the superiority of MGA over other approaches on FCOS and Faster R-CNN detectors. Code will be released at https://github.com/tiankongzhang/MGA.
translated by 谷歌翻译
Active域适应(ADA)查询所选目标样本的标签,以帮助将模型从相关的源域调整为目标域。由于其有希望的表现,标签成本最少,因此最近引起了人们越来越多的关注。然而,现有的ADA方法尚未完全利用查询数据的局部环境,这对ADA很重要,尤其是当域间隙较大时。在本文中,我们提出了一个局部环境感知的活动域适应性(LADA)的新框架,该框架由两个关键模块组成。本地上下文感知的活动选择(LAS)模块选择其类概率预测与邻居不一致的目标样本。局部上下文感知模型适应(LMA)模块完善了具有查询样本及其扩展的邻居的模型,并由上下文保留损失正规化。广泛的实验表明,与现有的主动选择策略相比,LAS选择了更多的信息样本。此外,配备了LMA,整个LADA方法的表现优于各种基准测试的最先进的ADA解决方案。代码可在https://github.com/tsun/lada上找到。
translated by 谷歌翻译
增强对未标记目标数据的模型预测置信度是无监督域适应(UDA)的重要目标。在本文中,我们探讨了关于倒数第二个线性分类层的输入特征的对抗性训练。我们表明,这种策略比以前的作品所使用的对对抗性图像或中间特征的对抗训练更有效,并且与提高预测置信度的目的更加相关。此外,通过在域适应中通常使用激活归一化以减少域间隙,我们得出了两个变体,并系统地分析了归一化对对抗性训练的影响。这在理论上和通过对实际适应任务的经验分析都进行了说明。在标准设置和无源DATA设置下,对流行的UDA基准测试进行了广泛的实验。结果证明了我们的方法可以在以前的艺术中取得最佳分数。
translated by 谷歌翻译
特洛伊木马攻击对AI系统构成了严重威胁。有关变压器模型的最新著作获得了爆炸性的流行,并且自我展示是无可争议的。这提出了一个核心问题:我们可以通过伯特和VIT中的注意力机制揭示特洛伊木马吗?在本文中,我们调查了特洛伊木马AIS中的注意力劫持模式,当存在特定的触发器时,触发令牌``绑架''的注意力重量。我们观察到来自自然语言处理(NLP)和计算机视觉(CV)域的Trojan变形金刚中劫持模式的一致性劫持模式。这种有趣的财产有助于我们了解伯特和VIT中的特洛伊木马机制。我们还提出了一个关注的特洛伊木马检测器(AHTD),以将特洛伊木马与干净的AI区分开。
translated by 谷歌翻译
对比性语言图像预测在学习网络尺度数据的视觉文本联合表示方面取得了巨大的成功,这表明了各种图像任务的显着“零射”概括能力。但是,如何有效地将这种新的语言图像预处理方法扩展到视频域仍然是一个开放的问题。在这项工作中,我们提出了一种简单而有效的方法,该方法将预验证的语言图像模型直接适应视频识别,而不是从头开始预处理新模型。更具体地说,为了捕获沿时间维度框架的远距离依赖性,我们提出了一种跨框架注意机制,该机制明确地跨帧交换信息。这样的模块是轻量级的,可以无缝地插入验证的语言图像模型中。此外,我们提出了一个特定于视频的提示方案,该方案利用视频内容信息生成歧视性文本提示。广泛的实验表明,我们的方法是有效的,可以推广到不同的视频识别方案。特别是,在完全监督的设置下,我们的方法在Kinectics-400上获得了最高1的精度为87.1%,而与SWIN-L和Vivit-H相比,使用量少12倍。在零拍摄的实验中,我们的方法超过了当前的最新方法 +7.6%和 +14.9%,而在两个流行协议下,TOP-1的准确性。在少数拍摄的情况下,当标记的数据非常有限时,我们的方法优于先前的最佳方法 +32.1%和 +23.1%。代码和型号可在https://aka.ms/x-clip上找到
translated by 谷歌翻译
目标域中的标签放弃使无监督的域适应性(UDA)成为许多现实世界应用中的吸引力技术,尽管它也带来了巨大的挑战,因为没有标记目标数据,模型适应变得更加困难。在本文中,我们通过从目标领域的先验知识中寻求赔偿来解决这个问题,这在实践中通常(部分)可用于人类专业知识。这导致了一个新颖而实用的环境,除了训练数据外,还可以提供有关目标类别分布的一些先验知识。我们将该设置称为知识引导的无监督域适应性(KUDA)。特别是,我们考虑了有关目标域中类别分布的两种特定类型的先验知识:一个描述单个类概率的下层和上限的Unary Bound,以及描述了两个类概率之间关系的二进制关系。我们提出了一个使用此类先验知识来完善模型生成的伪标签的通用整流模块。该模块被配制为从先验知识和光滑的正常化程序中得出的零一编程问题。它可以很容易地插入基于自我训练的UDA方法中,我们将其与两种最先进的方法结合使用,即射击和用餐。四个基准测试的经验结果证实,整流模块显然改善了伪标签的质量,这反过来又受益于自我训练阶段。在先验知识的指导下,两种方法的性能都大大提高。我们希望我们的工作能够激发进一步的调查,以整合UDA的先验知识。代码可在https://github.com/tsun/kuda上找到。
translated by 谷歌翻译
在手术视频中自动识别外科手术阶段是手术工作流程分析中的一项基本任务。在本报告中,我们提出了一种基于变压器的方法,该方法利用了2阶段推理管道的校准置信度得分,该方法根据校准的置信度水平动态切换基线模型和单独训练的过渡模型。我们的方法的表现优于Cholec80数据集上的基线模型,并且可以应用于各种动作分割方法。
translated by 谷歌翻译
大多数以前的基于学习的图形匹配算法通过丢弃一个或多个匹配约束并采用放宽的分配求解器来获取次优关卡的\ Textit {二次分配问题}(QAP)。这种放松可能实际上削弱了原始的图形匹配问题,反过来伤害了匹配的性能。在本文中,我们提出了一种基于深度学习的图形匹配框架,其适用于原始QAP而不会影响匹配约束。特别地,我们设计一个亲和分分配预测网络,共同学习一对亲和力并估计节点分配,然后我们开发由概率亲和力的可分辨率的求解器,其灵感来自对成对亲和力的概率视角。旨在获得更好的匹配结果,概率求解器以迭代方式精制估计的分配,以施加离散和一对一的匹配约束。所提出的方法是在三个普遍测试的基准(Pascal VOC,Willow Object和Spair-71K)上进行评估,并且在所有基准上表现出所有先前的最先进。
translated by 谷歌翻译
变压器最近展示了改进视觉跟踪算法的明显潜力。尽管如此,基于变压器的跟踪器主要使用变压器熔断并增强由卷积神经网络(CNNS)产生的功能。相比之下,在本文中,我们提出了一个完全基于注意力的变压器跟踪算法,Swin-Cranstormer Tracker(SwintRack)。 SwintRack使用变压器进行特征提取和特征融合,允许目标对象和搜索区域之间的完全交互进行跟踪。为了进一步提高性能,我们调查了全面的不同策略,用于特征融合,位置编码和培训损失。所有这些努力都使SwintRack成为一个简单但坚实的基线。在我们的彻底实验中,SwintRack在leasot上设置了一个新的记录,在4.6 \%的情况下超过4.6 \%,同时仍然以45 fps运行。此外,它达到了最先进的表演,0.483 Suc,0.832 Suc和0.694 Ao,其他具有挑战性的leasot _ {ext} $,trackingnet和got-10k。我们的实施和培训型号可在HTTPS://github.com/litinglin/swintrack获得。
translated by 谷歌翻译
在计算机视觉社区中,从自然场景图像(NSI-SOD)的突出对象检测中取得了巨大进展;相比之下,光学遥感图像(RSI-SOD)中的突出物体检测仍然是一个具有挑战性的新兴主题。光学RSI的独特特性,如尺度,照明和成像方向,在NSI-SOD和RSI-SOD之间带来显着差异。在本文中,我们提出了一种新的多内容互补网络(MCCNet)来探讨RSI-SOD的多个内容的互补性。具体地,MCCNet基于常规编码器解码器架构,并包含一个名为多内容互补模块(MCCM)的新型密钥组件,其桥接编码器和解码器。在MCCM中,我们考虑多种类型的功能对RSI-SOD至关重要的功能,包括前景特征,边缘功能,后台功能和全局图像级别功能,并利用它们之间的内容互补性来突出显示RSI中各种刻度的突出区域通过注意机制的特点。此外,我们全面引入训练阶段的像素级,地图级和公制感知损失。在两个流行的数据集上进行广泛的实验表明,所提出的MCCNet优于23个最先进的方法,包括NSI-SOD和RSI-SOD方法。我们方法的代码和结果可在https://github.com/mathlee/mccnet上获得。
translated by 谷歌翻译