视频Panoptic semonation(VPS)旨在为每个像素分配类标签,唯一地分割和识别所有帧的所有对象实例。经典解决方案通常将VPS任务分解为多个子任务,并利用多个代理(例如框和掩码,中心和偏移)来表示对象。然而,这种鸿沟和征服策略需要在空间和时间域中进行复杂的后处理,并且易于来自代理任务的失败。在本文中,灵感来自以对象为中心的学习,它学习紧凑且强大的对象表示,我们呈现了Slot-VPS,这是此任务的第一个端到端框架。我们在视频中编码所有Panoptic实体,包括前景实例和后台语义,其中包含称为Panoptic插槽的统一表示。通过提出的视频Panoptic Retriever检索并将相干的时空对象的信息检索并编码到Panoptic插槽中,使其能够以统一的方式本地化,段,区分和关联对象。最后,输出Panoptic插槽可以直接转换为视频中Panoptic对象的类,掩码和对象ID。我们开展广泛的消融研究,并展示了我们对两个基准数据集,CityCAPE-VPS(\ Texit {Val}和测试集)和Viper(\ Texit {val}集)的有效性,实现了新的最先进的性能分别为63.7,63.3和56.2 VPQ。
translated by 谷歌翻译
Existing approaches for vision-and-language navigation (VLN) are mainly based on cross-modal reasoning over discrete views. However, this scheme may hamper an agent's spatial and numerical reasoning because of incomplete objects within a single view and duplicate observations across views. A potential solution is mapping discrete views into a unified birds's-eye view, which can aggregate partial and duplicate observations. Existing metric maps could achieve this goal, but they suffer from less expressive semantics (e.g. usually predefined labels) and limited map size, which weakens an agent's language grounding and long-term planning ability. Inspired by the robotics community, we introduce hybrid topo-metric maps into VLN, where a topological map is used for long-term planning and a metric map for short-term reasoning. Beyond mapping with more expressive deep features, we further design a pre-training framework via the hybrid map to learn language-informed map representations, which enhances cross-modal grounding and facilitates the final language-guided navigation goal. Extensive experiments demonstrate the effectiveness of the map-based route for VLN, and the proposed method sets the new state-of-the-art on three VLN benchmarks.
translated by 谷歌翻译
现有的二进制神经网络(BNN)主要在具有二进制功能的局部卷积上运作。但是,这种简单的位操作缺乏建模上下文依赖性的能力,这对于学习视觉模型中的歧视性深度表示至关重要。在这项工作中,我们通过介绍二进制神经模块的新设计来解决这个问题,这使BNN能够学习有效的上下文依赖性。首先,我们建议二进制多层感知器(MLP)块作为二进制卷积块的替代方案,以直接建模上下文依赖性。短距离和远程特征依赖性均由二进制MLP建模,其中前者提供局部电感偏置,后者在二元卷积中有限的接受场有限。其次,为了提高具有上下文依赖性的二进制模型的鲁棒性,我们计算上下文动态嵌入,以确定一般二进制卷积块中的二进化阈值。用我们的二进制MLP块和改进的二进制卷积,我们用明确的上下文依赖性建模构建了BNN,称为BCDNET。在标准Imagenet-1K分类基准上,BCDNET可实现72.3%的TOP-1准确性,并且优于领先的二进制方法的差距很大。尤其是,提出的BCDNET超过了最新的ReactNet-A,具有相似操作的2.9%TOP-1准确性。我们的代码可从https://github.com/sense-gvt/bcdn获得
translated by 谷歌翻译
随着自动假新闻检测技术的快速发展,事实提取和验证(发烧)吸引了更多的关注。该任务旨在从数百万个开放域Wikipedia文件中提取最相关的事实证据,然后验证相应索赔的可信度。尽管已经为该任务提出了几种强大的模型,但他们取得了长足的进步,但我们认为他们无法利用多视图上下文信息,因此无法获得更好的性能。在本文中,我们建议整合多视图上下文信息(IMCI)进行事实提取和验证。对于每个证据句子,我们定义两种上下文,即文档内部上下文和文档间的上下文}。文档内上下文由文档标题和同一文档中的所有其他句子组成。文档间的上下文包括所有其他证据,这些证据可能来自不同的文档。然后,我们集成了多视图上下文信息,以编码证据句子以处理任务。我们对发烧1.0共享任务的实验结果表明,我们的IMCI框架在事实提取和验证方面取得了长足的进步,并以72.97%的胜利发烧得分达到了最先进的表现,在线上获得了75.84%的标签准确度盲测。我们还进行消融研究以检测多视图上下文信息的影响。我们的代码将在https://github.com/phoenixsecularbird/imci上发布。
translated by 谷歌翻译
遥感图像的更改检测(CD)是通过分析两个次时图像之间的差异来检测变化区域。它广泛用于土地资源规划,自然危害监测和其他领域。在我们的研究中,我们提出了一个新型的暹罗神经网络,用于变化检测任务,即双UNET。与以前的单独编码BITEMAL图像相反,我们设计了一个编码器差分注意模块,以关注像素的空间差异关系。为了改善网络的概括,它计算了咬合图像之间的任何像素之间的注意力权重,并使用它们来引起更具区别的特征。为了改善特征融合并避免梯度消失,在解码阶段提出了多尺度加权方差图融合策略。实验表明,所提出的方法始终优于流行的季节性变化检测数据集最先进的方法。
translated by 谷歌翻译
主流对象检测器通常由两个子任务组成,包括由两个并行头部实现的分类和回归任务。这种经典的设计范式不可避免地会导致分类得分和本地化质量(IOU)之间的空间分布不一致。因此,本文从知识蒸馏的角度来减轻这种错位。首先,我们观察到,与轻量级学生相比,庞大的老师获得的和谐预测比例更高。基于这个有趣的观察,设计了一种新颖的和谐评分(HS),以估计分类和回归质量的一致性。 HS对两个子任务之间的关系进行建模,并被视为先验知识,以促进学生的和谐预测。其次,这种空间未对准将在提炼特征时会导致选择性区域的选择。为了减轻这个问题,通过灵活平衡分类和回归任务的贡献,提出了一种新颖的任务功能蒸馏(TFD)。最终,HD和TFD构成了所提出的方法,称为任务均衡蒸馏(TBD)。广泛的实验证明了该方法的巨大潜力和概括。具体而言,当配备TBD时,带有Resnet-50的视网膜在可可基准下获得41.0地图,表现优于最近的FGD和FRS。
translated by 谷歌翻译
分散注意力的驾驶每年会导致数千人死亡,以及如何应用深度学习的方法来防止这些悲剧已成为一个关键问题。在第六AI城市挑战赛的Track3中,研究人员提供了一个具有密集动作注释的高质量视频数据集。由于数据量表和不清楚的动作边界,数据集提出了一个独特的挑战,可以精确地本地化所有不同的动作并对其类别进行分类。在本文中,我们充分利用了视频之间的多视图同步,并进行了强大的多视图实践(MVP)来驱动动作本地化。为了避免过度拟合,我们将Slowfast用动力学-700预训练作为特征提取器进行微调。然后,不同视图的功能将传递给ActionFormer,以生成候选行动建议。为了精确地本地化所有动作,我们设计了精心设计的后处理,包括模型投票,阈值过滤和删除重复。结果表明,我们的MVP对于驱动动作定位是可靠的,在Track3测试集中达到28.49%的F1分数。
translated by 谷歌翻译
本报告介绍了CVPR 2022中RXR-HABITAT竞赛获胜的方法。该竞赛解决了连续环境中的视觉和语言导航问题(VLN-CE),该问题要求代理商遵循逐步遵循步骤自然语言指示达到目标。我们为任务提供了模块化的计划与控制方法。我们的模型由三个模块组成:候选Waypoints预测器(CWP),历史增强的计划者和试用控制器。在每个决策循环中,CWP首先根据来自多个视图的深度观察来预测一组候选航路点。它可以降低动作空间的复杂性并促进计划。然后,采用历史增强的计划者选择候选航路点之一。计划者还编码历史记忆以跟踪导航进度,这对于长途导航特别有效。最后,我们提出了一个名为Trutout的非参数启发式控制器,以执行低级动作以达到计划的子目标。它是基于反复试验的机制,该机制可以帮助代理避免障碍并避免卡住。所有三个模块都在层次上工作,直到代理停止为止。我们进一步采取了视力和语言导航(VLN)的最新进展,以改善基于大规模合成域内数据集,环境级数据增强和快照模型集成等性能。我们的模型赢得了2022年RXR-HABITAT竞赛,比NDTW和​​SR指标的现有方法分别相对改善,相对改善为48%和90%。
translated by 谷歌翻译
最近,自我监督的蒙面自动编码器(MAE)因其令人印象深刻的表示能力而引起了前所未有的关注。但是,借口任务是掩盖的图像建模(MIM),重建缺失的本地贴片,缺乏对图像的全局理解。本文通过添加有监督的分类部门将MAE扩展到了完全监督的环境,从而使Mae可以从Golden Labels中有效地学习全球功能。所提出的监督MAE(Supmae)仅利用图像贴片的可见子集进行分类,这与使用所有图像贴片的标准监督预训练不同。通过实验,我们证明了Supmae不仅更有效地训练,而且还学会了更健壮和可转移的功能。具体而言,Supmae在使用VIT-B/16模型的ImageNet上评估时仅使用30%的计算来实现MAE的可比性。 Supmae对ImageNet变体的鲁棒性和转移学习绩效优于MAE和标准监督前培训对手。代码将公开可用。
translated by 谷歌翻译
过去几年的技术创新的巨大浪潮,标志着AI技术的进展,是深刻的重塑行业和社会。然而,在路上,一个关键的挑战等待着我们,即我们满足快速增长的情景的能力的能力受到收购培训数据的成本的严重限制。由于主流学习范式的局限性,这一困难的局面是基于主流学习范式的局限性:我们需要根据大量注释的数据以及通常从头来训练每个新场景的新模型。在解决这一基本问题时,我们超越并开发一个名为实习生的新学习范式。通过在多个阶段的来自多个来源的监控信号学习,培训的模型将产生强大的相互性。我们在26个众所周知的数据集中评估我们的模型,该数据集涵盖计算机视觉中的四类任务。在大多数情况下,我们的模型仅适用于目标域中的培训数据的10%,始终以完整的数据培训的对应物,通常由显着的边距。这是一个重要前景的重要一步,其中具有一般视觉能力的这种模型可以大大降低对数据的依赖,从而加速通过AI技术的采用。此外,围绕我们的新范式旋转,我们还介绍了一个新的数据系统,新的架构和新的基准,以及一起形成一般愿景生态系统,以开放和包容性的方式支持其未来的发展。
translated by 谷歌翻译