Recent success of vision transformers has inspired a series of vision backbones with novel feature transformation paradigms, which report steady performance gain. Although the novel feature transformation designs are often claimed as the source of gain, some backbones may benefit from advanced engineering techniques, which makes it hard to identify the real gain from the key feature transformation operators. In this paper, we aim to identify real gain of popular convolution and attention operators and make an in-depth study of them. We observe that the main difference among these feature transformation modules, e.g., attention or convolution, lies in the way of spatial feature aggregation, or the so-called "spatial token mixer" (STM). Hence, we first elaborate a unified architecture to eliminate the unfair impact of different engineering techniques, and then fit STMs into this architecture for comparison. Based on various experiments on upstream/downstream tasks and the analysis of inductive bias, we find that the engineering techniques boost the performance significantly, but the performance gap still exists among different STMs. The detailed analysis also reveals some interesting findings of different STMs, such as effective receptive fields and invariance tests. The code and trained models will be publicly available at https://github.com/OpenGVLab/STM-Evaluation
translated by 谷歌翻译
Compared to the great progress of large-scale vision transformers (ViTs) in recent years, large-scale models based on convolutional neural networks (CNNs) are still in an early state. This work presents a new large-scale CNN-based foundation model, termed InternImage, which can obtain the gain from increasing parameters and training data like ViTs. Different from the recent CNNs that focus on large dense kernels, InternImage takes deformable convolution as the core operator, so that our model not only has the large effective receptive field required for downstream tasks such as detection and segmentation, but also has the adaptive spatial aggregation conditioned by input and task information. As a result, the proposed InternImage reduces the strict inductive bias of traditional CNNs and makes it possible to learn stronger and more robust patterns with large-scale parameters from massive data like ViTs. The effectiveness of our model is proven on challenging benchmarks including ImageNet, COCO, and ADE20K. It is worth mentioning that InternImage-H achieved the new record 65.4 mAP on COCO test-dev. The code will be released at https://github.com/OpenGVLab/InternImage.
translated by 谷歌翻译
在基于脑电图的情感计算领域,跨数据库情绪识别是一项极具挑战性的任务,受许多因素的影响,这使得通用模型产生了不令人满意的结果。面对缺乏脑电图信息解码研究的情况,我们首先分析了通过样本空间可视化,样本聚合现象量化和对五个公共数据集的能量模式分析的不同脑电图信息(个人,会话,情绪,试验)对情绪识别的影响。并基于这些现象和模式,我们提供了各种脑电图差异的处理方法和可解释的工作。通过分析情绪特征分布模式,发现了个体的情感特征分布差异(IEFDD)。在分析了IEFDD遭受的传统建模方法的局限性之后,我们提出了基于重量的通道模型矩阵框架(WCMF)。为了合理地表征情绪特征分布模式,设计了四种重量提取方法,最佳是校正t检验(CT)重量提取方法。最后,WCMF的性能在两种实验中在跨数据库任务上进行了验证,这些实验模拟了不同的实践场景,结果表明WCMF具有更稳定和更好的情感识别能力。
translated by 谷歌翻译
视频阴影检测旨在在视频帧之间产生一致的阴影预测。但是,当前的方法遇到了整个框架的阴影预测不一致的,尤其是当视频中的照明和背景纹理发生变化时。我们观察到不一致的预测是由阴影特征不一致引起的,即,同一阴影区域的特征在附近的框架之间显示出不同的礼节。在本文中,我们提出了一种新颖的阴影通信方法(SC-COR)(SC-COR) ),以增强跨帧的特定阴影区域的像素相似性,以进行视频阴影检测。我们提出的SC-COR具有三个主要优势。首先,不需要密集的像素到像素对应标签,SC-COR可以以弱监督的方式学习跨帧的像素对应。其次,SC-COR考虑了阴影内的可分离性,这对视频中的变体纹理和照明是可靠的。最后,SC-COR是一个插件模块,可以轻松地集成到没有额外的计算成本的情况下。我们进一步设计了一个新的评估指标,以评估视频阴影检测结果的时间稳定性。实验结果表明,SC-COR的表现优于先前的最新方法,而IOU的表现为6.51%,而新引入的时间稳定性度量为3.35%。
translated by 谷歌翻译
在本文中,我们提出了Nuwa-Infinity,这是无限视觉合成的生成模型,该模型被定义为生成任意尺寸的高分辨率图像或长期视频的任务。提出了一种自回旋的自回旋生成机制来处理这一可变大小的生成任务,其中全球补丁级自回归模型考虑了补丁之间的依赖性,以及局部令牌级自动回收式模型在每个贴片中的视觉令牌之间的依赖性。将附近的上下文池(NCP)引入已生成的与缓存相关的补丁,作为当前补丁生成的上下文,该贴片可以显着节省计算成本而不牺牲补丁级依赖性模型。任意方向控制器(ADC)用于确定不同视觉合成任务的合适生成订单,并学习订单感知的位置嵌入。与DALL-E,Imagen和Parti相比,NUWA-INFINITY可以生成具有任意大小的高分辨率图像,并支持长期视频的生成。与NUWA(也涵盖图像和视频)相比,NUWA-Infinity在分辨率和可变尺寸的生成方面具有出色的视觉合成功能。 github链接是https://github.com/microsoft/nuwa。主页链接是https://nuwa-infinity.microsoft.com。
translated by 谷歌翻译
本文制定了一个新问题,实例影子检测,旨在检测影子实例和关联的对象实例,这些实例在输入图像中投射每个阴影。为了完成此任务,我们首先编译了一个新的数据集,其中包含掩码,用于影子实例,对象实例和阴影对象关联。然后,我们设计了一个评估度量,以定量评估实例阴影检测的性能。此外,我们设计了一个单阶段检测器,以端到端的方式执行实例阴影检测,其中双向关系学习模块和可变形的maskiou头在检测器中提议直接学习阴影实例与对象实例之间的关系并提高预测口罩的准确性。最后,我们在实例阴影检测的基准数据集上进行定量和定性评估我们的方法,并在光方向估计和照片编辑中显示我们方法的适用性。
translated by 谷歌翻译
本文通过控制功能级别的RGB图像和深度图之间的消息,介绍了RGB-D显着对象检测的新型深神经网络框架,并探索有关RGB和深度特征的远程语义上下文和几何信息推断出明显的对象。为了实现这一目标,我们通过图神经网络和可变形的卷积制定动态消息传播(DMP)模块,以动态学习上下文信息,并自动预测消息传播控制的过滤权重和亲和力矩阵。我们将该模块进一步嵌入基于暹罗的网络中,分别处理RGB图像和深度图,并设计多级特征融合(MFF)模块,以探索精制的RGB和深度特征之间的跨级信息。与六个基准数据集上用于RGB-D显着对象检测的17种最先进的方法相比,实验结果表明,我们的方法在定量和视觉上都优于其他所有方法。
translated by 谷歌翻译
我们提出了GLIPV2,这是一个接地的VL理解模型,该模型既服务于本地化任务(例如,对象检测,实例分割)和视觉语言(VL)理解任务(例如VQA,图像字幕)。 GLIPV2优雅地将本地化预训练和视觉语言预训练(VLP)具有三个预训练任务:短语接地作为对检测任务的VL重新重新制定,区域词对比度学习作为新型的区域词对比度对比度对比学习任务,以及蒙面的语言建模。这种统一不仅简化了先前的多阶段VLP程序,而且还可以在本地化和理解任务之间实现相互利益。实验结果表明,在各种本地化和理解任务上,单个GLIPV2模型(所有模型权重)在SOTA性能附近实现。该模型还显示了(1)在开放式摄制对象检测任务上进行的强零射击和很少的自适应性能,以及(2)VL理解任务上的卓越接地能力。代码将在https://github.com/microsoft/glip上发布。
translated by 谷歌翻译
在本文中,我们设计和训练生成的图像到文本变压器Git,以统一视觉语言任务,例如图像/视频字幕和问题答案。尽管生成模型在预训练和微调之间提供了一致的网络体系结构,但现有工作通常包含复杂的结构(Uni/多模式编码器/解码器),并取决于外部模块,例如对象检测器/标记器和光学角色识别(OCR) )。在git中,我们将体系结构简化为一个图像编码器,而在单语言建模任务下将架构简化为一个文本解码器。我们还扩展了预训练数据和模型大小,以提高模型性能。没有铃铛和哨子,我们的git在12个具有挑战性的基准下建立了新的艺术状态。例如,我们的模型在文本贴图上首次超过了人类的表现(138.2 vs. 125.5在苹果酒中)。此外,我们提出了一种新的基于一代的图像分类和场景文本识别的方案,在标准基准上实现了不错的表现。
translated by 谷歌翻译
包括传统浅层模型和深图神经网络(GNN)在内的图形嵌入方法已导致有希望的应用。然而,由于其优化范式,浅层模型尤其是基于随机步行的算法无法充分利用采样子图或序列中的邻居接近度。基于GNN的算法遇到了高阶信息的利用不足,在堆叠过多的层时很容易引起过度平滑的问题,这可能会恶化低度(长尾)项目的建议,从而限制了表现力和可伸缩性。在本文中,我们提出了一个新颖的框架SAC,即空间自动回归编码,以统一的方式解决上述问题。为了充分利用邻居接近和高级信息,我们设计了一种新型的空间自回旋范式。具体而言,我们首先随机掩盖了多跳的邻居,并通过以明确的多跳上注意来整合所有其他周围的邻居来嵌入目标节点。然后,我们加强模型,通过对比编码和蒙面邻居的嵌入来学习目标节点的邻居预测性编码,并配备了新的硬性阴性采样策略。为了了解目标到邻居预测任务的最小足够表示并删除邻居的冗余,我们通过最大化目标预测性编码和蒙面邻居的嵌入以及同时约束编码之间的相互信息来设计邻居信息瓶颈和周围的邻居的嵌入。公共推荐数据集和实际方案网络规模数据集Douyin-Friend-Recormendation的实验结果证明了SAC的优势与最先进的方法相比。
translated by 谷歌翻译