We present a strong object detector with encoder-decoder pretraining and finetuning. Our method, called Group DETR v2, is built upon a vision transformer encoder ViT-Huge~\cite{dosovitskiy2020image}, a DETR variant DINO~\cite{zhang2022dino}, and an efficient DETR training method Group DETR~\cite{chen2022group}. The training process consists of self-supervised pretraining and finetuning a ViT-Huge encoder on ImageNet-1K, pretraining the detector on Object365, and finally finetuning it on COCO. Group DETR v2 achieves $\textbf{64.5}$ mAP on COCO test-dev, and establishes a new SoTA on the COCO leaderboard https://paperswithcode.com/sota/object-detection-on-coco
translated by 谷歌翻译
当一个用户将多个不同的任务卸载到边缘服务器时,任务调度是一个关键问题。当用户有多个任务要卸载,并且一次只能将一个任务传输到服务器,而服务器根据传输顺序处理任务时,问题是NP-HARD。但是,传统优化方法很难快速获得最佳解决方案,而基于强化学习面孔的方法和过度的动作空间和缓慢收敛的挑战。在本文中,我们提出了一种基于RL的Digital Twin(DT)辅助任务调度方法,以提高RL的性能和收敛性。我们使用DT来模拟代理商做出的不同决策的结果,以便一个代理可以一次尝试多个操作,或者类似地,多个代理可以在DT中并行与环境交互。通过这种方式,RL的勘探效率可以通过DT显着提高,因此RL可以更快地收敛,而局部最优性不太可能发生。特别是,设计了两种算法来制定任务调度决策,即DT辅助异步Q学习(DTAQL)和DT辅助探索Q-Learning(DTEQL)。仿真结果表明,两种算法都通过提高勘探效率显着提高了Q学习的收敛速度。
translated by 谷歌翻译
本文提出了一种新颖的统一特征优化(UFO)范式,用于训练和在现实世界和大规模场景下进行深层模型,这需要集合多个AI功能。不明飞行物的目标是通过对所有任务进行大规模预修。与众所周知的基础模型相比,UFO具有两个不同的重点,即相对较小的模型大小,没有适应性成本:1)UFO以多任务学习方式将广泛的任务挤入中等尺寸的统一模型中并在转移到下游任务时进一步修剪模型大小。 2)不明飞行物不强调转移到新任务。相反,它旨在使修剪模型专门用于一个或多个已经看到的任务。有了这两个特征,UFO为灵活的部署提供了极大的便利,同时保持了大规模预处理的好处。 UFO的一个关键优点是修剪过程不仅可以减少模型的大小和推理消耗,而且还提高了某些任务的准确性。具体而言,UFO考虑了多任务培训,并对统一模型产生了两倍的影响:一些密切相关的任务具有相互利益,而某些任务相互冲突。不明飞行物设法通过新颖的网络体系结构搜索(NAS)方法来减少冲突并保留相互利益。对各种深度表示学习任务(即面部识别,人重新识别,车辆重新识别和产品检索)的实验表明,从UFO中修剪的模型比单件任务训练的对应物更高,但却具有更高的准确性较小的型号大小,验证不明飞行物的概念。此外,UFO还支持发布170亿个参数计算机视觉(CV)基础模型,该模型是该行业中最大的CV模型。
translated by 谷歌翻译
本文描述了我们对第四个情感行为分析(ABAW)竞争的提交。我们提出了一个用于多任务学习(MTL)的混合CNN转换模型,并从合成数据(LSD)任务中学习。验证数据集的实验结果表明,我们的方法比基线模型获得了更好的性能,该模型验证了提出的网络的有效性。
translated by 谷歌翻译
冻结预训练的主链已成为标准范式,以避免在几次分段中过度拟合。在本文中,我们重新考虑范式并探索一个新的制度:{\ em对骨干中的一小部分参数}进行微调。我们提出了一种解决过度拟合问题的解决方案,从而使学习新颖班级的模型概括更好。我们的方法通过奇异值分解(SVD)将主链参数分解为三个连续的矩阵,然后{\ em仅微调单数值}并保持其他冻结。上面的设计使模型可以在新颖类中调整特征表示,同时在预先训练的主链中保持语义线索。我们在具有不同骨架的各种几种射击分割方法上评估了{\ em单数值微调(SVF)}方法。我们在Pascal-5 $^i $和Coco-20 $^i $上都获得了最先进的结果。希望这个简单的基准将鼓励研究人员重新考虑骨干微调在几次环境中的作用。源代码和模型将在\ url {https://github.com/syp2ysy/svf}上获得。
translated by 谷歌翻译
Current domain adaptation methods for face anti-spoofing leverage labeled source domain data and unlabeled target domain data to obtain a promising generalizable decision boundary. However, it is usually difficult for these methods to achieve a perfect domain-invariant liveness feature disentanglement, which may degrade the final classification performance by domain differences in illumination, face category, spoof type, etc. In this work, we tackle cross-scenario face anti-spoofing by proposing a novel domain adaptation method called cyclically disentangled feature translation network (CDFTN). Specifically, CDFTN generates pseudo-labeled samples that possess: 1) source domain-invariant liveness features and 2) target domain-specific content features, which are disentangled through domain adversarial training. A robust classifier is trained based on the synthetic pseudo-labeled images under the supervision of source domain labels. We further extend CDFTN for multi-target domain adaptation by leveraging data from more unlabeled target domains. Extensive experiments on several public datasets demonstrate that our proposed approach significantly outperforms the state of the art.
translated by 谷歌翻译
接地视频描述(GVD)促使标题模型动态地参加适当的视频区域(例如,对象)并生成描述。这样的设置可以帮助解释标题模型的决策,并防止模型在其描述中幻觉的对象词。然而,这种设计主要侧重于对象词生成,因此可能忽略细粒度信息并遭受缺失的视觉概念。此外,关系词(例如,“左转或右”)是通常的时空推断结果,即,这些单词不能在某些空间区域接地。为了解决上述限制,我们设计了GVD的新型关系图学习框架,其中旨在探索细粒度的视觉概念。此外,精细图可以被视为关系归纳知识,以帮助标题模型选择所需的相关信息来生成正确的单词。我们通过自动指标和人类评估验证我们模型的有效性,结果表明,我们的方法可以产生更细粒度和准确的描述,并解决了物体幻觉的问题。
translated by 谷歌翻译
点云学习界见证了从CNN到变形金刚的模型转移,纯变压器架构在主要学习基准上实现了最高精度。然而,现有的点变压器是计算昂贵的,因为它们需要产生大的注意图,其相对于输入大小具有二次复杂度(空间和时间)。为了解决这种缺点,我们介绍补丁注意(PAT),以便自适应地学习计算注意力地图的更小的基础。通过对这些基础的加权求和,PAT仅捕获全局形状上下文,而且还可以实现输入大小的线性复杂性。此外,我们提出了一种轻量级的多尺度关注(MST)块来构建不同尺度特征的关注,提供具有多尺度特征的模型。我们配备了PAT和MST,我们构建了我们的神经结构,称为PatchFormer,将两个模块集成到Point云学习的联合框架中。广泛的实验表明,我们的网络对一般点云学习任务的可比准确性具有9.2倍的速度高于先前的点变压器。
translated by 谷歌翻译
大脑的结构网络或结构连接组可以由多种拖拉机方法产生的纤维束表示。尽管这种方法给出了对大脑结构的定性见解,但对于它们是否可以提供定量信息,尤其是在人口水平上,却存在争议。为了实现结构连接组的人口级统计分析,我们提出代表连接组为Riemannian度量,这是无限二维流形的点。我们将这种歧管配备了Ebin Metric,这是该空间的自然度量结构,以获得Riemannian歧管及其相关的几何特性。然后,我们使用这个Riemannian框架应用面向对象的统计分析来将地图集定义为Riemannian指标人群的fr \'echet平均值。这种表述与现有的图像图像构造构造的现有框架相关联,使我们能够通过同时整合DWMRI的互补白质结构细节和T1加权MRI的皮质细节来构建多模式地图集。我们用Connectome注册和地图集组的2D数据示例说明了我们的框架。最后,我们使用从人类Connectome Project的主体子集估计的扩散张量衍生的T1图像和连接组构建了一个示例3D多模式地图集。
translated by 谷歌翻译
与卷积神经网络相比,最近开发的纯变压器架构已经实现了对点云学习基准的有希望的准确性。然而,现有点云变压器是计算昂贵的,因为它们在构建不规则数据时浪费了大量时间。要解决此缺点,我们呈现稀疏窗口注意(SWA)模块,以收集非空体素的粗粒颗粒特征,不仅绕过昂贵的不规则数据结构和无效的空体素计算,还可以获得线性计算复杂性到体素分辨率。同时,要收集关于全球形状的细粒度特征,我们介绍了相对的注意(RA)模块,更强大的自我关注变体,用于对象的刚性变换。我们配备了SWA和RA,我们构建了我们的神经结构,称为PVT,将两个模块集成到Point云学习的联合框架中。与以前的变压器和关注的模型相比,我们的方法平均达到了分类基准和10x推理加速的最高精度为94.0%。广泛的实验还有效地验证了PVT在部分和语义分割基准上的有效性(分别为86.6%和69.2%Miou)。
translated by 谷歌翻译