In this paper, we aim to design an efficient real-time object detector that exceeds the YOLO series and is easily extensible for many object recognition tasks such as instance segmentation and rotated object detection. To obtain a more efficient model architecture, we explore an architecture that has compatible capacities in the backbone and neck, constructed by a basic building block that consists of large-kernel depth-wise convolutions. We further introduce soft labels when calculating matching costs in the dynamic label assignment to improve accuracy. Together with better training techniques, the resulting object detector, named RTMDet, achieves 52.8% AP on COCO with 300+ FPS on an NVIDIA 3090 GPU, outperforming the current mainstream industrial detectors. RTMDet achieves the best parameter-accuracy trade-off with tiny/small/medium/large/extra-large model sizes for various application scenarios, and obtains new state-of-the-art performance on real-time instance segmentation and rotated object detection. We hope the experimental results can provide new insights into designing versatile real-time object detectors for many object recognition tasks. Code and models are released at https://github.com/open-mmlab/mmdetection/tree/3.x/configs/rtmdet.
translated by 谷歌翻译
深度学习模型已在大规模视频基准测试上取得了出色的识别结果。但是,当应用于稀有场景或物体的视频时,它们的性能很差,这主要是由于现有视频数据集的偏见。我们从两个不同的角度解决了这个问题:算法和数据集。从算法的角度来看,我们提出了空间感知的多种偏见(SMAD),它既将明确的偏见都与多种相对的对抗性训练和隐含的偏见以及与空间行动重新重量的模块相结合,从行动方面。为了消除内在的数据集偏差,我们建议OmnideBias有选择地利用Web数据进行联合培训,这可以通过更少的Web数据实现更高的性能。为了验证有效性,我们建立评估协议并对现有数据集的重新分配分配和新的评估数据集进行广泛的实验,该数据集的重点是稀有场景。我们还表明,当转移到其他数据集和任务时,辩护形式可以更好地概括。
translated by 谷歌翻译
近年来,在自学学习(SSL)方面取得了重大成功,这有助于各种下游任务。但是,攻击者可能会窃取此类SSL模型并将其商业化以获利,这对于保护其知识产权(IP)至关重要。大多数现有的IP保护解决方案都是为监督学习模型而设计的,不能直接使用,因为它们要求模型的下游任务和目标标签在水印嵌入过程中已知并获得,这在SSL的域中并非总是可以的。为了解决此类问题,尤其是在水印嵌入过程中下游任务多样化且未知时,我们提出了一种新型的黑盒水印解决方案,名为SSL-WM,以保护SSL模型的所有权。 SSL-WM将水印编码器的水印输入映射到不变的表示空间中,该空间会导致任何下游分类器产生预期的行为,从而允许检测到嵌入式水印。我们使用不同的SSL模型(包括基于对比度和基于生成的生成型)来评估许多任务,例如计算机视觉(CV)和自然语言处理(NLP)等许多任务。实验结果表明,SSL-WM可以有效地验证各种下游任务中被盗SSL模型的所有权。此外,SSL-WM对模型进行微调和修剪攻击非常强大。最后,SSL-WM还可以从评估的水印检测方法中逃避检测,从而证明了其在保护SSL模型IP时的有希望的应用。
translated by 谷歌翻译
尽管视觉变压器(VIT)表现出令人印象深刻的表示学习能力,但我们从经验上发现,它们不能很好地将其概括为具有以前的域泛化算法的看不见的域。在本文中,我们提出了一种基于迅速学习的新方法,以嵌入域中的源域的知识提示目标域预测。具体而言,在来自相应的源域中的VIT输入令牌之前先进行域提示。每个域提示都可以有效地学习特定于领域的知识,因为仅针对一个域进行了优化。同时,我们训练一个及时的适配器,根据学习的源域提示为每个输入图像生成适当的提示。在测试时,提示适配器生成的改编提示可以利用室外图像和源域的特征之间的相似性,以正确整合源域知识。广泛的实验是在四个基准数据集上进行的。我们的方法在平均准确性方面提高了1.4%,这是使用VIT主链改善最先进算法的3.5倍。
translated by 谷歌翻译
随着深度神经网络(DNN)的广泛应用,后门攻击逐渐引起了人们的关注。后门攻击是阴险的,中毒模型在良性样本上的表现良好,只有在给定特定输入时才会触发,这会导致神经网络产生不正确的输出。最先进的后门攻击工作是通过数据中毒(即攻击者注入中毒样品中的数据集中)实施的,并且用该数据集训练的模型被后门感染。但是,当前研究中使用的大多数触发因素都是在一小部分图像上修补的固定图案,并且经常被明显错误地标记,这很容易被人类或防御方法(例如神经清洁和前哨)检测到。同样,DNN很难在没有标记的情况下学习,因为它们可能会忽略小图案。在本文中,我们提出了一种基于频域的广义后门攻击方法,该方法可以实现后门植入而不会错标和访问训练过程。它是人类看不见的,能够逃避常用的防御方法。我们在三个数据集(CIFAR-10,STL-10和GTSRB)的无标签和清洁标签案例中评估了我们的方法。结果表明,我们的方法可以在所有任务上实现高攻击成功率(高于90%),而不会在主要任务上进行大量绩效降解。此外,我们评估了我们的方法的旁路性能,以进行各种防御措施,包括检测训练数据(即激活聚类),输入的预处理(即过滤),检测输入(即Sentinet)和检测模型(即神经清洁)。实验结果表明,我们的方法对这种防御能力表现出极好的鲁棒性。
translated by 谷歌翻译
图形离群值检测是一项具有许多应用程序的新兴但至关重要的机器学习任务。尽管近年来算法扩散,但缺乏标准和统一的绩效评估设置限制了它们在现实世界应用中的进步和使用。为了利用差距,我们(据我们所知)(据我们所知)第一个全面的无监督节点离群值检测基准为unod,并带有以下亮点:(1)评估骨架从经典矩阵分解到最新图形神经的骨架的14个方法网络; (2)在现实世界数据集上使用不同类型的注射异常值和自然异常值对方法性能进行基准测试; (3)通过在不同尺度的合成图上使用运行时和GPU存储器使用算法的效率和可扩展性。基于广泛的实验结果的分析,我们讨论了当前渠道方法的利弊,并指出了多个关键和有希望的未来研究方向。
translated by 谷歌翻译
社交机器人被称为社交网络上的自动帐户,这些帐户试图像人类一样行事。尽管图形神经网络(GNNS)已大量应用于社会机器人检测领域,但大量的领域专业知识和先验知识大量参与了最先进的方法,以设计专门的神经网络体系结构,以设计特定的神经网络体系结构。分类任务。但是,在模型设计中涉及超大的节点和网络层,通常会导致过度平滑的问题和缺乏嵌入歧视。在本文中,我们提出了罗斯加斯(Rosgas),这是一种新颖的加强和自我监督的GNN Architecture搜索框架,以适应性地指出了最合适的多跳跃社区和GNN体系结构中的层数。更具体地说,我们将社交机器人检测问题视为以用户为中心的子图嵌入和分类任务。我们利用异构信息网络来通过利用帐户元数据,关系,行为特征和内容功能来展示用户连接。 Rosgas使用多代理的深钢筋学习(RL)机制来导航最佳邻域和网络层的搜索,以分别学习每个目标用户的子图嵌入。开发了一种用于加速RL训练过程的最接近的邻居机制,Rosgas可以借助自我监督的学习来学习更多的判别子图。 5个Twitter数据集的实验表明,Rosgas在准确性,训练效率和稳定性方面优于最先进的方法,并且在处理看不见的样本时具有更好的概括。
translated by 谷歌翻译
联合学习已被提议作为隐私的机器学习框架,该框架使多个客户能够在不共享原始数据的情况下进行协作。但是,在此框架中,设计并不能保证客户隐私保护。先前的工作表明,联邦学习中的梯度共享策略可能容易受到数据重建攻击的影响。但是,实际上,考虑到高沟通成本或由于增强隐私要求,客户可能不会传输原始梯度。实证研究表明,梯度混淆,包括通过梯度噪声注入和通过梯度压缩的无意化混淆的意图混淆,可以提供更多的隐私保护,以防止重建攻击。在这项工作中,我们提出了一个针对联合学习中图像分类任务的新数据重建攻击框架。我们表明,通常采用的梯度后处理程序,例如梯度量化,梯度稀疏和梯度扰动,可能会在联合学习中具有错误的安全感。与先前的研究相反,我们认为不应将隐私增强视为梯度压缩的副产品。此外,我们在提出的框架下设计了一种新方法,以在语义层面重建图像。我们量化语义隐私泄漏,并根据图像相似性分数进行比较。我们的比较挑战了文献中图像数据泄漏评估方案。结果强调了在现有联合学习算法中重新审视和重新设计对客户数据的隐私保护机制的重要性。
translated by 谷歌翻译
我们提出了一个名为mmrotate的开源工具箱,该工具箱提供了基于深度学习的流行旋转对象检测算法的训练,推断和评估的连贯算法框架。mmrotate实现了18种最先进的算法,并支持三种最常用的角度定义方法。为了促进与旋转对象检测有关的问题的未来研究和工业应用,我们还提供了大量训练有素的模型和详细的基准测试,以深入了解旋转对象检测的性能。mmrotate将于https://github.com/open-mmlab/mmrotate公开发布。
translated by 谷歌翻译
联合学习(FL)是一种保护隐私的范式,其中多个参与者共同解决机器学习问题而无需共享原始数据。与传统的分布式学习不同,FL的独特特征是统计异质性,即,跨参与者的数据分布彼此不同。同时,神经网络解释的最新进展已广泛使用神经切线核(NTK)进行收敛分析。在本文中,我们提出了一个新颖的FL范式,该范式由NTK框架赋予了能力。该范式通过传输比常规FL范式更具表现力的更新数据来解决统计异质性的挑战。具体而言,通过样本的雅各布矩阵,而不是模型的权重/梯度,由参与者上传。然后,服务器构建了经验内核矩阵,以更新全局模型,而无需明确执行梯度下降。我们进一步开发了一种具有提高沟通效率和增强隐私性的变体。数值结果表明,与联邦平均相比,所提出的范式可以达到相同的精度,同时将通信弹的数量减少数量级。
translated by 谷歌翻译