Deep Neural Networks have been widely used in many fields. However, studies have shown that DNNs are easily attacked by adversarial examples, which have tiny perturbations and greatly mislead the correct judgment of DNNs. Furthermore, even if malicious attackers cannot obtain all the underlying model parameters, they can use adversarial examples to attack various DNN-based task systems. Researchers have proposed various defense methods to protect DNNs, such as reducing the aggressiveness of adversarial examples by preprocessing or improving the robustness of the model by adding modules. However, some defense methods are only effective for small-scale examples or small perturbations but have limited defense effects for adversarial examples with large perturbations. This paper assigns different defense strategies to adversarial perturbations of different strengths by grading the perturbations on the input examples. Experimental results show that the proposed method effectively improves defense performance. In addition, the proposed method does not modify any task model, which can be used as a preprocessing module, which significantly reduces the deployment cost in practical applications.
translated by 谷歌翻译
Deep Metric Learning (DML) is a group of techniques that aim to measure the similarity between objects through the neural network. Although the number of DML methods has rapidly increased in recent years, most previous studies cannot effectively handle noisy data, which commonly exists in practical applications and often leads to serious performance deterioration. To overcome this limitation, in this paper, we build a connection between noisy samples and hard samples in the framework of self-paced learning, and propose a \underline{B}alanced \underline{S}elf-\underline{P}aced \underline{M}etric \underline{L}earning (BSPML) algorithm with a denoising multi-similarity formulation, where noisy samples are treated as extremely hard samples and adaptively excluded from the model training by sample weighting. Especially, due to the pairwise relationship and a new balance regularization term, the sub-problem \emph{w.r.t.} sample weights is a nonconvex quadratic function. To efficiently solve this nonconvex quadratic problem, we propose a doubly stochastic projection coordinate gradient algorithm. Importantly, we theoretically prove the convergence not only for the doubly stochastic projection coordinate gradient algorithm, but also for our BSPML algorithm. Experimental results on several standard data sets demonstrate that our BSPML algorithm has better generalization ability and robustness than the state-of-the-art robust DML approaches.
translated by 谷歌翻译
Various depth estimation models are now widely used on many mobile and IoT devices for image segmentation, bokeh effect rendering, object tracking and many other mobile tasks. Thus, it is very crucial to have efficient and accurate depth estimation models that can run fast on low-power mobile chipsets. In this Mobile AI challenge, the target was to develop deep learning-based single image depth estimation solutions that can show a real-time performance on IoT platforms and smartphones. For this, the participants used a large-scale RGB-to-depth dataset that was collected with the ZED stereo camera capable to generated depth maps for objects located at up to 50 meters. The runtime of all models was evaluated on the Raspberry Pi 4 platform, where the developed solutions were able to generate VGA resolution depth maps at up to 27 FPS while achieving high fidelity results. All models developed in the challenge are also compatible with any Android or Linux-based mobile devices, their detailed description is provided in this paper.
translated by 谷歌翻译
多模式变压器的最新努力通过合并视觉和文本信息改善了视觉上丰富的文档理解(VRDU)任务。但是,现有的方法主要集中于诸如单词和文档图像贴片之类的细粒元素,这使得他们很难从粗粒元素中学习,包括短语和显着视觉区域(如突出的图像区域)等自然词汇单元。在本文中,我们对包含高密度信息和一致语义的粗粒元素更为重要,这对于文档理解很有价值。首先,提出了文档图来模拟多层次多模式元素之间的复杂关系,其中通过基于群集的方法检测到显着的视觉区域。然后,提出了一种称为mmlayout的多模式变压器,以将粗粒的信息纳入基于图形的现有预训练的细颗粒的多峰变压器中。在mmlayout中,粗粒信息是从细粒度聚集的,然后在进一步处理后,将其融合到细粒度中以进行最终预测。此外,引入常识增强以利用天然词汇单元的语义信息。关于四个任务的实验结果,包括信息提取和文档问答,表明我们的方法可以根据细粒元素改善多模式变压器的性能,并使用更少的参数实现更好的性能。定性分析表明,我们的方法可以在粗粒元素中捕获一致的语义。
translated by 谷歌翻译
上下文:大数据的有效处理是SQL和NOSQL数据库的一项具有挑战性的任务,在这种数据库中,有效的软件体系结构起着至关重要的作用。 SQL数据库设计用于构建数据和支持垂直可扩展性。相反,水平可伸缩性由NOSQL数据库支持,并且可以有效地处理较大的非结构化数据。可以根据组织的需求选择正确的范式;但是,做出正确的选择通常可能具有挑战性。 SQL和NOSQL数据库遵循不同的体系结构。同样,混合模型之后是NOSQL数据库的每个类别。因此,对于多个云服务提供商(CSP)的云消费者来说,数据移动变得困难。此外,每个云平台IAAS,PAAS,SaaS和DBAAS还监视各种范式。目的:该系统文献综述(SLR)旨在研究与SQL和NOSQL数据库软件体系结构相关的相关文章,并解决各种云平台之间的数据可移植性和互操作性。最新的状态通过观察缩放,性能,可用性,一致性和分片特性,介绍了SQL和NOSQL数据库的许多性能比较研究。根据研究研究,NOSQL数据库设计的结构可以是大数据分析的正确选择,而SQL数据库适合OLTP数据库。研究人员提出了许多与云中数据流动相关的方法。开发了基于平台的API,这使用户的数据移动变得困难。因此,在跨多个CSP的数据移动期间发现了数据可移植性和互操作性问题。为了最大程度地减少开发人员的努力和互操作性,要求统一的API使数据移动在各种云平台之间相对易于访问。
translated by 谷歌翻译
旨在使用非常有限的样本识别看不见的类的几个射击分类吸引了越来越多的关注。通常,它被称为公制学习问题。几乎没有射击分类的核心问题是如何学习(1)支持和查询集中图像的一致表示以及(2)在支持和查询集之间的图像的有效度量学习。在本文中,我们表明,这两个挑战可以通过统一的查询支持变压器(QSFormer)模型同时建模。具体而言,提出的QSFormer涉及全局查询支持样品变压器(SampleFormer)分支和局部补丁变压器(PatchFormer)学习分支。 SampleFormer旨在捕获样品在支持和查询集以进行图像表示方面的依赖性。它采用编码器,解码器和交叉注意力,分别对几个射击分类任务的支持,查询(图像)表示和度量学习进行建模。同样,作为全球学习分支的补充,我们采用了局部贴片变压器,通过捕获本地图像贴片的长距离依赖性来提取每个图像样本的结构表示。此外,还提出了一种新型的跨尺度交互式提取器(CIFE)来提取和融合多尺度CNN特征,作为建议的少量学习方法的有效骨干模块。所有模块都集成到统一的框架中,并以端到端的方式进行了训练。在四个流行数据集上进行的广泛实验证明了所提出的QSFormer的有效性和优势。
translated by 谷歌翻译
云计算技术的最新趋势有效地提高了视觉检查的应用。但是,大多数可用系统以人类的方式工作,无法为在线应用提供长期支持。为了向前迈出一步,本文概述了一个名为SSAA的自动注释系统,以一种自学的学习方式工作,以在制造自动化场景中不断进行在线视觉检查。 SSAA受益于自我监督的学习,有效地为整个生命周期建立了视觉检查应用程序。在早期阶段,仅使用无异常数据,采用了无监督的算法来处理借口任务并为以下数据生成粗标签。然后,对监督算法进行了下游任务的培训。借助用户友好的基于Web的接口,SSAA非常方便地集成和部署两个无监督和监督算法。到目前为止,SSAA系统已用于一些现实生活中的工业应用。
translated by 谷歌翻译
在表面缺陷检测中,由于阳性和负样品数量的极度失衡,基于阳性样本的异常检测方法已受到越来越多的关注。具体而言,基于重建的方法是最受欢迎的方法。但是,退出的方法要么难以修复异常的前景或重建清晰的背景。因此,我们提出了一个清晰的内存调制自动编码器。首先,我们提出了一个新颖的清晰内存调节模块,该模块将编码和内存编码结合在一起,以忘记和输入的方式,从而修复异常的前景和保存透明背景。其次,提出了一般人工异常产生算法来模拟尽可能逼真和特征富含特征的异常。最后,我们提出了一种新型的多量表特征残差检测方法,用于缺陷分割,这使缺陷位置更加准确。 CMA-AE使用五个基准数据集上的11种最先进方法进行比较实验,显示F1量的平均平均改善平均为18.6%。
translated by 谷歌翻译
我们提出了一种称为独角兽的统一方法,可以使用相同的模型参数同时使用单个网络解决四个跟踪问题(SOT,MOT,VOS,MOTS)。由于对象跟踪问题本身的定义零散,因此开发了大多数现有的跟踪器来解决任务的单个或一部分,并过分地对特定任务的特征进行了专业化。相比之下,Unicorn提供了一个统一的解决方案,在所有跟踪任务中采用相同的输入,骨干,嵌入和头部。我们第一次完成了跟踪网络体系结构和学习范式的巨大统一。Unicorn在8个跟踪数据集中的特定于任务特定的对应物(包括Lasot,TrackingNet,Mot17,BDD100K,Davis16-17,MOTS20和BDD100K MOT)在PAR上或更好的对应物。我们认为,独角兽将是朝着一般视觉模型迈出的坚实一步。代码可从https://github.com/masterbin-iiau/unicorn获得。
translated by 谷歌翻译
(源)代码摘要旨在以自然语言的形式自动为给定代码段生成摘要/注释。此类摘要在帮助开发人员理解和维护源代码方面起着关键作用。现有的代码摘要技术可以分类为提取方法和抽象方法。提取方法使用检索技术从代码段中提取重要语句和关键字的子集,并生成一个摘要,该摘要保留了重要语句和关键字中的事实详细信息。但是,这样的子集可能会错过标识符或实体命名,因此,产生的摘要的自然性通常很差。抽象方法可以生成类似人写的摘要,从而利用神经机器翻译域的编码器模型。然而,生成的摘要通常会错过重要的事实细节。为了通过保留的事实细节生成类似人写的摘要,我们提出了一个新颖的提取和吸收框架。框架中的提取模块执行了提取代码摘要的任务,该任务列入了代码段,并预测包含关键事实细节的重要陈述。框架中的抽象模块执行了抽象代码摘要的任务,该任务是在整个代码段和并行的重要陈述中进行的,并生成了简洁而人工写的类似的自然语言摘要。我们通过在涉及六种编程语言的三个数据集上进行广泛的实验来评估称为EACS的有效性。实验结果表明,在所有三种广泛使用的指标(包括BLEU,流星和Rough-l)方面,EACS明显优于最先进的技术。
translated by 谷歌翻译