我们提出了一种完全卷积的单级目标检测器(FCOS),以逐像素预测方式解决对象检测,类似于语义分割。几乎所有最先进的物体探测器,如RetinaNet,SSD,YOLOv3和Faster R-CNN都依赖于预定义的锚箱。相比之下,我们提出的探测器FCOS不需要锚箱,也可以免费提供。通过消除预定义的锚箱组,FCOS完全避免了与锚箱相关的复杂计算,例如计算重叠训练并显着减少训练记忆足迹。更重要的是,我们还避免了与锚箱相关的所有超参数,这些参数通常对最终检测性能非常敏感。通过唯一后处理非最大抑制(NMS),我们的探测器FCOS优于以前基于锚的一级探测器,具有更简单的优点。我们首次展示了一种更简单灵活的检测框架,可以提高检测精度。我们希望所提出的FCOS框架可以作为许多其他实例级任务的简单而强大的替代方案。
translated by 谷歌翻译
在实际系统中非常昂贵的问题是非常普遍的,因为一个适合的评估花费几个小时甚至几天。在过去的几十年中,替代辅助进化算法(SAEAs)已被广泛用于解决这一关键问题。然而,大多数研究的SAEA专注于解决问题,至少十倍的问题维度,这在许多非常昂贵的现实问题中是不可接受的。在本文中,我们使用Voronoidiagram来提高SAEA的性能,并提出一个新的框架,名为基于Voronoi的有效代理协助进化算法(VESAEA),用于解决非常昂贵的问题,其中优化预算在fitnessevaluations方面仅为5倍。问题的维度。在提议的框架中,Voronoi图将整个搜索空间划分为若几个子空间,然后本地搜索在一些可能的更好的子空间中运行。此外,为了权衡勘探和开发,该框架涉及通过组合一次性交叉验证和径向基函数替代模型而开发的全局搜索阶段。性能选择器旨在在全局和本地搜索阶段之间动态和自动切换搜索。各种基准问题的实证结果表明,所提出的框架显着优于具有极其有限的适应性评估的几种最先进的算法。此外,还进一步分析了Voronoi图的功效,结果表明它有可能优化非常昂贵的问题。
translated by 谷歌翻译
由于随着时间的推移,面部外观受到老化过程引起的显着的类内变化的影响,年龄不变的面部识别(AIFR)仍然是面部识别社区中的主要挑战。为了减少由衰老引起的类内差异,在本文中,我们提出了一种新方法(即,正交嵌入CNN或OE-CNN)来学习年龄不变的深部特征。具体而言,我们将深层特征分解为两个正交分量,以表示与年龄相关的特征和与身份相关的特征。因此,对于AIFR,使用对老化稳健的身份相关特征。此外,为了补充现有的跨年龄数据集并推进该领域的研究,我们构建了一个全新的大型跨年龄人脸数据集(CAF)。在三个公共领域面对老化数据集(MORPH Album 2,CACD-VS和FG-NET)上进行的大量实验已经证明了所提出方法的有效性以及构建的CAF数据集对AIFR的价值。在最流行的一般人脸识别(GFR)数据集LFW之一上对我们的算法进行基准测试,另外证明了在GFR上具有可比较的泛化性能。
translated by 谷歌翻译
我们将平面和规则域(例如2D图像)上的卷积神经网络(CNN)扩展到嵌入3D欧几里德空间中的曲面,这些曲面被分离为不规则网格,并广泛用于表示计算机视觉和图形中的几何数据。我们在表面域的切线空间上定义表面卷积,其中卷积具有两个期望的属性:1)表面域信号的偏差在被投影到切线空间时局部最小,以及2)平移等方差属性通过对齐而局部保持切线空间与规范的平行传输,保留度量。为了计算,我们依赖于表面上的并行N方向帧场,其最小化场变化,因此尽可能与并行传输兼容并近似。在装有平行框架的切线空间上,表面卷积的计算成为标准的例程。框架具有旋转对称性,我们通过构造由平行框架引起的表面覆盖空间并将特征图分组为N组来消除歧义;在覆盖空间的N个分支上使用相应的特征映射计算卷积,同时共享核心权重。为了在共享内核权重的同时处理离散网格的不规则点,我们使卷积半离散,即卷积内核是多项式函数,并且它们与离散表面点的卷积变为采样和加权求和。通过简化构建的网格层次计算池化和解池操作。所呈现的表面CNN允许对网格进行有效的深度学习。我们展示了对于分类,分割和非刚性配准的任务,仅使用原始输入信号的表面CNN比使用复杂输入特征的先前模型实现了优越的性能。
translated by 谷歌翻译
由于深度卷积神经网络(CNN)的巨大改进,近年来人脸识别取得了显着进展。然而,deepCNN很容易受到对抗性的例子的影响,这些例子可能会在具有安全敏感性目的的真实世界人脸识别应用程序中造成致命的后果。对抗性攻击被广泛研究,因为它们可以在部署之前识别模型的脆弱性。在本文中,我们评估了基于决策的黑盒攻击设置中最先进的人脸识别模型的稳健性,其中攻击者无法访问模型参数和梯度,但只能通过发送查询来获取硬标签预测到目标模型。这种攻击设置在现实世界的人脸识别系统中更为实用。为了提高上述方法的效率,我们提出了一种进化攻击算法,该算法可以对搜索方向的局部几何进行建模,并减小这些空间的维数。大量实验证明了所提出的方法的有效性,该方法通过较少的查询引起对输入面部图像的最小扰动。我们还应用所提出的方法成功地攻击真实世界的人脸识别系统。
translated by 谷歌翻译
We propose a novel conditioned text generation model. It draws inspiration from traditional template-based text generation techniques , where the source provides the content (i.e., what to say), and the template influences how to say it. Building on the successful encoder-decoder paradigm, it first encodes the content representation from the given input text; to produce the output, it retrieves exemplar text from the training data as "soft templates," which are then used to construct an exemplar-specific decoder. We evaluate the proposed model on abstractive text sum-marization and data-to-text generation. Empirical results show that this model achieves strong performance and outperforms comparable baselines.
translated by 谷歌翻译
虽然嵌入式FPGA因其低延迟和高能效而成为DNN加速设备的有吸引力的平台,但边缘规模FPGA器件的资源稀缺也使得它对DNN部署具有挑战性。在本文中,我们提出了一种同时具有自下而上和自上而下方法的FPGA / DNN协同设计方法:面向自下而上硬件的DNN模型搜索高精度,以及自上而下的FPGA加速器设计,考虑DNN特定的特性。我们还构建了自动协同设计流程,包括用于执行面向硬件的DNN模型搜索的Auto-DNN引擎,以及用于为探索的DNN生成FPGA加速器的可合成C代码的Auto-HLS引擎。我们使用PYNQ-Z1 FPGA演示了对象检测任务的协同设计方法。结果表明我们提出的DNN模型和加速器在所有方面都优于最先进的FPGA设计,包括交叉联盟(IoU)(高6.2%),每秒帧数(FPS)(高2.48倍),功耗(降低40%)和能源效率(高2.5倍)。与基于GPU的解决方案相比,我们的设计提供了类似的精度,但消耗的能源却少得多。
translated by 谷歌翻译
估计离散分布的性质是实体学习的基本问题。我们设计了第一个统一的,线性时间的,竞争性的属性估计器,对于广泛的属性和所有底层分布,仅使用$ 2n $样本来实现经验估计器获得的性能$ n \ sqrt {\ log n} $样本。这提供了与普通实践估算器相关的现有的,与分布无关的“数据量”放大。我们通过将估计量与各种属性和分布的现有估计量进行比较来说明估算器的实际优势。在大多数情况下,其使用$ n $样本的性能甚至与具有$ n \ log n $样本的经验估计器的性能一样好,并且对于基本上所有属性,其性能与针对该属性专门设计的最佳现有估计器的性能相当。
translated by 谷歌翻译
众所周知,深度神经网络(DNN)容易受到对抗性攻击,这是通过在良性示例上添加精心设计的扰动来实现的。基于Min-max稳健优化的对抗性训练可以提供抵御对抗性攻击的安全性概念。然而,只有良性的例子,对抗性的鲁棒性要求网络的能力明显大于自然训练的能力。本文提出了同时进行对抗性训练和体重修剪的框架,使得模型压缩能够在保持对抗性稳健性的同时,从根本上解决对抗性训练的两难问题。此外,这项工作研究了传统网络修剪中关于权重修剪的两个假设,并发现权重修剪对于减少对抗环境中的网络模型大小是必不可少的,即,即使从大型模型继承初始化也无法实现从小规模训练小模型,无法实现对抗性。和模型压缩。
translated by 谷歌翻译
生成对抗网络(GAN)中最先进的方法可以学习从一个图像域到另一个具有非配对图像数据的映射函数。但是,这些方法通常会产生伪影,并且只能转换低级信息,但无法传输图像的高级语义部分。原因主要是发生器不具备检测图像中最具辨别力的语义部分的能力,从而使得生成的图像具有低质量。为了解决这一局限性,本文提出了一种新颖的注入引导生成对抗网络(AGGAN),它可以检测出最具辨别力的语义对象,并最大限度地减少语义操作问题中不需要部分的变化,而无需使用额外的数据和模型。 AGGAN中的注意力引导发生器能够通过内置的注意机制产生注意力掩模,然后将输入图像与注意力掩模融合,以获得高质量的目标图像。此外,我们提出了一种新的注意力引导的鉴别器,它只考虑了上学地区。建议的AGGAN通过端到端的方式进行训练,具有对抗性损失,周期一致性丢失,像素丢失和注意力损失。定性和定量结果均表明我们的方法可以比现有模型更有效地生成更清晰,更准确的图像。
translated by 谷歌翻译