为了解决深度生成模型学习中的挑战(例如,变分自动编码器的瑕疵和训练生成对抗网络的不稳定性,我们提出了一种新的深度生成模型,名为Wasserstein-Wasserstein自动编码器(WWAE)。我们制定了WWAE的最小化目标分布和生成的分布之间的惩罚最佳传输。通过注意到潜在代码Z的先前$ P_Z $和聚合后验$ Q_Z $可以被高斯人很好地捕获,所提出的WWAE利用方形的Wasserstein的封闭形式 - 因此,WWAE不会受到采样负担的影响,并且通过利用重新参数化技巧在计算上是有效的。数值结果在多个基准数据集上进行了评估,包括MNIST,时尚-MNIST和CelebA表明WWAE学习得更好。结构比VAE和生成更好的视觉质量和更高的样本r FID得分超过VAE和GAN。
translated by 谷歌翻译
我们提出了一种半光滑牛顿算法用于LASSO和Enet的路径优化(SNAP)稀疏,高维线性回归。 SNAP源自基于牛顿衍生物的合适的KKT条件制剂。它通过主动和连续寻求热循环的解决方案的支持来有效地解决半光滑KKT方程。在路径中的每个结处,SNAP超线性地收敛于Enet标准并且实现LASSO标准的最佳局部收敛,即,SNAP以一次步骤收敛,每次迭代以两次矩阵向量乘法为代价。在设计矩阵的某些规律性条件和目标回归系数的非零元素的最小幅度下,我们表明SNAP以与回归系数相同的符号击中解决方案,并且在有限步骤中以高概率实现了锐化估计误差。 SNAP的计算复杂度显示与每次迭代的LARS和坐标下降算法的计算复杂度相同。仿真研究和实际数据分析支持我们的理论结果,并证明SNAP比LARS更精确,更准确,并协调下降算法。
translated by 谷歌翻译
我们确定了鲁棒性和准确性之间的权衡,这是在设计防御对抗性实例时的一个主要原则。虽然这个问题已经在经验上得到广泛研究,但仍有许多未知关注这种权衡的理论基础。在这项工作中,我们根据对抗性示例的风险与非对抗性示例的风险之间的差距来量化交易。挑战是在代理损失方面提供这个数量的紧密限制。我们根据分类校准损失给出该数量的最佳上限,其与最坏情况下的下限匹配。在我们的理论分析的启发下,我们还设计了一种新的防御方法TRADES,以对抗对抗性,而不是准确性。我们提出的算法在实际数据集中实验性地表现良好。该方法论是我们进入神奇的2018年对抗视觉挑战赛的基础,我们在强劲的模型赛道中赢得了1,995份参赛作品中的第一名,以平均$ $ ell_2 $的价格超过亚军奖金$ 11.41 \%$扰动距离。
translated by 谷歌翻译
在本文中,我们提出了一个大型数据集,并为安全检查X射线图像中的禁止项目发现建立了基线。我们的数据集名为SIXray,由1,059,231个X射线图像组成,其中6类8,929个禁止项目被手动注释。它提出了重叠图像数据的全新挑战,同时与现有的数据集共享相同的属性,包括复杂但无意义的上下文和类不平衡。我们提出了一种名为类平衡分层细化(CHR)的方法来处理这些困难。 CHR假定每个输入图像是从混合分布中采样的,并且深度网络需要迭代过程来准确地推断图像内容。为了加速,我们在不同的网络骨干上插入反向连接,提供高级视觉提示以辅助粒子级功能。此外,类平衡损失函数被设计为最大限度地减轻容易负样本引入的噪声。我们用不同比例的阳性/阴性样品评估SIXray上的CHR。与基线相比,CHR具有更好的区分对象的能力,尤其是使用中级特征,这提供了使用弱监督方法进行精确对象定位的可能性。特别是,在具有较少阳性训练样本的情景中,CHR的优势更为显着,这表明其在实际安全检查中的潜在应用。
translated by 谷歌翻译
深度域自适应方法可以通过学习域不变嵌入来减少分布差异。然而,这些方法仅关注于对齐整个数据分布,而没有考虑源图像和目标图像之间的类级别关系。因此,鸟类的目标嵌入与飞机的源嵌入对齐。这种语义错位可以直接降低targetdataset上的分类器性能。为了缓解这个问题,我们提出了一种用于无监督域自适应的相似性约束对齐(SCA)方法。当对准在嵌入空间thedistributions,SCA强制执行相似度preservingconstraint保持源和targetimages,即其中的类级关系,如果源图像和目标图像是相同的类别标签的,它们相应的嵌入应该是在附近对齐,和viseversa。在没有目标标签的情况下,我们为targetimages分配伪标签。给定标记的源图像和伪标记的目标图像,可以通过最小化三重损失来实现相似性保留约束。通过对域对齐损失和相似性保留约束的联合监督,我们训练网络获得具有两个关键特征的域 - 不变量嵌入,即类内紧致性和类间可分性。对两个数据集井进行的大量实验证明了SCA的有效性。
translated by 谷歌翻译
全球平均联合(GAP)允许将判别信息本地化以进行识别[40]。虽然GAP帮助卷积神经网络参与对象的最具辨别力的特征,但是如果该信息缺失,则可能会受到影响。由于相机视点的变化。为了避免这个问题,我们认为通过建模高级特征之间的空间关系来关注对象的全局配置是有利的。我们提出了一种新的人物重新识别体系结构,它基于一个新颖的无参数空间关注层,将特征地图激活之间的空间关系引入模型。如果没有它,我们的空间注意力层会不断提高模型的性能。四个基准测试的结果表明,我们的模型优于现有技术,在市场-1501上达到94.7%的秩-1准确度,在杜克MTTMC-ReID上达到89.0%,在CUHK03标记上达到74.9%,在检测到CUHK03时达到69.7%。
translated by 谷歌翻译
This paper proposes a new framework to solve the problem of monocular visual odometry, called MagicVO. Based on Convolutional Neural Network (CNN) and Bi-directional LSTM (Bi-LSTM), MagicVO outputs a 6-DoF absolute-scale pose at each position of the camera with a sequence of continuous monocular images as input. It not only utilizes the outstanding performance of CNN in image feature processing to extract the rich features of image frames fully but also learns the geometric relationship from image sequences pre and post through Bi-LSTM to get a more accurate prediction. A pipeline of the MagicVO is shown in Fig. 1. The MagicVO system is end-to-end, and the results of experiments on the KITTI dataset and the ETH-asl cla dataset show that MagicVO has a better performance than traditional visual odometry (VO) systems in the accuracy of pose and the generalization ability.
translated by 谷歌翻译
本文研究了在“通过翻译学习”框架下的人格识别(re-ID)领域适应问题,该框架由两部分组成:1)以无人监督的方式将标记图像从源域转换到目标域,2)学习使用翻译图像的重新ID模型。目标是在图像翻译之后保留潜在的人格信息,使得带有标签的翻译图像对于目标域上的特征学习是有效的。为此,我们提出了一个保持相似性的生成对抗网络(SPGAN)和它的终端可训练版本eSPGAN。两者都旨在保持相似性,SPGAN通过启发式约束来强制执行此属性,而eSPGAN通过最佳地促进重新ID模型学习来实现此属性。更具体地说,SPGAN分别承担“通过翻译学习”框架中的两个组成部分。它首先保留两种类型的无监督相似性,即翻译前后图像的自相似性,以及翻译后的源图像和目标图像的相似性。然后,它使用现有网络学习重新ID模型。相比之下,eSPGAN可以无缝集成图像转换和重新ID模型学习。在eSPGAN的端到端训练期间,重新ID学习指导图像翻译以保留图像的基本身份信息。同时,图像翻译通过提供目标域样式的身份保持训练样本来改进重新ID学习。在实验中,我们表明SPGAN和eSPGAN生成的伪图像的身份保存完好。在此基础上,在两个大规模的人员重新识别数据集上展示了最新的领域适应性结果。
translated by 谷歌翻译
我们通过新的架构设计研究了缓解GAN训练过程中的不稳定性问题。 minimax和maximin目标值之间的差异可以作为替代梯度下降在GAN优化中遇到的困难的代理。在这项工作中,我们给出了关于GAN的多发电机架构的好处的新结果。我们表明,当生成器的数量随着$ \ widetilde {O}(1 / \ epsilon)$的增加而增加时,minimax间隙缩小到$ \ epsilon $。这改善了$ \ widetilde {O}(1 / \ epsilon ^ 2)$的最佳结果。 ourtechniques的核心是Shapley-Folkman引理对于通用minimax问题的一种新颖应用,其中在文献中只有当目标函数局限于aconstraint优化问题的拉格朗日函数时才知道该技术。我们提出的Stackelberg GAN在合成数据集和现实数据集中都可以进行实验,与先前的基准数据集上的多生成器GAN相比,Fr \'echetInception Distance提高了$ 14.61 \%$。
translated by 谷歌翻译
最近,随着卷积神经网络在许多具有挑战性的机器学习领域取得重大成就,手工制作的神经网络不再能满足我们的要求,因为设计网络将花费很多,而自动生成架构已经引起越来越多的关注和关注。对自动生成网络的一些研究已经取得了令人瞩目的成果。然而,它们主要旨在逐个挑选一系列单层,例如卷积或汇集层。在精心手工制作的神经网络中有许多优雅和创造性的设计,例如GoogLeNet中的感知块,残留网络中的残余块和密集卷积网络中的密集块。基于强化学习和这些网络优越性的优势,我们提出了一种新的自动化过程来设计一个多块神经网络,其结构包含上述多种类型的块,目的是深度神经网络的结构学习和探索可能性是否可以将不同的块组合在一起以形成表现良好的神经网络。最佳网络由Q学习代理创建,其被训练以顺序选择不同类型的块。为了验证我们提出的方法的有效性,我们使用自动生成的多块神经网络对具有受限计算资源的图像基准数据集MNIST,SVHN和CIFAR-10图像分类任务进行了实验。结果证明我们的方法非常有效,与手工制作的网络和先进的自动生成神经网络相比,实现了相当或更好的性能。
translated by 谷歌翻译