布局对于图形设计和场景生成很重要。我们提出了一种称为LayoutGAN的新型生成对抗网络,它通过对不同类型的2D元素的几何关系进行建模来合成布局。 LayoutGAN的生成器将一组随机放置的2D图形元素作为输入,并使用自注意模块共同细化其标签和几何参数,以产生逼真的布局。准确的对齐对于良好的布局至关重要。因此,我们提出了一种新颖的可区分线框图,它将生成的布局映射到线框图像,基于CNN的鉴别器用于优化图像空间中的布局。我们在各种实验中验证LayoutGAN的有效性,包括MNISTdigit生成,文档布局生成,剪贴画抽象场景生成和七巧板图形设计。
translated by 谷歌翻译
我们提出了引导式缩放,这种方法利用空间接地来做出更明智的预测。它通过确保模型具有预测的“正确理由”来实现,被定义为与在训练时间做出类似正确决策的一致的原因。深度神经网络进行预测的原因/证据被定义为在像素空间中对于模型输出中的特定类条件概率的空间基础。引导缩放问题用于进行预测的证据是多么合理。在最先进的深单标签分类模型中,top-k(k = 2,3,4,...)精度通常显着高于top-1精度。这是更明显的细粒度数据集,其中类之间的差异非常微妙。通过引导式缩放,可以在三个细粒度分类数据集上细化模型的分类精度。我们还探讨了不同基础技术的互补性,通过将它们的整体与一种对抗性擦除方法进行比较,该方法迭代地揭示了下一个最具歧视性的证据。
translated by 谷歌翻译
在本文中,我们研究了提高神经网络计算资源利用率的问题。深度神经网络通常为其任务进行过度参数化以获得良好的性能,因此可能具有未充分利用的计算资源。这一观察结果激发了许多研究课题,例如:网络修剪,架构搜索等。由于具有较高计算成本(例如,更多参数或更多计算)的模型通常具有更好的性能,我们研究了改善神经网络的资源利用的问题,从而可以进一步实现它们的潜力。为此,我们提出了一种名为Neural Rejuvenation的新型优化方法。顾名思义,我们的方法可以检测死亡神经元并实时计算资源利用率,通过资源重新分配和重新初始化来恢复死亡神经元,并使用新的训练方案对它们进行训练。通过简单地用神经复原取代标准优化器,我们能够在使用类似的培训工作和维持其原始资源使用的同时大幅提高神经网络的性能。
translated by 谷歌翻译
我们的目标是从单一的全焦点图像生成高分辨率的浅景深(DoF)图像,并具有可控的焦距和孔径尺寸。为此,我们提出了一种由深度预测模块组成的新型神经网络模型,镜头模糊模块和引导上采样模块。 Allmodules是可区分的,可以从数据中学习。为了训练我们的深度预测模块,我们收集了由双镜头相机手机拍摄的2462个RGB-D图像的数据集,并使用现有的分割数据集来改进边界预测。我们进一步利用已知深度的合成数据集来监督镜头模糊和引导上采样模块。在实验中验证了我们的系统和培训策略的有效性。我们的方法可以在高分辨率下生成高质量的浅层DoF图像,并且产生比用于单图像浅层DoF合成的基线和索引解决方案明显更少的伪像。与iPhone肖像模式相比,这是一种基于双镜头深度相机的最先进的浅景深解决方案,我们的方法可以产生可比较的结果,同时可以更灵活地选择焦点和光圈尺寸,并且不限于一个捕获设置。
translated by 谷歌翻译
关于语义分割的现有工作通常考虑少量标记,范围从几十到几百。由于标签之间存在相关性,缺乏具有完整注释的数据集,因此对于大量标签,此类任务的培训和评估变得极具挑战性。我们将语义分割表示为一个给定语义概念的图像分割问题,并提出一个新系统,它可以处理无数个概念,包括对象,部件,东西和属性。我们使用一个利用多个数据集的弱半监督框架来实现这一点。有不同程度的监督。我们首先在6M的股票图像数据集上训练一个深层网络,只有图像级标签能够在18K概念上进行视觉语义嵌入。然后,我们使用带有750个概念的边界框注释的策划数据集来优化和扩展嵌入网络以预测注意力图。最后,我们使用80类完全注释的数据集训练注意力驱动的类不可知分割网络。我们进行了大量实验,以验证所提出的系统能够在完全监督的概念上与现有技术竞争,并且能够为弱学习和未知概念产生准确的分段。
translated by 谷歌翻译
虽然机器学习方法对视觉情感识别提供了很大的帮助,但是目前的方法考虑在覆盖有限视觉情感概念的小规模图像上训练和测试模型。我们的分析以数据集偏差的形式确定了现有视觉情感基准的一个重要但长期被忽视的问题。我们设计了一系列测试来展示和测量这样的数据集偏差阻碍学习一般化的情感识别模型。根据我们的分析,我们提出了一种网络监督方法,通过平均大量的库存图像数据。我们的方法使用简单的有效的课程指导培训策略来学习辨别力学特征。我们发现,使用我们的大规模图像数据集学习的模型显示出比现有数据集明显更好的泛化能力,而无需手动收集甚至单个标签。此外,使用我们的方法学习的视觉表示在不同图像上的各种任务中具有很多前景。和视频数据集。
translated by 谷歌翻译
车辆重新识别是一个重要的问题,随着视频监控和智能传输应用的快速扩展而变得可取。通过回顾人类视觉的识别过程,我们发现当人类识别不同的车辆时存在本地的等级依赖性。具体地,人类总是首先确定一个车辆的粗粒度类别,即汽车模型/类型。然后,在预测的汽车模型/类型的分支下,他们将通过细微的视觉线索(例如,定制的绘画和挡风玻璃)在细粒度水平上识别特定的车辆。受粗到细分层过程的启发,我们提出了一种用于车辆重新识别的端到端基于RNN的分层注意(RNN-HA)分类模型。 RNN-HA由三个相互耦合的模块组成:第一个模块生成车辆图像的图像表示,第二个层次模块模拟上述层级依赖关系,最后一个注意模块侧重于捕获特定车辆彼此之间的细微视觉信息识别。通过对两个车辆重新识别基准数据集VeRi和VehicleID进行全面的实验,我们证明了所提出的模型实现了超越现有技术的卓越性能。
translated by 谷歌翻译
我们提出了MedSim,一种基于Publicwell建立的生物医学知识图(KGs)和大规模语料库的新型语义相似性方法,研究抗生素的治疗替代。除了KGs的层次结构和语料库外,MedSim还通过构建多维医学特定的特征向量来进一步解释医学特征。采用医生评分的528种抗生素对数据集进行评价,MedSim与其他语义相似性方法相比具有统计学上的显着改善。此外,还提出了MedSim在药物替代和药物滥用预防方面的一些有希望的应用。
translated by 谷歌翻译
近十年来,随着深度卷积神经网络(CNN)的发展,许多最先进的图像分类和音频分类算法取得了显着的成功。但是,大多数工作只利用单一类型的训练数据。在本文中,我们通过利用CNN对视觉(图像)和音频(声音)数据的组合来对鸟类进行分类的研究,该CNN已被稀疏地处理。具体而言,我们提出了基于CNN的融合策略(早期,中期,晚期)类型的多模态学习模型,以解决组合训练数据跨域的问题。我们提出的方法的优点在于我们可以利用CNN不仅从图像和音频数据(频谱图)中提取特征,而且还可以跨特征模式组合特征。在实验中,我们在综合CUB-200-2011标准数据集上训练和评估网络结构,结合我们最初收集的关于数据种类的音频数据集。我们观察到,利用两种数据的组合的模型优于仅用任何类型的数据训练的模型。我们还表明,转移学习可以显着提高分类性能。
translated by 谷歌翻译
MixUp是一种通过混合随机样本的数据增强方法,已经显示出能够显着提高当前深度神经网络技术的预测准确性。然而,MixUp的力量大多是凭经验建立的,其工作和有效性在任何深度都没有解释。在本文中,我们对MixUp进行了理论上的理解,将其作为流形外正则化的一种形式,它将输入空间上的模型限制在数据流形之外。这项分析研究还使我们能够识别由流形侵入引起的MixUp限制,合成样本与歧管的实际例子相撞。这种侵入行为导致过度正规化,从而不合适。为了解决这个问题,我们进一步提出了一种新颖的正则化器,其中混合策略从数据中自适应地学习,并且包含多种入侵损失以避免与数据流形的冲突。我们使用几个基准数据集凭经验证明了我们的正则化器在超深度分类模型和MixUp的过度避免和精度改进方面的有效性。
translated by 谷歌翻译