为了解决深度生成模型学习中的挑战(例如,变分自动编码器的瑕疵和训练生成对抗网络的不稳定性,我们提出了一种新的深度生成模型,名为Wasserstein-Wasserstein自动编码器(WWAE)。我们制定了WWAE的最小化目标分布和生成的分布之间的惩罚最佳传输。通过注意到潜在代码Z的先前$ P_Z $和聚合后验$ Q_Z $可以被高斯人很好地捕获,所提出的WWAE利用方形的Wasserstein的封闭形式 - 因此,WWAE不会受到采样负担的影响,并且通过利用重新参数化技巧在计算上是有效的。数值结果在多个基准数据集上进行了评估,包括MNIST,时尚-MNIST和CelebA表明WWAE学习得更好。结构比VAE和生成更好的视觉质量和更高的样本r FID得分超过VAE和GAN。
translated by 谷歌翻译
车辆重新识别是一个重要的问题,随着视频监控和智能传输应用的快速扩展而变得可取。通过回顾人类视觉的识别过程,我们发现当人类识别不同的车辆时存在本地的等级依赖性。具体地,人类总是首先确定一个车辆的粗粒度类别,即汽车模型/类型。然后,在预测的汽车模型/类型的分支下,他们将通过细微的视觉线索(例如,定制的绘画和挡风玻璃)在细粒度水平上识别特定的车辆。受粗到细分层过程的启发,我们提出了一种用于车辆重新识别的端到端基于RNN的分层注意(RNN-HA)分类模型。 RNN-HA由三个相互耦合的模块组成:第一个模块生成车辆图像的图像表示,第二个层次模块模拟上述层级依赖关系,最后一个注意模块侧重于捕获特定车辆彼此之间的细微视觉信息识别。通过对两个车辆重新识别基准数据集VeRi和VehicleID进行全面的实验,我们证明了所提出的模型实现了超越现有技术的卓越性能。
translated by 谷歌翻译
我们提出了MedSim,一种基于Publicwell建立的生物医学知识图(KGs)和大规模语料库的新型语义相似性方法,研究抗生素的治疗替代。除了KGs的层次结构和语料库外,MedSim还通过构建多维医学特定的特征向量来进一步解释医学特征。采用医生评分的528种抗生素对数据集进行评价,MedSim与其他语义相似性方法相比具有统计学上的显着改善。此外,还提出了MedSim在药物替代和药物滥用预防方面的一些有希望的应用。
translated by 谷歌翻译
近十年来,随着深度卷积神经网络(CNN)的发展,许多最先进的图像分类和音频分类算法取得了显着的成功。但是,大多数工作只利用单一类型的训练数据。在本文中,我们通过利用CNN对视觉(图像)和音频(声音)数据的组合来对鸟类进行分类的研究,该CNN已被稀疏地处理。具体而言,我们提出了基于CNN的融合策略(早期,中期,晚期)类型的多模态学习模型,以解决组合训练数据跨域的问题。我们提出的方法的优点在于我们可以利用CNN不仅从图像和音频数据(频谱图)中提取特征,而且还可以跨特征模式组合特征。在实验中,我们在综合CUB-200-2011标准数据集上训练和评估网络结构,结合我们最初收集的关于数据种类的音频数据集。我们观察到,利用两种数据的组合的模型优于仅用任何类型的数据训练的模型。我们还表明,转移学习可以显着提高分类性能。
translated by 谷歌翻译
MixUp是一种通过混合随机样本的数据增强方法,已经显示出能够显着提高当前深度神经网络技术的预测准确性。然而,MixUp的力量大多是凭经验建立的,其工作和有效性在任何深度都没有解释。在本文中,我们对MixUp进行了理论上的理解,将其作为流形外正则化的一种形式,它将输入空间上的模型限制在数据流形之外。这项分析研究还使我们能够识别由流形侵入引起的MixUp限制,合成样本与歧管的实际例子相撞。这种侵入行为导致过度正规化,从而不合适。为了解决这个问题,我们进一步提出了一种新颖的正则化器,其中混合策略从数据中自适应地学习,并且包含多种入侵损失以避免与数据流形的冲突。我们使用几个基准数据集凭经验证明了我们的正则化器在超深度分类模型和MixUp的过度避免和精度改进方面的有效性。
translated by 谷歌翻译
通过主动选择小批量,可以提高随机梯度下降(SGD)的收敛速度。我们探索了在同一小批量中不太可能选择类似数据点的抽样方案。特别是,我们证明这种排斥采样方案降低了梯度测量仪的方差。这概括了最近关于将小批量多样化(Zhang et al。,2017)的决定点过程(DPP)用于更广泛的排斥点过程的工作。我们首先表明,通过多样化抽样的方差减少现象特别推广到非平稳点过程。然后,我们表明其他点过程在计算上可能比DPP更有效。特别是,我们提出并研究了泊松盘采样---计算机图形社交中经常遇到的---用于此任务。我们凭经验证明,我们的方法在收敛速度和最终模型性能方面都提高了标准SGD。
translated by 谷歌翻译
人工智能研究人员已经在大规模完美信息博弈中实现了人类智能,但在大规模不完全信息博弈(即战争)中实现(近似)最优结果(换句话说,近似纳什均衡)仍然是一个挑战。游戏,足球教练或商业策略)。神经虚拟自我游戏(NFSP)是一种有效的算法,可以在没有先验领域知识的情况下从自我游戏中学习不完全信息博弈的近似纳什均衡。然而,它依赖于深度Q网络,这是离线的,很难在网络游戏中收敛随着对手战略的改变,所以在搜索规模大,搜索深度大的游戏中,它无法接近纳什均衡。在本文中,我们提出了蒙特卡罗神经虚拟自我游戏(MC-NFSP),这种算法将蒙特卡罗树搜索与NFSP相结合,大大提高了大规模零和不完备信息游戏的性能。实验上,我们证明了提出的蒙特卡罗神经虚拟自我游戏可以收敛到具有大规模搜索深度的游戏中的近似纳什均衡,而神经虚拟自我游戏则不能。此外,我们开发了异步神经虚拟自我游戏(ANFSP)。它使用异步和并行架构来收集游戏体验。通过实验,我们证明了平行的演员 - 学习者对训练有进一步的加速和稳定作用。
translated by 谷歌翻译
无监督文本聚类是自然语言处理(NLP)中的主要任务之一,并且仍然是一个困难和复杂的问题。传统的\ mbox {方法}通常使用分离的步骤来处理该任务,包括文本表示学习和聚类表示。 Asan改进,还引入了神经方法用于连续表示学习以解决稀疏性问题。然而,多步骤过程仍然偏离统一的优化目标。特别是群集的第二步通常用传统方法如k-Means执行。我们以端到端的方式提出了一种用于文本聚类的纯神经框架。它共同学习文本表示和聚类模型。当可以获得上下文时,我们的模型很有效,这在NLP领域几乎总是如此。我们在两个广泛使用的基准测试中使用了我们的方法\ mbox {evaluate}:IMDB电影评论forsentiment分类和$ 20 $ -Newsgroup用于主题分类。尽管简单,但实验表明该模型大大优于以前的聚类方法。此外,该模型还在Englishwiki数据集上作为大型语料库进行了验证。
translated by 谷歌翻译
过滤器或神经元的结构化修剪已经受到越来越多的关注,用于压缩卷积神经网络。大多数现有方法依赖于以分层方式进行的多级优化,以进行迭代修剪和重新训练,这可能不是最佳的并且可能是计算密集型的。此外,这些方法被设计用于修剪特定结构,例如滤波器或块结构,而无需联合修剪异构结构。在本文中,我们提出了一种有效的结构化修剪方法,以端到端的方式共同修剪过滤器和其他结构。为了实现这一目标,我们首先引入一个软掩模来扩展这些结构的输出,方法是通过稀疏正则化定义新的目标函数,使基线和网络的输出与此掩模对齐。然后,我们通过生成对抗性学习(GAL)有效地解决了优化问题,GAL可以无标签和端到端的方式学习非常软的掩码。通过将软掩模中的更多缩放因子强制为零,可以利用快速迭代收缩 - 阈值算法(FISTA)来快速且可靠地移除相应的结构。大量实验证明了GAL在不同数据集上的有效性,包括MNIST,CIFAR-10和ImageNet ILSVRC 2012.例如,在ImageNet ILSVRC 2012上,prunedResNet-50达到10.88 \%Top-5误差,结果加速3.7倍。这显着优于最先进的方法。
translated by 谷歌翻译
在本文中,我们研究了无人机在没有传统规划和控制管道的情况下通过倾斜的狭窄间隙飞行的问题。为此,我们提出了一个端到端的政策网络,它模仿传统的管道,并使用强化学习进行微调。与以前使用运动原理规划动态可行轨迹并通过几何控制器跟踪生成轨迹的工作不同,我们提出的方法是一种端到端的方法,它将飞行场景作为输入并直接输出四旋翼的推力 - 姿态控制命令。我们的论文是:1)提出模仿加强的训练框架。 2)使用端到端策略网络在狭窄的空隙中飞行,表明基于学习的方法也可以像传统管道那样解决高度动态的控制问题(参见附件视频:https://www.youtube.com/watch ?v = jU1qRcLdjx0)。 3)提出使用多层感知器对最佳轨迹发生器进行鲁棒模拟。 4)展示如何强化学习可以提高模仿学习的表现,以及实现比基于模型的方法更高的表现的潜力。
translated by 谷歌翻译