我们提出了一种深度强化学习方法来优化静态编译器中计算图的执行成本。关键思想是将神经网络策略与遗传算法 - 偏差随机密钥遗传算法(BRKGA)相结合。在给定要优化的输入图的情况下,策略被训练以预测BRKGA中的采样突变和交叉的节点级概率分布。我们的方法“基于REINFORCE的遗传算法学习”(REGAL)使用该策略转移到新图表的能力,以显着提高遗传算法的解决方案质量,以获得相同的客观评估预算。作为一个具体的应用,我们通过联合优化设备布局和调度来显示TensorFlow图中最小化峰值记忆的结果。在以前看不见的图表上,REGAL的峰值内存平均比BRKGA低3.56%,优于我们比较的所有算法,并且比下一个最佳算法的改进大4.4倍。我们还对生产编译器团队的XLA图表性能基准进行了评估,并且比BRKGA平均降低了3.74%的峰值内存,再次超越了所有人。我们的方法和分析是通过收集372个独特的真实世界TensorFlow图表的数据集来实现的,这比以前的工作多了一个数量级。
translated by 谷歌翻译
本文讨论了图结构对象的检索和匹配的挑战性问题,并做出了两个关键的贡献。首先,我们演示了图形神经网络(GNN)如何作为结构化数据上定义的各种监督预测问题的有效模型,可以训练如何在向量空间中生成图形嵌入,从而实现有效的相似性推理。其次,我们提出了一种新颖的图形匹配网络模型,给定一对图形作为输入,通过一个新的基于交叉graphattention的匹配机制联合推理它们来计算它们之间的相似性比较。我们展示了我们的模型在不同领域的有效性,包括基于控制流图的功能相似性搜索的挑战性问题,它在检测软件系统中的漏洞方面起着重要作用。实验分析表明,我们的模型不仅能够在相似性学习的背景下利用结构,而且还可以胜过针对这些问题精心手工设计的特定领域的基线系统。
translated by 谷歌翻译
神经过程(NPs)(Garnelo等2018a; b)通过学习来回归以将观察到的输入 - 输出对的上下文集映射到分布式回归函数。每个函数都根据上下文对输出的分布进行建模。 NP具有有效拟合数据的优势,具有上下文输入 - 输出对数量的线性复杂度,并且可以学习一大类条件分布;它们学习以仲裁集的上下文集为条件的预测分布。尽管如此,我们还是表明NPs存在一个基本的缺点,即在观察到的数据条件的输入上给出了不准确的预测。我们通过将注意力集中到NP来解决这个问题,允许每个输入位置参与预测的相关上下文点。我们证明,这极大地提高了预测的准确性,显着加快了训练速度,并扩展了可以建模的功能范围。
translated by 谷歌翻译
由于“后塌陷”现象,当前潜在的可变生成模型提出了一种具有挑战性的设计选择,其要么削弱解码器的容量,要么需要增加目标,因此它不会最大化数据的可能性。在本文中,我们提出了利用最强大的生成模型作为解码器的替代方案,同时优化变分下限,同时确保关键变量保存和编码有用信息。我们提出的$ \ delta $ -VAEs通过约束后变量族与前者的最小距离来实现这一点。对于连续的潜变量模型,我们的方法类似于慢特征分析的经典表示学习方法。我们展示了我们对LM1B建模文本和建模图像的认可的有效性:学习表示,提高样本质量,以及实现最先进的对数可能性onCIFAR-10和ImageNet $ 32 \次32 $。
translated by 谷歌翻译
深层强化学习的进步已经导致代理人在各种感觉运动领域中表现出色。在这项工作中,我们研究了一个代理必须学习的设置,以便为在给定的符号指令上处理的各种场景生成程序。最终目标通过场景图像指定为ouragent。符合目标图像的符号指令被用作我们策略的条件输入。由于单个指令对应于一组不同但仍然是一致的目标图像,因此代理需要学习在给定指令的情况下生成分布过程。我们证明,通过对强制对抗性学习目标的简单改变,我们可以学习指导条件政策以实现相应的多样化目标。最重要的是,我们的代理商的随机政策被证明可以比基于固定像素的奖励函数基线更准确地捕捉目标分布的多样性。我们在两个领域中展示了我们的方法的功效:(1)使用以指令为条件的绘图软件绘制MNISTdigits,以及(2)在满足特定指令的3D编辑器中构造。
translated by 谷歌翻译
我们提出了一种用于自适应文本到语音(TTS)的元学习方法。在训练期间,我们学习使用共享条件WaveNet核心的多扬声器模型以及每个扬声器的独立学习嵌入。训练的目的不是生成具有固定权重的神经网络,然后将其部署为TTS系统。相反,目标是生成一个网络,在部署时需要很少的数据来快速适应新闻报道。我们介绍并基准三种策略:(i)学习Speakerembedding同时保持WaveNet核心固定,(ii)使用随机梯度下降微调整个体系结构,以及(iii)使用训练有素的神经网络编码器预测Speakerembedding。实验表明,这些方法成功地适应了多扬声器神经网络音调扬声器,只需几分钟来自新扬声器的音频数据,就可以获得样本自然度和语音相似性的最新结果。
translated by 谷歌翻译
这项工作的目的是识别跟踪面部所说的短语和句子,有或没有音频。与之前致力于识别有限数量的单词或短语的作品不同,我们将唇读作为一个开放世界的问题 - 无约束的自然语言句子,以及野外视频。我们的主要贡献是:(1)我们比较两种唇读模型,一种使用CTC损失,另一种使用序列到序列丢失。两种模型都建立在变形金刚自我关注架构之上; (2)我们研究唇读对音频语音识别的重要程度,特别是当音频信号噪声较大时; (3)我们引入并公开发布了一个新的视听语音识别数据集LRS2-BBC,该数据集由来自英国电视的数千个自然语句组成。我们训练的模型在唇读基准数据集上的表现超过了所有前期工作的表现。
translated by 谷歌翻译
基于梯度的元学习技术在解决具有挑战性的小镜头学习和快速适应问题方面具有广泛的适用性和实用性。然而,当在极低数据体系中操作高维参数空间时,它们具有实际困难。我们表明,通过学习模型参数的数据依赖性潜在生成表示,并在这个低维潜在空间中进行基于梯度的学习,可以绕过这些限制。由此产生的方法,潜在嵌入优化(LEO),将基于梯度的自适应过程与模型参数的基础高维空间分离。 Ourevaluation表明,LEO可以在竞争性的miniImageNet和tieredImageNet轻量级分类任务上实现最先进的性能。进一步分析表明LEO能够捕获数据中的不确定性,并且可以通过在潜在空间中进行优化来更有效地执行自适应。
translated by 谷歌翻译
虽然有监督的学习在许多应用中取得了很大的进步,但无监督学习并没有得到如此广泛的应用,并且仍然是人工智能的重要和具有挑战性的努力。在这项工作中,我们提出了一种通用的无监督学习方法,用于从高维数据中提取有用的表示,我们称之为ContrastivePredictive Coding。我们模型的关键见解是通过使用功率反射模型预测潜在空间的未来来学习这种表示。我们使用概率对比损失来诱导潜在空间捕获对预测未来样本最有用的信息。它还通过使用负抽样来使模型易于处理。虽然大多数先前的工作都集中在评估特定模态的表示,但我们证明我们的方法能够学习有用的表示,在四个不同的领域实现强大的表现:语音,图像,文本和强化学习在3D环境中。
translated by 谷歌翻译
我们提出了一种用于训练大规模隐性生成模型的矩量法(MoM)算法。此设置中的矩估计遇到两个问题:通常很难定义所需的数百万个时刻容忍模型参数,并且在指定时刻时很难确定哪些属性是有用的。为了解决第一个问题,我们引入了amoment网络,并将时刻定义为网络的隐藏单位和网络输出的梯度与其参数的关系。为了解决第二个问题,我们使用渐近理论来突出需求模型 - 即它们应该最小化估计模型参数的渐近方差 - 并引入一个目标来学习更好的时刻。通过这种学习时刻(MoLM)方法创建的目标序列可以提供高质量的神经图像采样器。在CIFAR-10上,我们证明了受过MOMM训练的发生器比使用梯度加法正则化和频谱标准化的对抗性目标训练的那些人获得了显着更高的初始分数和更低的开始起始距离。这些发生器还可以实现几乎完美的多尺度结构相似性Scoreson CelebA,并可以创建128x128图像的高质量样本。
translated by 谷歌翻译