设计RNA分子最近引起了人们对医学,合成生物学,生物技术和生物信息学的兴趣,因为许多功能性RNA分子被证明参与转录,表观遗传学和翻译的调控过程。由于RNA的功能取决于其结构特性,因此RNA设计问题是找到折叠成指定二级结构的RNA序列。在这里,我们提出了一个新的RNADesign问题算法,称为LEARNA。 LEARNA使用深度强化学习traina政策网络,依次设计一个完整的RNA序列作为指定的二级目标结构。通过在20个核心上跨越8000个不同的靶标结构进行元学习一小时,我们的扩展Meta-LEARNA构建了一个RNA设计策略,可以开箱即用于溶剂化RNA靶标结构。在方法论上,对于我们认为是第一次,我们共同优化政策网络的丰富的神经架构空间,培训程序的超参数和决策过程的制定。关于二次使用的RNA二级结构设计基准的综合实证结果,以及我们介绍的第三个基准,表明我们的方法在所有基准上实现了新的最先进的性能,同时在达到之前的状态时也更快地达到了数量级 - 最先进的表现。在消融研究中,我们分析了我们方法的不同组成部分的重要性。
translated by 谷歌翻译
深度学习在过去几年中在图像识别,语音识别和机器翻译等各种任务方面取得了显着进步。这一进步的一个重要方面是新颖的neuralarchitectures。目前使用的架构大多是由人类专家手工开发的,这是一个耗时且容易出错的过程。因此,人们对自动神经网络搜索方法越来越感兴趣。我们概述了该研究领域的现有工作,并根据三个维度对其进行分类:搜索空间,搜索策略和绩效评估策略。
translated by 谷歌翻译
虽然现有的神经架构搜索(NAS)工作在单独的后处理步骤中调整超参数,但我们证明了架构选择和其他超参数设置的交互方式可以使这种分离不是最理想的。同样地,我们证明了在主要NAS期间使用非常少的时期以及在后处理步骤期间使用更多数量的时期的常见做法是低效的,因为这两种训练方案的相对排名几乎没有相关性。为了解决这两个问题,我们建议使用最近的贝叶斯优化和超带的组合来实现高效的联合神经结构和超参数搜索。
translated by 谷歌翻译
现代深度学习方法对许多超参数非常敏感,并且由于最先进模型的长训练时间,香草贝叶斯超参数优化通常在计算上是不可行的。另一方面,基于随机搜索的基​​于强盗的配置评估方法缺乏指导,并且不能快速收敛到最佳配置。在这里,我们建议结合贝叶斯优化和基于带宽的方法的优点,以实现最佳两个世界:强大的时间性能和快速收敛到最佳配置。我们提出了一种新的实用的最先进的超参数优化方法,它在广泛的问题类型上始终优于贝叶斯优化和超带,包括高维玩具函数,支持向量机,前馈神经网络,贝叶斯神经网络,深度执行学习和卷积神经网络。我们的方法坚固耐用,功能多样,同时在概念上简单易行。
translated by 谷歌翻译
具有编码组件(例如自动编码器)的生成模型目前非常令人感兴趣。然而,自动编码器的训练通常由于需要训练单独的编码器和解码器模型而变得复杂,所述编码器和解码器模型必须被强制为彼此互逆。为了克服这个问题,通过设计可逆神经网络(RevNets)先前已经用作生成模型,或者直接优化数据在模型中的可能性,或者对生成的数据使用对抗性方法。在这里,我们在对抗性自动编码器框架中使用潜在空间上的对手调查他们的表现。我们在CelebA数据集上研究了RevNets的生成性能,显示生成RevNetscan生成与变分自动编码器具有相似质量的相干面。这种在对抗性自动编码器框架内使用RevNets的第一次尝试相对于使用CelebA上的自动编码器组件的最新高级生成模型而言略微表现不佳,但是通过进一步优化生成RevNets的训练设置,这种差距可能会缩小。除了CelebA的实验,我们在MNISTdataset上展示了一个原理验证实验,表明无对手训练的RevNets可以发现有意义的维度,而无需预先指定潜在的采样分布的维数。总之,本研究表明RevNets可以在不同的生成训练环境中使用。这项研究的源代码是:http://github.com/robintibor/generative-reversible
translated by 谷歌翻译
Bayesian optimization is a sample-efficient approach to global optimization that relies on theoretically motivated value heuristics (acquisition functions) to guide its search process. Fully maximizing acquisition functions produces the Bayes' decision rule, but this ideal is difficult to achieve since these functions are frequently non-trivial to optimize. This statement is especially true when evaluating queries in parallel, where acquisition functions are routinely non-convex, high-dimensional, and intractable. We first show that acquisition functions estimated via Monte Carlo integration are consistently amenable to gradient-based optimization. Subsequently, we identify a common family of acquisition functions, including EI and UCB, whose properties not only facilitate but justify use of greedy approaches for their maximization.
translated by 谷歌翻译
架构搜索旨在自动查找与人类专家设计的架构竞争的神经架构。虽然最近的方法已经实现了图像识别的最先进的预测性能,但是在资源限制下它们存在问题,原因有两个:(1)发现的神经架构仅针对高预测性能进行了优化,而没有惩罚过多的资源消耗; (2)大多数架构搜索方法需要大量的计算资源。我们通过提出LEMONADE提出了第一个缺点,LEMONADE是一种多目标体系结构搜索的进化算法,允许在单个运行方法中在多个目标下近似Pareto-frontof体系结构,例如预测性能和参数数量。我们通过提出LEMONADE的Lamarckian遗传机制来解决第二个问题,LEMONADE生成了儿童网络,这些网络是由受过训练的父母的预测性能开始的。这是通过使用(近似的)网络态射算子来生成孩子来实现的。通过这两个贡献的组合,可以在8GPU上仅在一周内找到不同尺寸的NASNets,MobileNets,MobileNets V2和WideResidual Networks在CEGAR-10和ImageNet64x64上的表现,其计算能力比以前低20-40倍。架构搜索方法可以产生最先进的性能。
translated by 谷歌翻译
生物进化提供了复杂和微妙的适应性的创造性源泉,通常令发现它们的科学家感到惊讶。然而,因为进化是一种超越其发生的基质的算法过程,所以进化的创造力不仅限于自然。实际上,数字进化领域的许多研究人员已经观察到他们的进化算法和有机体颠覆了他们的意图,在他们的代码中暴露了未被识别的局部,产生了意想不到的适应性,或者表现出与自然界中的结果一致的结果。这些故事通常会在这些数字世界中通过进化来揭示创造力,但它们很少符合标准的科学叙事。相反,它们通常被视为仅仅被克服的障碍,而不是需要自己研究的结果。故事本身通过口头传统在研究人员之间进行交易,但信息传播方式效率低下,容易出错和直接损失。而且,这些故事往往只与实践者共享这一事实意味着许多自然科学家并没有意识到有趣的数字生物是多么有趣,他们的进化是多么自然。据我们所知,此前没有出版过这类轶事的集合。本文是研究人员在人工生命和进化计算领域的众包产品,他们提供了这类案件的第一手资料。因此,它可以作为一个经过实际检验的书面文集,收集科学上重要的,甚至是有趣的故事。在这样做的同时,我们在这里也有大量的证据表明,进化意外的存在和重要性超越了自然界,并且可能确实是所有复杂演化系统的通用属性。
translated by 谷歌翻译
光流估计可以表示为端到端的监督学习问题,与替代方法相比,可以产生具有更高精度 - 运行时间偏差的估计。在本文中,我们使这样的网络估计他们对预测正确性的局部不确定性,这是在估计之上做出决策时的重要信息。我们首次比较了几种策略和技术,以评估大规模计算机视觉任务(如光流估算)中的不确定性。此外,我们引入了一种新的网络架构和损失功能,它可以强制实施互补假设,并且只需一次正向通过就可以有效地提供不确定性估计,而无需对其进行采样。我们证明了不确定性估计的质量,这明显高于先前对光流的置信度测量,并允许交互帧速率。
translated by 谷歌翻译
L 2 regularization and weight decay regularization are equivalent for standard stochastic gradient descent (when rescaled by the learning rate), but as we demonstrate this is not the case for adaptive gradient algorithms, such as Adam. While common implementations of these algorithms employ L 2 regularization (often calling it "weight decay" in what may be misleading due to the inequivalence we expose), we propose a simple modification to recover the original formulation of weight decay regularization by decoupling the weight decay from the optimization steps taken w.r.t. the loss function. We provide empirical evidence that our proposed modification (i) decouples the optimal choice of weight decay factor from the setting of the learning rate for both standard SGD and Adam and (ii) substantially improves Adam's generalization performance, allowing it to compete with SGD with momentum on image classification datasets (on which it was previously typically outperformed by the latter). Our proposed decoupled weight decay has already been adopted by many researchers, and the community has implemented it in TensorFlow and PyTorch; the complete source code for our experiments is available at https://github.com/loshchil/AdamW-and-SGDW
translated by 谷歌翻译