The AlphaGo, AlphaGo Zero, and AlphaZero series of algorithms are remarkable demonstrations of deep reinforcement learning's capabilities , achieving superhuman performance in the complex game of Go with progressively increasing autonomy. However, many obstacles remain in the understanding of and usability of these promising approaches by the research community. Toward elucidating unresolved mysteries and facilitating future research, we propose ELF OpenGo, an open-source reimplementation of the AlphaZero algorithm. ELF OpenGo is the first open-source Go AI to convincingly demonstrate superhuman performance with a perfect (20:0) record against global top professionals. We apply ELF OpenGo to conduct extensive ablation studies, and to identify and analyze numerous interesting phenomena in both the model training and in the gameplay inference procedures. Our code, models, selfplay datasets, and auxiliary data are publicly available. 1
translated by 谷歌翻译
为移动设备设计准确有效的ConvNets具有挑战性,因为设计空间是组合大的。因此,先前的神经结构搜索(NAS)方法在计算上是昂贵的。 ConvNet架构的最优性取决于输入分辨率和目标设备等因素。但是,现有方法对于逐案设计而言过于昂贵。此外,以前的工作主要侧重于减少FLOP,但FLOPcount并不总是反映实际延迟。为了解决这些问题,我们提出了可区分的神经架构搜索(DNAS)框架,该框架使用基于梯度的方法来优化ConvNet架构,避免像以前的方法那样单独枚举和训练单独的架构.FBNets,DNAS发现的一系列模型超过了状态-art modelsboth手动设计并自动生成。 FBNet-B在ImageNet上实现了74.1%的前1精度,在三星S8phone上具有295M FLOP和23.1 ms延迟,比MobileNetV2-1.3小2.4倍,速度比MobileNetV2-1.3快1.5倍。尽管比MnasNet具有更高的准确性和更低的延迟,但我们估计FBNet-B的研究成本比MnasNet小420倍,仅为216小时。搜索不同的分辨率和通道大小,FBNets比MobileNetV2实现1.5%至6.4%的高精度。最小的FBNet在三星S8上实现了50.2%的准确率和2.9ms的延迟(每秒345帧)。通过三星优化的FBB,iPhone-X优化型号在iPhone X上实现了1.4倍的加速。
translated by 谷歌翻译
最近在网络量化方面的工作大大减少了神经网络推理的时间和空间复杂性,使得它们能够部署具有有限计算和存储资源的嵌入式和移动设备。然而,现有的量化方法通常表示具有相同精度(位宽)的所有权重和激活。 。在本文中,我们探索了设计空间的一个新维度:量化不同比特宽度的不同层。我们将此问题表述为神经架构搜索问题,并提出一种新的可微分神经架构搜索(DNAS)框架,以通过基于梯度的优化来有效地探索其指数搜索空间。实验表明,我们在CIFAR-10和ImageNet上超越了最新的ResNet压缩。我们的量化模型具有21.1倍更小的模型化或103.9倍更低的计算成本仍然可以胜过基线量化甚至全精度模型。
translated by 谷歌翻译
对于解决问题,基于问题描述做出被动决策的速度很快但不准确,而使用启发式的基于搜索的规划可以提供更好的解决方案,但可能会呈指数级缓慢。在本文中,我们提出了一种新方法,通过迭代选择和重新调整其本地组件直到收敛来改进现有解决方案。重写政策采用经过强化学习训练的神经网络。我们在两个领域评估我们的方法:作业调度和表达式简化。比较tocommon有效启发式,基线深度模型和搜索算法,有效地提供了更高质量的解决方案。
translated by 谷歌翻译
构建能够推广和适应相关环境的深层强化学习代理仍然是人工智能的基本挑战。本文描述了在人造环境中这一挑战的进展,人造环境在视觉上是多样的,但包含内在的语义规律。我们提出了一种基于混合模型和无模型的方法,LEArning和Planning with Semantics(LEAPS),由一个作用于视觉输入的多目标子策略和一个基于语义结构的贝叶斯模型组成。当置于不可见的环境中时,代理计划使用语义模型进行高级决策,提出子策略执行的下一个子目标,并根据新的观察更新语义模型。我们使用House3D执行实验隐形导航任务,House3D是一个3D环境,包含多种人性化的室内场景和真实世界的物体。 LEAPS优于未明确计划使用语义内容的strongbaselines。
translated by 谷歌翻译
理解深度和局部连接的非线性网络(如深度卷积神经网络(DCNN))的理论性质,尽管取得了经验上的成功,仍然是一个难题。在本文中,我们提出了一种具有ReLU非线性的网络的新理论框架。框架明确地形成数据分布,有利于解开的表示,并且与诸如批量规范之类的常见正则化技术兼容。框架建立在师生设置的基础上,通过将学生向前/向后传播扩展到教师的计算图上。所得到的模型没有强加不切实际的假设(例如,高斯输入,激活的独立性等)。我们的框架可以帮助促进对许多实际问题的理论分析,例如:深层网络中的过度拟合,泛化,解开表示。
translated by 谷歌翻译
基于模型的强化学习(RL)被认为是一种有希望的方法,可以降低阻碍无模型RL的样本复杂性。然而,对这些方法的理论理解相当有限。本文介绍了一种新的算法框架,用于设计和分析基于模型的RL算法,并提供理论保证。我们设计了ameta算法,其理论上保证单调改进到预期奖励的局部最大值。元算法基于估计的动态模型和样本轨迹迭代地建立预期奖励的下限,然后在策略和模型上共同最大化下限。该框架将不确定性的乐观主义原则扩展到非线性动力学模型,其方式不需要明确的不确定性量化。通过简化实例化我们的框架提供了基于模型的RL算法随机下界优化(SLBO)的变体。实验证明,当在一系列连续控制基准任务上仅允许一百万或更少的样本时,SLBO实现了最先进的性能。
translated by 谷歌翻译
In this work, we propose a goal-driven collaborative task that containslanguage, vision, and action in a virtual environment as its core components.Specifically, we develop a Collaborative image-Drawing game between two agents,called CoDraw. Our game is grounded in a virtual world that contains movableclip art objects. The game involves two players: a Teller and a Drawer. TheTeller sees an abstract scene containing multiple clip art pieces in asemantically meaningful configuration, while the Drawer tries to reconstructthe scene on an empty canvas using available clip art pieces. The two playerscommunicate via two-way communication using natural language. We collect theCoDraw dataset of ~10K dialogs consisting of ~138K messages exchanged betweenhuman agents. We define protocols and metrics to evaluate the effectiveness oflearned agents on this testbed, highlighting the need for a novel crosstalkcondition which pairs agents trained independently on disjoint subsets of thetraining data for evaluation. We present models for our task, including simplebut effective nearest-neighbor techniques and neural network approaches trainedusing a combination of imitation learning and goal-driven training. All modelsare benchmarked using both fully automated evaluation and by playing the gamewith live human agents.
translated by 谷歌翻译
我们考虑学习具有非重叠卷积层和ReLU激活的单隐层神经网络的问题,即$ f(\ mathbf {Z},\ mathbf {w},\ mathbf {a})= \ sum_j a_j \ sigma(\ mathbf {w} ^ T \ mathbf {Z} _j)$,其中卷积权重$ \ mathbf {w} $和输出权重$ \ mathbf {a} $是要学习的参数。当标签是具有固定权重$(\ mathbf {w} ^ *,\ mathbf {a} ^ *)$的相同架构的教师网络的输出时,我们用高斯输入$ \ mathbf {Z} $证明,有一个有害的局部最小化器。令人惊讶的是,在存在虚假局部最小化的情况下,随机初始化权重的权重归一化的梯度下降仍然可以证明恢复具有恒定概率的真实参数,可以通过多次重启来提升到1美元的概率。 Wealso表明,在恒定的概率下,相同的程序也可以归结为虚假的局部最小值,表明局部最小值在梯度下降的动力学中起着重要的作用。此外,水平分析表明梯度下降动力学有两个阶段:它开始缓慢,但在几次迭代后收敛得更快。
translated by 谷歌翻译
从单个图像中理解3D对象结构是计算机视觉中的一项重要但困难的任务,主要是由于在真实图像中缺少3D对象注释。以前的工作通过在给定2D关键点位置的情况下解决优化任务,或者使用地面实况3D信息对合成数据进行训练来解决这个问题。在这项工作中,我们提出了3DINterpreter Network(3D-INN),这是一个端到端的框架,它依次估计2D关键点热图和3D对象结构,在real2D注释图像和合成3D数据上进行训练。这主要是通过双重技术创新实现的。首先,我们提出了一个投影层,它将3D结构投射到二维空间,以便训练3D-INN来预测真实图像上二维注释监督的三维结构参数。其次,关键点的热图用作连接合成数据的中间表示,使得3D-INN能够受益于合成3D对象的变化和丰富,而不会由于不完美的渲染而遭受真实和合成图像的统计之间的差异。该网络在2D关键点估计和3D结构恢复方面实现了最先进的性能。我们还表明,恢复的3D信息可以用于其他视觉应用,例如3D渲染和图像检索。
translated by 谷歌翻译