具有更多数据,计算和参数的缩放语言模型在自然语言处理方面取得了重大进展。例如,由于缩放,GPT-3能够在内心学习任务上实现强烈结果。但是,培训这些大密度模型需要大量的计算资源。在本文中,我们提出并开发了名为Glam(通用语言模型)的语言模型系列,它使用稀疏激活的专家架构来规模模型容量,同时与致密变体相比,也产生显着更少的训练成本。最大的Glam具有1.2万亿参数,比GPT-3大约为7倍。它仅消耗了用于训练GPT-3的1/3的能量,并且需要一半的计算拖鞋进行推理,同时仍然在29个NLP任务中实现更好的整体零射击和一次性性能。
translated by 谷歌翻译
我们呈现GSPMD,一种用于公共机器学习计算的自动,基于编译的并行化系统。它允许用户以与单个设备的方式相同的方式编写程序,然后通过关于如何分发Tensors的一些注释来提供提示,基于哪个GSPMD将并行化计算。其分区的表示简单尚不一般,允许它在各种模型上表达并行性的不同或混合范式。GSPMD基于有限的用户注释为每个运算符的分区Inventing,使得缩放现有的单设备程序方便。它解决了生产使用的几种技术挑战,允许GSPMD实现50%至62%的计算利用率,用于高达2048个云TPUv3核心,适用于高达1万亿参数的模型。
translated by 谷歌翻译
最近的变形金刚和多层Perceptron(MLP)模型的进展为计算机视觉任务提供了新的网络架构设计。虽然这些模型在许多愿景任务中被证明是有效的,但在图像识别之类的愿景中,仍然存在挑战,使他们适应低级视觉。支持高分辨率图像和本地注意力的局限性的不灵活性可能是使用变压器和MLP在图像恢复中的主要瓶颈。在这项工作中,我们介绍了一个多轴MLP基于MARIC的架构,称为Maxim,可用作用于图像处理任务的高效和灵活的通用视觉骨干。 Maxim使用UNET形的分层结构,并支持由空间门控MLP启用的远程交互。具体而言,Maxim包含两个基于MLP的构建块:多轴门控MLP,允许局部和全球视觉线索的高效和可扩展的空间混合,以及交叉栅栏,替代跨关注的替代方案 - 细分互补。这两个模块都仅基于MLP,而且还受益于全局和“全卷积”,两个属性对于图像处理是可取的。我们广泛的实验结果表明,所提出的Maxim模型在一系列图像处理任务中实现了十多个基准的最先进的性能,包括去噪,失败,派热,脱落和增强,同时需要更少或相当的数量参数和拖鞋而不是竞争模型。
translated by 谷歌翻译
我们在具有挑战性的3D视频游戏中处理规划和导航,其中包含使用特殊操作的代理商的断开区域的地图。在此设置中,经典符号规划者不适用或难以适应。我们介绍了一种混合技术,结合了培训的钢筋学习训练的低级政策和基于图的高级古典规划器。除了提供人类可解释的路径之外,该方法还提高了看不见地图中的端到端方法的泛化性能,在那里它在一点上通过复发端到端剂的成功率达到20%的绝对增加要点导航任务,但看不见的大型码1km x 1km。在深入的实验研究中,我们量化了巨大环境中端到端深度RL方法的局限性,我们还介绍了一个新的基准,即很快被释放的环境,可以生成用于导航任务的复杂程序3D地图。
translated by 谷歌翻译
目前的最先进的NLP系统使用大量的神经网络,需要大量的计算资源进行培训。通过人类知识获取的启发,研究人员提出了课程学习, - 任务的排序(基于任务为基础的课程)或数据集的排序和采样(基于数据的课程),便于培训。这项工作调查了基于数据的课程学习的好处,例如BERT和T5等大型现代语言模型。我们根据一系列复杂性措施和不同的采样策略来试验各种课程。对不同NLP任务的广泛实验表明,基于各种复杂度措施的课程很少有任何益处,而随机采样也比课程更好地表现。
translated by 谷歌翻译
本文致力于检测地球图像森林和非林区的问题。我们提出了两个统计方法来解决这个问题:一个基于多假设检测与参数分布家庭,另一个在非参数测试。参数化方法是文献中的新颖,与更大类别的问题相关 - 检测天然对象,以及异常检测。我们为两种方法中的每一种开发数学背景,使用它们构建自充足检测算法,并讨论其实现的数值方面。我们还将我们的算法与使用卫星数据的标准机器学习的算法进行比较。
translated by 谷歌翻译
在这项工作中,我们提出了一种新的多模态多代理轨迹预测架构,专注于使用图形表示的地图和交互建模。出于地图建模的目的,我们将丰富的拓扑结构捕获到基于向量的星形图中,使代理能够直接参加用于代表地图的折线上的相关区域。我们表示此架构Starnet,并将其集成在单次代理预测设置中。作为主要结果,我们将此架构扩展到联合场景级预测,同时产生多个代理的预测。联合赛斯网的关键思想在自己的参考框中将一个代理的意识与其他代理人的观点察觉到。我们通过蒙面的自我关注实现这一目标。两个提出的架构都建立在我们以前的工作中介绍的动作空间预测框架之上,这确保了运动学上可行的轨迹预测。我们评估了富含互动的IND和交互数据集的方法,其中STARNET和联合星网实现了最先进的技术。
translated by 谷歌翻译
确定数据集中的有意义和独立因素是一个充满挑战的学习任务,经常通过深度潜变量模型解决。可以将此任务视为保留所选属性的值的学习对称转换沿潜在维度。然而,现有方法在实施潜在空间中的不变性属性方面表现出严重的缺点。我们以一种新的方法来解决这些缺点来循环一致性。我们的方法涉及目标属性的两个单独的潜在子页和剩余的输入信息。为了强制执行潜伏空间中的不变性以及稀疏性,我们通过使用依赖属性侧信息的周期一致性约束来融合语义知识。该方法基于深度信息瓶颈,与其他方法相比,允许使用连续目标属性并提供固有的模型选择能力。我们展示了我们的方法识别出更有意义的因素的综合和分子数据,这导致稀疏和更具可解释的模型,具有改善的不变性属性。
translated by 谷歌翻译
迭代学习控制(ILC)是在存在建模误差中的高性能跟踪的强大技术,以获得最佳控制应用。在化学反应器,工业机器人和Quadpopters等应用中,有广泛的现有工作表明其经验效果。然而,即使在存在大型建模错误的情况下,也有很少的现有理论工作,即使在大型建模错误的情况下,也可以在存在大型建模错误中,其中使用错过模型(mm)的最佳控制方法经常表现不佳。我们的工作提出了ilc和mm对线性二次调节器(LQR)问题的表现的理论研究,具有未知的过渡动态。我们表明,对于ILC的最佳LQR控制器测量的次优差间隙低于MM的高阶术语在高建模误差的方案中变得显着的比例低于MM。我们分析的一个关键部分是有限地域设置中离散Ricatti方程的扰动界限,其中解决方案不是一个固定点,并且需要使用递归界限跟踪错误。我们将我们的理论调查结果与具有近似模型的玩具线性动力系统的实验实验,一个非线性倒立摆动系统,具有错过质量的非线性倒立摆动系统,以及风的非线性平面正质量。实验表明,根据计算轨迹的成本,ILC在模拟误差高时显着优于MM显着。
translated by 谷歌翻译
我们开发了一个探索漏洞利用马尔可夫链Monte Carlo算法($ \ OperatorName {ex ^ 2mcmc} $),它结合了多个全局提议和本地移动。所提出的方法是巨大的平行化和极其计算的高效。我们证明$ \ operatorname {ex ^ 2mcmc} $下的$ v $ v $ -unique几何ergodicity在现实条件下,并计算混合速率的显式界限,显示多个全局移动带来的改进。我们展示$ \ operatorname {ex ^ 2mcmc} $允许通过提出依赖全局移动的新方法进行微调剥削(本地移动)和探索(全球移动)。最后,我们开发了一个自适应方案,$ \ OperatorName {Flex ^ 2mcmc} $,它学习使用归一化流的全局动作的分布。我们说明了许多经典采样基准测试的$ \ OperatorName {ex ^ 2mccmc} $及其自适应版本的效率。我们还表明,这些算法提高了对基于能量的模型的抽样GAN的质量。
translated by 谷歌翻译