表示学习通常通过管理维度的诅咒在加强学习中起关键作用。代表性的算法类别利用了随机过渡动力学的光谱分解,以构建在理想化环境中具有强大理论特性的表示。但是,当前的光谱方法的适用性有限,因为它们是用于仅国家的聚合并源自策略依赖性过渡内核的,而无需考虑勘探问题。为了解决这些问题,我们提出了一种替代光谱方法,光谱分解表示(SPEDER),该方法从动力学中提取了国家行动抽象而不诱导虚假依赖数据收集策略,同时还可以平衡探索访问权分析交易 - 在学习过程中关闭。理论分析确定了在线和离线设置中所提出的算法的样本效率。此外,一项实验研究表明,在几个基准测试中,比当前的最新算法表现出色。
translated by 谷歌翻译
电缆在许多环境中无处不在,但容易出现自我闭合和结,使它们难以感知和操纵。挑战通常会随着电缆长度而增加:长电缆需要更复杂的松弛管理和策略,以促进可观察性和可及性。在本文中,我们专注于使用双边机器人自动弄清长达3米的电缆。我们开发了新的运动原语,以有效地解开长电缆和专门用于此任务的新型Gripper Jaws。我们提出了缠结操作(SGTM)的滑动和抓握,该算法将这些原始物与RGBD视觉构成迭代性毫无障碍。SGTM在隔离的外手上取消了67%的成功率,图8节和更复杂的配置上的50%。可以在https://sites.google.com/view/rss-2022-untangling/home上找到补充材料,可视化和视频。
translated by 谷歌翻译
手机等边缘设备上的微调模型将对敏感数据实现隐私的个性化。但是,在历史上,Edge训练仅限于具有简单体系结构的相对较小的模型,因为训练既是记忆力和能量密集型的。我们提出了诗人,这是一种算法,可以在存储器筛分的边缘设备上训练大型神经网络。诗人共同优化了重新布置和分页的综合搜索搜索空间,这两种算法可减少返回传播的记忆消耗。鉴于记忆预算和运行时间的限制,我们制定了一项混合成员线性计划(MILP),以进行最佳培训。我们的方法使培训能够在嵌入式设备上显着更大的模型,同时减少能源消耗,同时不修改反向传播的数学正确性。我们证明,可以在皮质类嵌入式设备的内存约束中微调RESNET-18和BERT,同时在能源效率方面的当前边缘训练方法的表现。诗人是一个开源项目,网址为https://github.com/shishirpatil/poet
translated by 谷歌翻译
通常通过利用低级别表示来解决马尔可夫决策过程(MDP)中维度的诅咒。这激发了有关线性MDP的最新理论研究。但是,大多数方法在不切实际的假设下对分解的归一化或在实践中引入未解决的计算挑战。相反,我们考虑了线性MDP的替代定义,该定义自动确保正常化,同时允许通过对比度估计进行有效的表示。该框架还承认了置信度调整的索引算法,从而使面对不确定性的乐观或悲观主义,使得有效而有原则的方法。据我们所知,这为线性MDP提供了第一种实用的表示学习方法,该方法既可以实现强大的理论保证和经验绩效。从理论上讲,我们证明所提出的算法在在线和离线设置中均有效。从经验上讲,我们在几个基准测试中表现出优于现有基于模型的现有模型和无模型算法的卓越性能。
translated by 谷歌翻译
ALPA通过生成统一数据,操作员和管道并行性的执行计划来自动对大型深度学习(DL)模型的模型平行训练。现有的模型并行训练系统要求用户手动创建并行化计划,或者自动从有限的模型并行性配置中生成一个计划。它们不足以在分布式计算设备上扩展复杂的DL模型。 ALPA通过将并行性视为两个层次级别来分配大型DL模型的训练:操作员和操作员并行性。基于它,ALPA构建了一个新的分层空间,用于大规模的模型并行执行计划。 ALPA设计了许多汇编,以在每个并行性级别自动得出有效的并行执行计划。 ALPA实现了有效的运行时,以在分布式计算设备上协调两级并行执行。我们的评估表明,ALPA生成的并行化计划,即使在其设计的型号上,也可以匹配或超过手动模型并联训练系统。与专业系统不同,ALPA还推广到具有异质体系结构和模型的模型,而没有手动设计的计划。 ALPA的源代码可在https://github.com/alpa-projects/alpa上公开获得
translated by 谷歌翻译
传统的计算机视觉模型受过培训,以预测固定的预定义类别。最近,自然语言已被证明是一个更广泛而更丰富的监督来源,为视觉概念提供更精细的描述,而不是监督“黄金”标签。以前的作品,例如剪辑,使用InfoNce丢失来训练模型以预测图像和文本标题之间的配对。然而,剪辑是饥饿的数据,需要超过400米的图像文本对进行培训。效率低下可以归因于图像文本对嘈杂的事实。为了解决这个问题,我们提出了水獭(有效的零射击识别的最佳运输蒸馏),它使用在线熵最佳运输,找到一个软图像文本与标签进行对比学习。基于预磨料的图像和文本编码器,用电站培训的型号实现了强大的性能,只有3M图像文本对。与InfoNce损失相比,标记平滑和知识蒸馏,OTTER始终如一地优于零拍摄图像(19,958类)和来自腾讯ML图像的多标记Imagenet 10k(10032类)的零拍摄评估中的这些基线。在4个不同的数据集/架构设置x 6度量上,OTTER优于(32)或绑定(2)34中的所有基准。
translated by 谷歌翻译
显示过次分辨率化,导致在亚组信息的各种设置下在罕见的子组上的测试精度差。为了获得更完整的图片,我们考虑子组信息未知的情况。我们调查模型规模在多种设置的经验风险最小化(ERM)下最差组泛化的影响,不同:1)架构(Reset,VGG或BERT),2)域(视觉或自然语言处理)3)模型尺寸(宽度或深度)和4)初始化(具有预先培训或随机重量)。我们的系统评价显示,模型大小的增加不会受到伤害,并且可以帮助所有设置的ERM下的最差群体测试性能。特别是,增加预先训练的模型大小一致地提高水鸟和多液体的性能。当子组标签未知时,我们建议从业者使用更大的预训练模型。
translated by 谷歌翻译
Meta-Renifiltive学习(Meta-RL)已被证明是利用事先任务的经验,以便快速学习新的相关任务的成功框架,但是,当前的Meta-RL接近在稀疏奖励环境中学习的斗争。尽管现有的Meta-RL算法可以学习适应新的稀疏奖励任务的策略,但是使用手形奖励功能来学习实际适应策略,或者需要简单的环境,其中随机探索足以遇到稀疏奖励。在本文中,我们提出了对Meta-RL的后视抢购的制定,该rl抢购了在Meta培训期间的经验,以便能够使用稀疏奖励完全学习。我们展示了我们的方法在套件挑战稀疏奖励目标达到的环境中,以前需要密集的奖励,以便在Meta训练中解决。我们的方法使用真正的稀疏奖励功能来解决这些环境,性能与具有代理密集奖励功能的培训相当。
translated by 谷歌翻译
问题回答模型努力推广到训练模式的新型组成,诸如更长的序列或更复杂的测试结构。目前的端到端模型学习扁平输入嵌入,可以丢失输入语法上下文。先前的方法通过学习置换不变模型来改善泛化,但这些方法不会扩展到更复杂的火车测试分裂。我们提出了接地的图形解码,一种通过与注意机制接地结构化预测来提高语言表示的组成概括的方法。接地使模型能够从输入中保留语法信息,从而显着提高复杂输入的泛化。通过预测包含查询条件的连词的结构化图,我们学习一个组不变的表示,而不会在目标域上做出假设。我们的模型显着优于现有的基础基础上的组成自由BASE问题(CFQ)数据集,这是一个有挑战性的基准,用于有问题的合成概括。此外,我们有效地解决了98%精度的MCD1分体式。
translated by 谷歌翻译
在他们的损失景观方面观看神经网络模型在学习的统计力学方法方面具有悠久的历史,并且近年来它在机器学习中得到了关注。除此之外,已显示局部度量(例如损失景观的平滑度)与模型的全局性质(例如良好的泛化性能)相关联。在这里,我们对数千个神经网络模型的损失景观结构进行了详细的实证分析,系统地改变了学习任务,模型架构和/或数据数量/质量。通过考虑试图捕获损失景观的不同方面的一系列指标,我们证明了最佳的测试精度是如下:损失景观在全球连接;训练型模型的集合彼此更像;而模型会聚到局部平滑的地区。我们还表明,当模型很小或培训以较低质量数据时,可以出现全球相连的景观景观;而且,如果损失景观全球相连,则培训零损失实际上可以导致更糟糕的测试精度。我们详细的经验结果阐明了学习阶段的阶段(以及后续双重行为),基本与偶然的决定因素良好的概括决定因素,负载样和温度相同的参数在学习过程中,不同的影响对模型的损失景观的影响不同和数据,以及地方和全球度量之间的关系,近期兴趣的所有主题。
translated by 谷歌翻译