现有的模仿学习方法主要集中于使代理有效地模仿一种表现出的行为,但并未解决行为方式与任务目标之间的潜在矛盾。普遍缺乏有效的方法,使代理可以在完成任务的主要目标的同时部分模仿不同程度的演示行为。在本文中,我们提出了一种称为正规软批评的方法,该方法在受约束的马尔可夫决策过程框架(CMDP)下制定了主要任务和模仿任务。主要任务定义为软性参数(SAC)中使用的最大熵目标,模仿任务定义为约束。我们评估了与视频游戏应用程序相关的连续控制任务的方法。
translated by 谷歌翻译
在许多实际应用中,机器学习数据随着时间的流逝依次到达大块。然后,从业者必须决定如何分配其计算预算,以便在任何时间点获得最佳性能。凸优化的在线学习理论表明,最佳策略是在到达时立即使用数据。但是,这可能不是使用深度非线性网络时的最佳策略,尤其是当这些网络对每个数据进行多个数据进行多次通过时,呈现整体分布而非i.i.d ..在本文中,我们在最简单的情况下将此学习环境正式化。每个数据块都是从相同的基础分布中得出的,并首次尝试从经验回答以下问题:学习者在培训新来的块之前应该等待多长时间?学习者应该采用哪些架构?随着观察到更多的数据,学习者是否应该随着时间的推移增加能力吗?我们使用经典计算机视觉基准测试的卷积神经网络以及在大规模语言建模任务中训练的大型变压器模型进行探讨。代码可在\ url {www.github.com/facebookresearch/alma}中获得。
translated by 谷歌翻译
Ensemble learning combines results from multiple machine learning models in order to provide a better and optimised predictive model with reduced bias, variance and improved predictions. However, in federated learning it is not feasible to apply centralised ensemble learning directly due to privacy concerns. Hence, a mechanism is required to combine results of local models to produce a global model. Most distributed consensus algorithms, such as Byzantine fault tolerance (BFT), do not normally perform well in such applications. This is because, in such methods predictions of some of the peers are disregarded, so a majority of peers can win without even considering other peers' decisions. Additionally, the confidence score of the result of each peer is not normally taken into account, although it is an important feature to consider for ensemble learning. Moreover, the problem of a tie event is often left un-addressed by methods such as BFT. To fill these research gaps, we propose PoSw (Proof of Swarm), a novel distributed consensus algorithm for ensemble learning in a federated setting, which was inspired by particle swarm based algorithms for solving optimisation problems. The proposed algorithm is theoretically proved to always converge in a relatively small number of steps and has mechanisms to resolve tie events while trying to achieve sub-optimum solutions. We experimentally validated the performance of the proposed algorithm using ECG classification as an example application in healthcare, showing that the ensemble learning model outperformed all local models and even the FL-based global model. To the best of our knowledge, the proposed algorithm is the first attempt to make consensus over the output results of distributed models trained using federated learning.
translated by 谷歌翻译
Large language models (LLMs) have been shown to be able to perform new tasks based on a few demonstrations or natural language instructions. While these capabilities have led to widespread adoption, most LLMs are developed by resource-rich organizations and are frequently kept from the public. As a step towards democratizing this powerful technology, we present BLOOM, a 176B-parameter open-access language model designed and built thanks to a collaboration of hundreds of researchers. BLOOM is a decoder-only Transformer language model that was trained on the ROOTS corpus, a dataset comprising hundreds of sources in 46 natural and 13 programming languages (59 in total). We find that BLOOM achieves competitive performance on a wide variety of benchmarks, with stronger results after undergoing multitask prompted finetuning. To facilitate future research and applications using LLMs, we publicly release our models and code under the Responsible AI License.
translated by 谷歌翻译
深度学习在时间序列分析中起着越来越重要的作用。我们专注于使用无注意机制,更有效的框架的时间序列预测,并为时间序列预测提出了一个新的体系结构,该预测似乎无法捕获时间依赖性。我们提出了一个使用无注意LSTM层构建的体系结构,该层是克服条件差异预测的线性模型。我们的发现证实了我们的模型的有效性,该模型还允许提高LSTM的预测能力,同时提高学习任务的效率。
translated by 谷歌翻译
模型预测控制是为机器人生成复杂动作的强大工具。但是,它通常需要在线解决非凸问题以产生丰富的行为,这在计算上很昂贵,并且并非总是实时实用的。此外,通过当前状态空间方法,反馈回路中高维传感器数据(例如RGB-D图像)的直接集成具有挑战性。本文旨在解决这两个问题。它引入了模型预测控制方案,其中神经网络不断根据感官输入来更新二次程序的成本函数,旨在最大程度地减少一般的非凸任务丢失而不解决非convex问题在线。通过更新成本,机器人可以直接从传感器测量中适应环境的变化,而无需进行新的成本设计。此外,由于可以通过硬限制有效地解决二次​​程序,因此可以确保机器人安全部署。在工业机器人操纵器上进行了各种涉及任务的实验表明,我们的方法可以有效地解决具有高维视觉感觉输入的复杂的非凸问题,同时仍然对外部干扰保持稳定。
translated by 谷歌翻译
联邦学习(FL)的应用正在稳步增加,尤其是在医疗保健等隐私性应用程序中。但是,由于各种对抗性攻击,例如中毒攻击(模型和数据中毒),其应用程序受到安全问题的限制。这种攻击试图毒化当地模型和数据以操纵全球模型,以获得不当的好处和恶意使用。传统的数据审核方法减轻中毒攻击的方法在FL中找到了有限的应用程序,因为由于隐私问题,边缘设备永远不会直接共享其原始数据,并且在全球范围内分布,没有深入了解其培训数据。此后,制定适当的策略来解决此类攻击并最大程度地减少其对联邦学习全球模型的影响是一项挑战。为了解决FL中的此类挑战,我们提出了一个新颖的框架,以使用深度神经网络和支持向量机的形式检测中毒攻击,而无需获得有关本地边缘设备的基础培训数据的任何直接访问或信息。我们为两种不同的医疗保健应用中使用不同的最先进的中毒攻击来说明和评估所提出的框架:心电图分类和人类活动识别。我们的实验分析表明,所提出的方法可以有效地检测中毒攻击,并可以从全球聚集中删除已确定的中毒更新。此后可以提高联邦全球的性能。
translated by 谷歌翻译
本文提出了一种使用蒙特卡洛树搜索(MCT)来查找接触序列和有效的基于ADMM的轨迹优化算法的有效方法来进行对象操纵计划,以评估候选接触序列的动态可行性。为了加速MCT,我们提出了一种方法来学习一个目标条件的政策值网络,用于将搜索引导到有前途的节点。此外,操纵特定的启发式方法可以大大减少搜索空间。物理模拟器中的系统对象操纵实验证明了我们方法的效率。特别是,由于学识渊博的政策价值网络,我们的方法对长期操纵序列有利,从而大大提高了计划的成功率。
translated by 谷歌翻译
由于基本的非线性,混合和本质上不稳定的动力学,需要通过有限的接触力来稳定,因此为腿部机器人生成强大的轨迹仍然是一项具有挑战性的任务。此外,由于与环境和模型不匹配的未建模接触相互作用引起的干扰会阻碍计划轨迹的质量,从而导致不安全的运动。在这项工作中,我们建议使用随机轨迹优化来生成健壮的质心动量轨迹,以说明模型动力学和触点位置上的参数不确定性上的加法不确定性。通过强大的质心和全身轨迹优化之间的交替,我们生成了健壮的动量轨迹,同时与全身动力学保持一致。我们在四倍的机器人上执行了一组大量的模拟,这表明我们的随机轨迹优化问题减少了不同步态的脚部滑倒量,同时在确定性计划上实现了更好的性能。
translated by 谷歌翻译
假设$ g $是根据所谓的HyperGraph随机块模型(HSBM)产生的,我们考虑了稀疏$ Q $均匀的HyperGraph $ G $中的社区检测问题。我们证明,基于非折线操作员的光谱方法具有很高的概率,可以降低到Angelini等人猜想的广义kesten-Stigum检测阈值。我们表征了稀疏HSBM的非背带操作员的频谱,并使用Ihara-Bass公式为超图提供有效的尺寸降低程序。结果,可以将稀疏HSBM的社区检测减少为$ 2N \ times 2n $非正态矩阵的特征向量问题,该矩阵从邻接矩阵和超级格雷普的学位矩阵中构建。据我们所知,这是第一种可证明,有效的光谱算法,它可以根据一般对称概率张量生成$ K $块的HSBMS阈值。
translated by 谷歌翻译