机器人经常面临抓住目标对象的情况,但由于其他当前物体阻止了掌握动作。我们提出了一种深入的强化学习方法,以学习掌握和推动政策,以在高度混乱的环境中操纵目标对象以解决这个问题。特别是,提出了双重强化学习模型方法,该方法在处理复杂场景时具有很高的弹性,在模拟环境中使用原始对象平均达到98%的任务完成。为了评估所提出方法的性能,我们在包装对象和一堆对象方案中进行了两组实验集,在模拟中总共进行了1000个测试。实验结果表明,该提出的方法在各种情况下都效果很好,并且表现出了最新的最新方法。演示视频,训练有素的模型和源代码可重复可重复性目的。 https://github.com/kamalnl92/self-superist-learning-for-pushing-and-grasping。
translated by 谷歌翻译
互动模拟使学生可以通过自己的探索来发现科学现象的基本原理。不幸的是,学生经常在这些环境中有效地学习。根据他们的预期表现对学生的互动数据进行分类,有可能实现自适应指导并因此改善学生的学习。该领域的先前研究主要集中于A-tosteriori分析或研究限于一个特定的预测模型和仿真。在本文中,我们研究了模型的质量和普遍性,以根据跨交互式仿真的学生的点击数据进行概念性理解的早期预测。我们首先通过他们的任务表现来衡量学生的概念理解。然后,我们建议一种新型的功能,该功能从ClickStream数据开始,既编码仿真的状态和学生执行的动作。我们最终建议将这些功能馈送到基于GRU的模型中,有或没有注意力进行预测。在两个不同的模拟上进行的实验和两个不同的人群表明,我们提出的模型的表现优于浅层学习基准,并更好地推广到不同的学习环境和人群。将注意力包括在模型中可以提高有效的查询。源代码可在GitHub(https://github.com/epfl-ml4ed/beerslaw-lab.git)上获得。
translated by 谷歌翻译
团体公平确保基于机器学习的结果(ML)决策系统的结果不会偏向于某些由性别或种族等敏感属性定义的人。在联合学习(FL)中实现群体公平性是具有挑战性的,因为缓解偏差固有地需要使用所有客户的敏感属性值,而FL则旨在通过不给客户数据访问来保护隐私。正如我们在本文中所显示的那样,可以通过将FL与安全的多方计算(MPC)和差异隐私(DP)相结合来解决FL中的公平与隐私之间的冲突。在此过程中,我们提出了一种在完整和正式的隐私保证下培训跨设备FL中的小组最大ML模型的方法,而无需客户披露其敏感属性值。
translated by 谷歌翻译
我们解决了从培训数据中学习机器学习模型的问题,该模型源于多个数据所有者,同时提供有关保护每个所有者数据的正式隐私保证。基于差异隐私(DP)的现有解决方案以准确性下降为代价。基于安全多方计算(MPC)的解决方案不会引起这种准确性损失,而是在公开可用的训练模型时泄漏信息。我们提出了用于训练DP模型的MPC解决方案。我们的解决方案依赖于用于模型培训的MPC协议,以及以隐私保护方式以拉普拉斯噪声扰动训练有素的模型系数的MPC协议。所得的MPC+DP方法比纯DP方法获得了更高的准确性,同时提供相同的正式隐私保证。我们的工作在IDASH2021轨道III竞赛中获得了针对安全基因组分析的机密计算竞赛的第一名。
translated by 谷歌翻译