以前的工作定义了探索性抓握,其中一个机器人迭代地抓住并丢弃一个未知的复杂多面体物体,以发现一组稳定的掌握对象的每个识别的不同稳定的姿势。最近的工作用来了一个多武装强盗模型,每种姿势一小组候选麦克风;但是,对于具有少数成功Grasps的物体,该组可能不包括最强大的掌握。我们展示了学习高效的掌握装置(腿),这是一种算法,可以通过构建大型有希望的掌握的小型活跃的掌握,并使用学习的信心范围来确定何时何时置信,它可以停止探索对象。实验表明,腿可以比不学习活动集的现有算法更有效地识别高质量的掌握。在仿真实验中,我们测量腿部和基线所识别的最佳掌握的成功概率与真正最强大的掌握的最佳差距。经过3000个探索步骤后,腿部优于14个Dex-Net对手的10个中的基线算法和39 egad的25个!对象。然后,我们开发一个自我监督的掌握系统,机器人探讨了人类干预最小的掌握。 3对象的物理实验表明,腿将从基线收敛到高性能的GRASPS比基线更快。有关补充材料和视频,请参阅\ url {https://sites.google.com/view/legs-exp-grasping}。
translated by 谷歌翻译
我们考虑使用随时间变化的贝叶斯优化(TVBO)依次优化时间变化的目标函数的问题。在这里,关键挑战是应对旧数据。当前的TVBO方法需要事先了解恒定的变化率。但是,变化率通常既不知道也不恒定。我们提出了一种事件触发的算法,ET-GP-UCB,该算法检测在线目标函数的变化。事件触发器基于高斯过程回归中使用的概率统一误差界。触发器会自动检测目标函数发生重大变化时。然后,该算法通过重置累积数据集来适应时间更改。我们为ET-GP-UCB提供了遗憾的界限,并在数值实验中显示了它与最先进算法具有竞争力,即使它不需要有关时间变化的知识。此外,如果变更率误指出,ET-GP-UCB的表现要优于这些竞争基准,并且我们证明它很容易适用于各种情况,而无需调整超参数。
translated by 谷歌翻译
强大的控制器确保在不确定性下设计但以绩效为代价的反馈回路中的稳定性。最近提出的基于学习的方法可以减少时间不变系统的模型不确定性,从而改善使用数据的稳健控制器的性能。但是,实际上,许多系统在随着时间的变化形式表现出不确定性,例如,由于重量转移或磨损,导致基于学习的控制器的性能或不稳定降低。我们提出了一种事件触发的学习算法,该算法决定何时在LQR问题中以罕见或缓慢的变化在LQR问题中学习。我们的关键想法是在健壮的控制器和学习的控制器之间切换。对于学习,我们首先使用概率模型通过蒙特卡洛估计来近似学习阶段的最佳长度。然后,我们根据LQR成本的力矩生成功能设计了不确定系统的统计测试。该测试检测到控制下的系统的变化,并在控制性能由于系统变化而恶化时触发重新学习。在数值示例中,我们证明了与鲁棒控制器基线相比的性能提高。
translated by 谷歌翻译
分销转移(DS)是一个常见的问题,可恶化学习机器的性能。为了克服这个问题,我们假设现实世界的分布是由基本分布组成的,这些分布在不同域之间保持不变。我们将其称为不变的基本分布(即)假设。因此,这种不变性使知识转移到看不见的域。为了利用该假设在域概括(DG)中,我们开发了一个由门域单位(GDU)组成的模块化神经网络层。每个GDU都学会了单个基本领域的嵌入,使我们能够在训练过程中编码域相似性。在推断期间,GDU在观察和每个相应的基本分布之间进行了计算相似性,然后将其用于形成学习机的加权集合。由于我们的层是经过反向传播的训练,因此可以轻松地集成到现有的深度学习框架中。我们对Digits5,ECG,CamelyOn17,IwildCam和FMOW的评估显示出对训练的目标域的性能有显着改善,而无需从目标域访问数据。这一发现支持了即现实世界数据分布中的假设。
translated by 谷歌翻译
自动柜员机(ATM)代表最常用的撤销现金系统。欧洲中央银行于2019年报告了110亿美元的现金提取和在欧洲ATM上装载/卸载交易。虽然ATM经历了各种技术演变,但个人识别号码(PIN)仍然是这些设备的最常见的认证方法。不幸的是,PIN机构容易通过安装在ATM附近的隐藏照相机进行的肩部冲浪攻击来捕获针脚垫。为了克服这个问题,人们习惯于另一方面覆盖打字。虽然这些用户可能相信这种行为足够安全,但无法防范提到的攻击,但对科学文献中的这种对策没有明确评估。本文提出了一种新的攻击,以重建被另一方面覆盖着键入的受害者进入的别针。我们考虑攻击者可以访问与目标相同品牌/型号的ATM引脚垫的设置。之后,攻击者使用该模型推断受害者在进入PIN的同时按下的数字。我们的攻击归功于精心选择的深度学习架构,可以从打字的手势和运动中推断出别针。我们运行详细的实验分析,包括58个用户。通过我们的方法,我们可以猜出三次尝试中的5位点引脚的30% - 在阻塞卡之前通常允许的那些。我们还对78名用户进行了一项调查,该调查设法达到了相同的设置平均仅为7.92%的准确性。最后,除非整个键盘被屏蔽,否则我们评估了被证明的屏蔽反应。
translated by 谷歌翻译
安全限制和最优性很重要,但有时控制器有时相互冲突的标准。虽然这些标准通常与不同的工具单独解决以维持正式保障,但在惩罚失败时,加强学习的常见做法是惩罚,以惩罚为单纯的启发式。我们严格地检查了安全性和最优性与惩罚的关系,并对安全价值函数进行了足够的条件:对给定任务的最佳价值函数,并强制执行安全约束。我们通过强大的二元性证明,揭示这种关系的结构,表明始终存在一个有限的惩罚,引起安全值功能。这种惩罚并不是独特的,但大不束缚:更大的惩罚不会伤害最优性。虽然通常无法计算最低所需的惩罚,但我们揭示了清晰的惩罚,奖励,折扣因素和动态互动的结构。这种洞察力建议实用,理论引导的启发式设计奖励功能,用于控制安全性很重要的控制问题。
translated by 谷歌翻译
大多数物理过程具有结构性属性,例如恒定的能量,卷和其他不变性随着时间的推移。当这种动态系统的学习模型时,尊重这些不变性是至关重要的,以确保准确的预测和物理上有意义的行为。引人注目地,高斯过程中的最先进的方法(GP)动态模型学习没有解决这个问题。另一方面,经典的数值积分器专门设计用于通过时间保持这些关键特性。我们建议将GPS的优势与具有用于动态系统的结构保留数值积分器的功能近似器,例如跳动 - 库特拉方法。这些集成商假设访问地面真理动态,并要求对基于学习的场景中未知的中间和未知的中间和未来时间步骤进行评估。这使得GP动力学的直接推动,具有嵌入式数字方案,棘爪。我们的主要技术贡献是评估隐式定义的runge-Kutta转换概率。简而言之,我们介绍了一种用于GP回归的隐式层,其嵌入到基于变分的推断的模型学习方案中。
translated by 谷歌翻译
数学模型是动态控制系统设计中的基本构件。随着控制系统变得越来越复杂和网络,基于第一原理的方法达到了限制。数据驱动的方法提供了替代方案。但是,在没有结构知识的情况下,这些方法很容易在训练数据中找到虚假的相关性,这可能会妨碍所获得的模型的概括能力。当系统暴露于未知情况时,这可以显着降低控制和预测性能。先前的因果鉴定可以防止这种陷阱。在本文中,我们提出了一种识别控制系统因果结构的方法。我们根据可控性概念设计实验,该概念提供了一种系统的方法来计算输入轨迹,该输入轨迹将系统引导到其状态空间中的特定区域。然后,我们分析从因果推理中利用强大技术的结果数据,并将其扩展到控制系统。此外,我们得出了保证发现系统真正因果结构的条件。在机器人臂上的实验表明,来自现实世界数据和增强的概括能力的可靠因果鉴定。
translated by 谷歌翻译
评估数据流是否是从相同分布中绘制的是各种机器学习问题的核心。这与动态系统生成的数据尤其重要,因为这种系统对于生物医学,经济或工程系统的许多实际过程至关重要。虽然内核两样本测试对于比较独立和相同分布的随机变量具有强大的功能,但没有建立的方法来比较动态系统。主要问题是固有的违反独立假设。我们通过解决三个核心挑战提出了针对动态系统的两样本测试:我们(i)引入了一种新颖的混合概念,该概念在相关度量标准中捕获自相关,(ii)提出了一种有效的方法来估计混合速度纯粹依赖于纯粹依赖混合的速度。数据,(iii)将它们集成到已建立的核两样本测试中。结果是一种数据驱动的方法,可直接在实践中使用,并具有合理的理论保证。在从人类步行数据中进行异常检测的示例应用程序中,我们表明该测试很容易适用,没有任何人类的专家知识和功能工程。
translated by 谷歌翻译