这项工作报告了开发针对腿部机器人地形遍历性建模的深层增强学习方法,该方法既包含了外部感受和本体感受性的感觉数据。现有作品使用机器人不合时宜的外部感受的环境特征或手工制作的运动功能;取而代之的是,我们建议还从本体感受的感官数据中学习机器人特异性惯性特征,以在单个深层神经网络中奖励近似。合并惯性功能可以改善模型保真度,并提供取决于在部署过程中机器人状态的奖励。我们使用最大熵深的逆增强学习(Medirl)算法训练奖励网络,并同时提出最大程度地减少轨迹排名损失,以应对腿部机器人示范的次优。所证明的轨迹通过运动能源消耗来排名,以学习能源感知的奖励功能和比示范更节能的政策。我们使用MIT Mini-Cheetah机器人和Mini-Cheetah模拟器收集的数据集评估我们的方法。该代码可在https://github.com/ganlumomo/minicheetah-traversability-irl上公开获得。
translated by 谷歌翻译
本文为两足机器人提供了一个步态控制器,鉴于局部斜率和摩擦锥信息,可以在各个地形上行走高度敏捷。没有这些考虑,不合时宜的影响会导致机器人绊倒,而在姿势脚下的切向反作用力不足会导致滑倒。我们通过以新颖的方式将基于角动量线性倒置的摆(ALIP)和模型预测控制(MPC)脚放置计划者组合来解决这些挑战,该模型由虚拟约束方法执行。该过程始于从Cassie 3D Bipedal机器人的完整动力学中抽象,该机器人的质量动力学中心的精确低维表示,通过角动量参数化。在分段平面地形假设和消除机器人质量中心的角动量的术语中,有关接触点的质心动力学变为线性,并具有四个尺寸。重要的是,我们在MPC公式中以均匀间隔的间隔内包含步骤的动力学,以便可以从逐步到步进机器人的演变上进行现实的工作空间约束。低维MPC控制器的输出通过虚拟约束方法直接在高维Cassie机器人上实现。在实验中,我们验证了机器人控制策略在各种表面上具有不同倾斜和质地的性能。
translated by 谷歌翻译
目标是在杂乱或Textuleless环境,相机(和多传感器)校准任务中的对象跟踪等问题,以及同时本地化和映射(SLAM)。用于这些任务的目标形状通常是对称的(方形,矩形或圆形),并且适用于结构化的密集传感器数据(例如像素阵列(即,图像)。然而,当使用稀疏传感器数据(例如LIDAR点云)并且遭受LIDAR的量化不确定性时,对称形状导致占用歧义。本文介绍了优化目标形状的概念,以消除LIDAR点云的姿势模糊性。目标被设计成在旋转和平移下的边缘点处引起大梯度,而相对于LIDAR以改善与点云稀疏相关的量化不确定性。此外,考虑到目标形状,我们提出了一种利用目标的几何形状来估计目标顶点的手段,同时全局估计姿势。模拟和实验结果(通过运动捕获系统验证)确认,通过使用最佳形状和全球求解器,即使在部分照明的目标放置30米处,我们也可以在翻译中的厘米误差和几度旋转。所有实现和数据集都可以在https://github.com/umich-bipedlab/optimal_shape_global_pose_estimation中获得。
translated by 谷歌翻译
我们提出并通过实验证明了双层机器人的反应性规划系统,在未开发,具有挑战性的地形上。该系统由低频规划线(5Hz)组成,用于找到渐近最佳路径和高频无功螺纹(300Hz)以适应机器人偏差。规划线程包括:多层本地地图,以计算地形上机器人的拖拉性;任何时间的全向控制Lyapunov函数(CLF),用于快速探索随机树星(RRT *),它会生成一个矢量字段,用于指定节点之间的运动;当最终目标位于当前地图之外时,子目标查找器;和一个有限状态的机器来处理高级任务决策。该系统还包括反应线,以避免在执行路径后用传统的RRT *算法出现的非平滑运动。具有机器人偏差的反应线应对,同时通过矢量字段(由闭环反馈策略定义)消除非平滑运动,其为机器人的步态控制器提供实时控制命令作为瞬时机器人姿势的函数。该系统在Cassie Blue的模拟和实验中进行了各种具有挑战性的户外地形和杂乱的室内场景,这是一个具有20个自由度的双模型机器人。所有实现在C ++中编码了机器人操作系统(ROS),可在https://github.com/umich-bipedlab/clf_reactive_planning_system中获得。
translated by 谷歌翻译
Safety critical systems involve the tight coupling between potentially conflicting control objectives and safety constraints. As a means of creating a formal framework for controlling systems of this form, and with a view toward automotive applications, this paper develops a methodology that allows safety conditions-expressed as control barrier functionsto be unified with performance objectives-expressed as control Lyapunov functions-in the context of real-time optimizationbased controllers. Safety conditions are specified in terms of forward invariance of a set, and are verified via two novel generalizations of barrier functions; in each case, the existence of a barrier function satisfying Lyapunov-like conditions implies forward invariance of the set, and the relationship between these two classes of barrier functions is characterized. In addition, each of these formulations yields a notion of control barrier function (CBF), providing inequality constraints in the control input that, when satisfied, again imply forward invariance of the set. Through these constructions, CBFs can naturally be unified with control Lyapunov functions (CLFs) in the context of a quadratic program (QP); this allows for the achievement of control objectives (represented by CLFs) subject to conditions on the admissible states of the system (represented by CBFs). The mediation of safety and performance through a QP is demonstrated on adaptive cruise control and lane keeping, two automotive control problems that present both safety and performance considerations coupled with actuator bounds.
translated by 谷歌翻译
Automatically fixing software bugs is a challenging task. While recent work showed that natural language context is useful in guiding bug-fixing models, the approach required prompting developers to provide this context, which was simulated through commit messages written after the bug-fixing code changes were made. We instead propose using bug report discussions, which are available before the task is performed and are also naturally occurring, avoiding the need for any additional information from developers. For this, we augment standard bug-fixing datasets with bug report discussions. Using these newly compiled datasets, we demonstrate that various forms of natural language context derived from such discussions can aid bug-fixing, even leading to improved performance over using commit messages corresponding to the oracle bug-fixing commits.
translated by 谷歌翻译
GPT-3等模型的零和少量提示的最新成功导致了NLP研究的范式转移。在本文中,我们研究了其对文本摘要的影响,重点是新闻摘要的经典基准领域。首先,我们研究了零击GPT-3与在大型摘要数据集中训练的微调模型的比较。我们表明,不仅人类压倒性地更喜欢GPT-3摘要,而且这些摘要也不遭受普通数据集特异性问题(例如事实差的问题)。接下来,我们研究这对评估意味着什么,尤其是黄金标准测试集的作用。我们的实验表明,基于参考和无参考的自动指标,例如最近提出的基于质量检查或基于质量的事实方法无法可靠地评估零击摘要。最后,我们讨论了未来的研究挑战,除了通用摘要之外,特别是基于关键字和方面的摘要,表明了优势微调方法与零拍的提示相比如何。为了支持进一步的研究,我们发布:(a)在4个标准摘要基准中,从微调和零摄像模型中产生的10K生成的摘要,(b)1K人类偏好判断和比较不同系统的普通系统,以进行通用和关键字的不同系统。基于摘要。
translated by 谷歌翻译
当个人指出或谈论其他人的话语时,语言永久不平等的能力最为明显。尽管当前对NLP中偏见的研究主要依赖于对特定群体的仇恨言论或偏见,但我们认为我们可以通过建模说话者,文本和目标来对偏见与语言使用之间的相互作用的相互作用更加微妙和细微的理解在文字中。在本文中,我们介绍了一个由美国国会议员注释的3033个英语推文的数据集,并介绍了人际情绪的注释,并对人际关系成员标签进行了“找到监督”。我们发现,诸如愤怒和厌恶之类的负面情绪主要用于群体外部情况,主要针对对方领导人。虽然人类可以表现出色,而不是鉴定人际群体成员资格的机会,但神经模型的表现要好得多。此外,人际关系成员资格和人际关系情感之间的共同编码使后者有一些表现的提高。这项工作旨在将NLP中偏见的研究从特定的偏见中重新调整为封装说话者,文本,目标和社会动态之间关系的偏见。本文的数据和代码可从https://github.com/venkatasg/interpersonal-dynamics获得
translated by 谷歌翻译
接受高等教育对于少数族裔和新兴双语学生至关重要。但是,高等教育机构用来与准学生交流的语言通常太复杂了。具体而言,美国的许多机构发布录取申请指令远远高于典型高中毕业生的平均阅读水平,通常接近13年级或14年级。这导致学生之间不必要的障碍和获得高等教育。这项工作旨在通过简化文本来应对这一挑战。我们介绍PSAT(专业简化的录取文本),这是一个数据集,其中有112条从美国的高等教育机构中随机选择的录取说明。然后,这些文本将被专业地简化,并被各个机构招生办公室的专职员工专家进行了验证和接受。此外,PSAT带有1,883个原始简化句子对的手动对齐。结果是在与现有简化资源不同的高风险流派中评估和微调文本简化系统的首个语料库。
translated by 谷歌翻译
预审前的语言模型已被证明在许多与软件有关的一代任务中都是有效的。但是,它们不适合编辑任务,因为它们不是为了推理编辑的原因。为了解决这个问题,我们提出了一个新颖的预处理目标,该目标明确地对编辑进行了建模并使用它来构建Coditt5,这是一种用于软件相关编辑任务的大型语言模型,该任务是在大量源代码和自然语言评论中鉴定的。我们将其对各种下游编辑任务进行微调,包括评论更新,错误修复和自动代码审核。通过优于基于纯生成的模型,我们证明了方法的普遍性及其对编辑任务的适用性。我们还展示了纯生成模型和我们的基于编辑的模型如何通过简单的重读策略相互补充,我们可以通过该策略实现三个下游编辑任务的最新性能。
translated by 谷歌翻译