智能论文笔记

Code as Policies: Language Model Programs for Embodied Control

Jacky Liang , Wenlong Huang , Fei Xia , Peng Xu , Karol Hausman , Brian Ichter , Pete Florence , Andy Zeng

分类：机器人

2022-09-16

已经证明，经过代码完成培训的大型语言模型（LLMS）能够合成DocStrings的简单Python程序[1]。我们发现这些代码编写的LLM可以被重新使用以编写机器人策略代码，给定自然语言命令。具体而言，策略代码可以表达处理感知输出的功能或反馈循环（例如，从对象检测器[2]，[3]）并参数化控制原始API。当作为输入提供了几个示例命令（格式为注释）后，然后是相应的策略代码（通过少量提示），LLMS可以接收新命令并自主重新编写API调用以分别生成新的策略代码。通过链接经典的逻辑结构并引用第三方库（例如，numpy，shapely）执行算术，以这种方式使用的LLM可以编写（i）（i）表现出空间几何推理的机器人策略，（ii）（ii）将其推广到新的说明和新指令和新指令和（iii）根据上下文（即行为常识）规定模棱两可的描述（例如“更快”）的精确值（例如，速度）。本文将代码作为策略介绍：语言模型生成程序的以机器人为中心的形式化（LMP），该程序可以代表反应性策略（例如阻抗控制器），以及基于Waypoint的策略（基于远见的选择，基于轨迹，基于轨迹，控制），在多个真实的机器人平台上展示。我们方法的核心是促使层次代码 - 代码（递归定义未定义的功能），该代码可以编写更复杂的代码，还可以改善最新的代码，以解决HOMANEVAL [1]基准中的39.8％的问题。代码和视频可从https://code-as-policies.github.io获得。

translated by 谷歌翻译

Adaptive Assignment for Geometry Aware Local Feature Matching

Dihe Huang , Ying Chen , Shang Xu , Yong Liu , Wenlong Wu , Yikang Ding , Chengjie Wang , Fan Tang

分类：计算机视觉

2022-07-18

本地图像功能匹配，旨在识别图像对的识别和相应的相似区域，是计算机视觉中的重要概念。大多数现有的图像匹配方法遵循一对一的分配原则，并采用共同最近的邻居来确保跨图像之间本地特征之间的独特对应关系。但是，来自不同条件的图像可能会容纳大规模变化或观点多样性，以便一对一的分配可能在密集匹配中导致模棱两可或丢失的表示形式。在本文中，我们介绍了一种新颖的无探测器本地特征匹配方法Adamatcher，该方法首先通过轻巧的特征交互模块与密集的特征相关联，并估算了配对图像的可见面积，然后执行贴片级多到 - 一个分配可以预测匹配建议，并最终根据一对一的完善模块进行完善。广泛的实验表明，Adamatcher的表现优于固体基线，并在许多下游任务上实现最先进的结果。此外，多对一分配和一对一的完善模块可以用作其他匹配方法（例如Superglue）的改进网络，以进一步提高其性能。代码将在出版时提供。

translated by 谷歌翻译

Inner Monologue: Embodied Reasoning through Planning with Language Models

Wenlong Huang , Fei Xia , Ted Xiao , Harris Chan , Jacky Liang , Pete Florence , Andy Zeng , Jonathan Tompson , Igor Mordatch , Yevgen Chebotar

分类：机器人 | 人工智能 | 自然语言处理 | 计算机视觉 | 机器学习

2022-07-12

最近的作品表明，如何将大语言模型（LLM）的推理能力应用于自然语言处理以外的领域，例如机器人的计划和互动。这些具体的问题要求代理商了解世界上许多语义方面：可用技能的曲目，这些技能如何影响世界以及对世界的变化如何映射回该语言。在体现环境中规划的LLMS不仅需要考虑要做什么技能，还需要考虑如何以及何时进行操作 - 答案随着时间的推移而变化，以响应代理商自己的选择。在这项工作中，我们调查了在这种体现的环境中使用的LLM在多大程度上可以推论通过自然语言提供的反馈来源，而无需任何其他培训。我们建议，通过利用环境反馈，LLM能够形成内部独白，使他们能够在机器人控制方案中进行更丰富的处理和计划。我们研究了各种反馈来源，例如成功检测，场景描述和人类互动。我们发现，闭环语言反馈显着改善了三个领域的高级指导完成，包括模拟和真实的桌面顶部重新排列任务以及现实世界中厨房环境中的长途移动操作任务。

translated by 谷歌翻译

Generalization in Dexterous Manipulation via Geometry-Aware Multi-Task Learning

Wenlong Huang , Igor Mordatch , Pieter Abbeel , Deepak Pathak

分类：机器人 | 人工智能 | 计算机视觉 | 机器学习

2021-11-04

Dexerous的操作任意物体，对人类的一项基本的日常任务，对自治机器人系统来说是一个宏伟的挑战。虽然使用加强学习的数据驱动方法可以开发发现要控制单个对象的行为的专家政策，但它们通常表现出不良的概念。在这项工作中，我们显示现有加强学习算法学习的政策实际上可以是通用的，当结合多任务学习和良好的对象表示时。我们表明，单个通用政策可以在手上操纵超过100个几何不同的真实世界对象，并通过看不见的形状或尺寸来推广到新的物体。有趣的是，我们发现与对象点云表示的多任务学习不仅概括更好，但甚至优于训练的单一对象专家策略以及保持的测试对象。视频结果在https://huangwl18.github.io/geometry-dex

translated by 谷歌翻译

Off-policy estimation of linear functionals: Non-asymptotic theory for semi-parametric efficiency

Wenlong Mou , Martin J. Wainwright , Peter L. Bartlett

分类： (统计)机器学习

2022-09-26

在因果推理和强盗文献中，基于观察数据的线性功能估算线性功能的问题是规范的。我们分析了首先估计治疗效果函数的广泛的两阶段程序，然后使用该数量来估计线性功能。我们证明了此类过程的均方误差上的非反应性上限：这些边界表明，为了获得非反应性最佳程序，应在特定加权$ l^2 $中最大程度地估算治疗效果的误差。 -规范。我们根据该加权规范的约束回归分析了两阶段的程序，并通过匹配非轴突局部局部最小值下限，在有限样品中建立了实例依赖性最优性。这些结果表明，除了取决于渐近效率方差之外，最佳的非质子风险除了取决于样本量支持的最富有函数类别的真实结果函数与其近似类别之间的加权规范距离。

translated by 谷歌翻译

Importance Tempering: Group Robustness for Overparameterized Models

Yiping Lu , Wenlong Ji , Zachary Izzo , Lexing Ying

分类：机器学习 | 人工智能 | (统计)机器学习

2022-09-19

尽管过度参数化的模型已经在许多机器学习任务上表现出成功，但与培训不同的测试分布的准确性可能会下降。这种准确性下降仍然限制了在野外应用机器学习的限制。同时，重要的加权是一种处理分配转移的传统技术，已被证明在经验和理论上对过度参数化模型的影响较小甚至没有影响。在本文中，我们提出了重要的回火来改善决策界限，并为过度参数化模型取得更好的结果。从理论上讲，我们证明在标签移位和虚假相关设置下，组温度的选择可能不同。同时，我们还证明正确选择的温度可以解脱出少数群体崩溃的分类不平衡。从经验上讲，我们使用重要性回火来实现最严重的小组分类任务的最新结果。

translated by 谷歌翻译

Adaptive Attitude Control for Foldable Quadrotors

Karishma Patnaik , Wenlong Zhang

分类：机器人

2022-09-18

最近的四型车辆超越了常规设计，更加强调可折叠和可重构的身体。但是，最新的状态仍然着重于此类设计的机械可行性，在配置切换过程中有关车辆的跟踪性能的讨论有限。在本文中，我们提出了一个完整的控制和计划框架，用于在配置切换过程中进行态度跟踪并遏制任何基于开关的干扰，这可能导致违反安全限制并导致崩溃。控制框架包括一个具有估计器的形态感知自适应控制器，以说明参数变化和最小值轨迹计划器，以在切换时实现稳定的飞行。态度跟踪的稳定性分析是通过采用开关系统理论和仿真结果来验证了拟议的框架，该框架是通过通道通过通道的可折叠四极管飞行的框架。

translated by 谷歌翻译

nVFNet-RDC: Replay and Non-Local Distillation Collaboration for Continual Object Detection

Jinxiang Lai , Wenlong Liu , Jun Liu

分类：计算机视觉

2022-09-08

持续学习（CL）的重点是开发具有适应新环境并学习新技能的算法。近年来，这项非常具有挑战性的任务引起了人们的极大兴趣，新解决方案迅速出现。在本文中，我们提出了一种NVFNET-RDC方法进行连续对象检测。我们的NVFNET-RDC由教师学生组成，并采用重播和功能蒸馏策略。作为第一名解决方案，我们分别在第三个Clvision Challenge Track 2和Track 3上获得了55.94％和54.65％的平均地图。

translated by 谷歌翻译

Finding Point with Image: An End-to-End Benchmark for Vision-based UAV Localization

Ming Dai , Jiahao Chen , Yusheng Lu , Wenlong Hao , Enhui Zheng

分类：计算机视觉

2022-08-13

过去，图像检索是用于跨视图地理位置和无人机视觉本地化任务的主流解决方案。简而言之，图像检索的方式是通过过渡角度获得最终所需的信息，例如GPS。但是，图像检索的方式并非完全端到端。并且有一些多余的操作，例如需要提前准备功能库以及画廊构造的抽样间隔问题，这使得很难实施大规模应用程序。在本文中，我们提出了一个端到端定位方案，使用图像（FPI）查找点，该方案旨在通过源A的图像（无人机 - - 看法）。为了验证我们的框架的可行性，我们构建了一个新的数据集（UL14），该数据集旨在解决无人机视觉自我定位任务。同时，我们还建立了一个基于变压器的基线以实现端到端培训。另外，先前的评估方法不再适用于FPI框架。因此，提出了米级准确性（MA）和相对距离评分（RDS）来评估无人机定位的准确性。同时，我们初步比较了FPI和图像检索方法，而FPI的结构在速度和效率方面都可以提高性能。特别是，由于不同观点与剧烈的空间量表转换之间的巨大差异，FPI的任务仍然是巨大的挑战。

translated by 谷歌翻译

JDRec: Practical Actor-Critic Framework for Online Combinatorial Recommender System

Xin Zhao , Zhiwei Fang , Yuchen Guo , Jie He , Wenlong Chen , Changping Peng

分类：人工智能 | 机器学习

2022-07-27

组合推荐人（CR）系统一次在结果页面中一次将项目列表馈送给用户，其中用户行为受到上下文信息和项目的影响。 CR被称为组合优化问题，目的是最大程度地提高整个列表的建议奖励。尽管它很重要，但由于在线环境中的效率，动态和个性化要求，建立实用的CR系统仍然是一个挑战。特别是，我们将问题分为两个子问题，即列表生成和列表评估。新颖和实用的模型体系结构是为这些子问题设计的，旨在共同优化有效性和效率。为了适应在线案例，给出了形成参与者批判性增强框架的自举算法，以探索在长期用户互动中更好的推荐模式。离线和在线实验结果证明了拟议的JDREC框架的功效。 JDREC已应用于在线JD建议中，将点击率提高了2.6％，平台的合成价值提高了5.03％。我们将发布本研究中使用的大规模数据集，以为研究界做出贡献。

translated by 谷歌翻译