该报告涵盖了我们对Chaplot等人的“使用变压器的可区分空间计划”的复制工作。。在本文中,考虑了以可不同方式进行空间路径计划的问题。他们表明,他们提出的使用空间规划变压器的方法优于先前数据驱动的模型,并利用可不同的结构来学习映射而无需同时地面真相图。我们通过重现其实验并在新数据上测试其方法来验证这些主张。我们还通过地图提高了障碍物复杂性,研究了计划准确性的稳定性。努力调查和验证映射模块的学习的努力是由于缺乏计算资源和无法到达的作者而导致的失败。
translated by 谷歌翻译
我们考虑空间路径规划问题。与从划痕优化新计划的经典解决方案相比,我们以与地面真理障碍物位置访问完整地图,我们以可分散的方式从数据中学到策划员,允许我们利用过去数据的统计规则。我们提出了空间规划变压器(SPT),给出了障碍地图学习通过规划长期空间依赖性来生成动作,与以迭代方式通过卷积结构传播信息的先前数据驱动规划策规范。在地面真理地图对代理人未知的情况下,我们利用预先训练的SPTS在端到端的框架中,该框架具有映射器和计划内置的映射器和规划仪的结构,允许无缝概括到分配外地图和目标。 SPTS以处理和导航任务的所有设置均优于最先进的可分散规划者,导致7-19%的绝对提高。
translated by 谷歌翻译
Today's robots often interface with data-driven perception and planning models with classical model-predictive controllers (MPC). Often, such learned perception/planning models produce erroneous waypoint predictions on out-of-distribution (OoD) or even adversarial visual inputs, which increase control costs. However, today's methods to train robust perception models are largely task-agnostic - they augment a dataset using random image transformations or adversarial examples targeted at the vision model in isolation. As such, they often introduce pixel perturbations that are ultimately benign for control. In contrast to prior work that synthesizes adversarial examples for single-step vision tasks, our key contribution is to synthesize adversarial scenarios tailored to multi-step, model-based control. To do so, we use differentiable MPC methods to calculate the sensitivity of a model-based controller to errors in state estimation. We show that re-training vision models on these adversarial datasets improves control performance on OoD test scenarios by up to 36.2% compared to standard task-agnostic data augmentation. We demonstrate our method on examples of robotic navigation, manipulation in RoboSuite, and control of an autonomous air vehicle.
translated by 谷歌翻译
这项工作研究了图像目标导航问题,需要通过真正拥挤的环境引导具有嘈杂传感器和控制的机器人。最近的富有成效的方法依赖于深度加强学习,并学习模拟环境中的导航政策,这些环境比真实环境更简单。直接将这些训练有素的策略转移到真正的环境可能非常具有挑战性甚至危险。我们用由四个解耦模块组成的分层导航方法来解决这个问题。第一模块在机器人导航期间维护障碍物映射。第二个将定期预测实时地图上的长期目标。第三个计划碰撞命令集以导航到长期目标,而最终模块将机器人正确靠近目标图像。四个模块是单独开发的,以适应真实拥挤的情景中的图像目标导航。此外,分层分解对导航目标规划,碰撞避免和导航结束预测的学习进行了解耦,这在导航训练期间减少了搜索空间,并有助于改善以前看不见的真实场景的概括。我们通过移动机器人评估模拟器和现实世界中的方法。结果表明,我们的方法优于多种导航基线,可以在这些方案中成功实现导航任务。
translated by 谷歌翻译
自然语言是表达人类意图的最直观的方式之一。但是,将指示和命令转换为机器人运动生产以及在现实世界中的部署,远非一件容易的事。的确,将机器人的固有的低水平几何形状和运动动力学约束与人类的高级语义信息相结合,振奋人心,并提出了对任务设计问题的新挑战 - 通常会通过一组静态的动作目标和命令来实现任务或硬件特定的解决方案。相反,这项工作提出了一个灵活的基于语言的框架,该框架允许使用有关先前任务或机器人信息的限制的语言命令修改通用3D机器人轨迹。通过利用预训练的语言模型,我们使用自动回归变压器将自然语言输入和上下文图像映射到3D轨迹中的变化中。我们通过模拟和现实生活实验表明,该模型可以成功遵循人类的意图,从而改变了多个机器人平台和环境的轨迹的形状和速度。这项研究迈出了建立机器人技术的大型预训练的基础模型的一步,并展示了这样的模型如何在人与机器之间建立更直观,更灵活的相互作用。代码库可在以下网址提供:https://github.com/arthurfenderbucker/nl_traimptory_reshaper。
translated by 谷歌翻译
Heuristic search algorithms, e.g. A*, are the commonly used tools for pathfinding on grids, i.e. graphs of regular structure that are widely employed to represent environments in robotics, video games etc. Instance-independent heuristics for grid graphs, e.g. Manhattan distance, do not take the obstacles into account and, thus, the search led by such heuristics performs poorly in the obstacle-rich environments. To this end, we suggest learning the instance-dependent heuristic proxies that are supposed to notably increase the efficiency of the search. The first heuristic proxy we suggest to learn is the correction factor, i.e. the ratio between the instance independent cost-to-go estimate and the perfect one (computed offline at the training phase). Unlike learning the absolute values of the cost-to-go heuristic function, which was known before, when learning the correction factor the knowledge of the instance-independent heuristic is utilized. The second heuristic proxy is the path probability, which indicates how likely the grid cell is lying on the shortest path. This heuristic can be utilized in the Focal Search framework as the secondary heuristic, allowing us to preserve the guarantees on the bounded sub-optimality of the solution. We learn both suggested heuristics in a supervised fashion with the state-of-the-art neural networks containing attention blocks (transformers). We conduct a thorough empirical evaluation on a comprehensive dataset of planning tasks, showing that the suggested techniques i) reduce the computational effort of the A* up to a factor of $4$x while producing the solutions, which costs exceed the costs of the optimal solutions by less than $0.3$% on average; ii) outperform the competitors, which include the conventional techniques from the heuristic search, i.e. weighted A*, as well as the state-of-the-art learnable planners.
translated by 谷歌翻译
在这项工作中,我们提出了一种超大形态器,一种基于变压器的模型,用于几次学习,直接从支持样品产生卷积神经网络(CNN)的权重。由于小生成的CNN模型对特定任务的依赖性由高容量变压器模型编码,因此我们有效地将大型任务空间的复杂性与各个任务的复杂性分离。我们的方法对于小目标CNN架构特别有效,其中学习固定的通用任务无关的嵌入不是最佳的,并且在关于任务的信息可以调制所有模型参数时实现更好的性能。对于较大的模型,我们发现单独生成最后一层允许我们产生比使用最先进的方法获得的竞争或更好的结果,同时端到端可分辨率。最后,我们将我们的方法扩展到一个半监督的政权,利用支持集中的未标记样本,进一步提高少量射击性能。
translated by 谷歌翻译
随着变压器作为语言处理的标准及其在计算机视觉方面的进步,参数大小和培训数据的数量相应地增长。许多人开始相信,因此,变形金刚不适合少量数据。这种趋势引起了人们的关注,例如:某些科学领域中数据的可用性有限,并且排除了该领域研究资源有限的人。在本文中,我们旨在通过引入紧凑型变压器来提出一种小规模学习的方法。我们首次表明,具有正确的尺寸,卷积令牌化,变压器可以避免在小数据集上过度拟合和优于最先进的CNN。我们的模型在模型大小方面具有灵活性,并且在获得竞争成果的同时,参数可能仅为0.28亿。当在CIFAR-10上训练Cifar-10,只有370万参数训练时,我们的最佳模型可以达到98%的准确性,这是与以前的基于变形金刚的模型相比,数据效率的显着提高,比其他变压器小于10倍,并且是15%的大小。在实现类似性能的同时,重新NET50。 CCT还表现优于许多基于CNN的现代方法,甚至超过一些基于NAS的方法。此外,我们在Flowers-102上获得了新的SOTA,具有99.76%的TOP-1准确性,并改善了Imagenet上现有基线(82.71%精度,具有29%的VIT参数)以及NLP任务。我们针对变压器的简单而紧凑的设计使它们更可行,可以为那些计算资源和/或处理小型数据集的人学习,同时扩展了在数据高效变压器中的现有研究工作。我们的代码和预培训模型可在https://github.com/shi-labs/compact-transformers上公开获得。
translated by 谷歌翻译
科学界能够为实践问题提供一套新的解决方案,这些解决方案由于神经网络体系结构的进步而在效率和计算速度方面显着改善了现代技术的性能。考虑到机器人路径计划中神经网络的利用,我们介绍了最新作品。我们的调查显示了考虑不同输入,输出和环境的问题的不同公式之间的对比,以及不同的神经网络架构如何为所有提出的问题提供解决方案。
translated by 谷歌翻译
本文提出了一种名为定位变压器(LOTR)的新型变压器的面部地标定位网络。所提出的框架是一种直接坐标回归方法,利用变压器网络以更好地利用特征图中的空间信息。 LOTR模型由三个主要模块组成:1)将输入图像转换为特征图的视觉骨干板,2)改进Visual Backone的特征表示,以及3)直接预测的地标预测头部的变压器模块来自变压器的代表的地标坐标。给定裁剪和对齐的面部图像,所提出的LOTR可以训练结束到底,而无需任何后处理步骤。本文还介绍了光滑翼损失功能,它解决了机翼损耗的梯度不连续性,导致比L1,L2和机翼损耗等标准损耗功能更好地收敛。通过106点面部地标定位的第一个大挑战提供的JD地标数据集的实验结果表明了LOTR在排行榜上的现有方法和最近基于热爱的方法的优势。在WFLW DataSet上,所提出的Lotr框架与若干最先进的方法相比,展示了有希望的结果。此外,我们在使用我们提出的LOTRS面向对齐时,我们报告了最先进的面部识别性能的提高。
translated by 谷歌翻译
房间冲动响应(RIR)函数捕获周围的物理环境如何改变听众听到的声音,对AR,VR和机器人技术中的各种应用产生影响。估计RIR的传统方法在整个环境中采用密集的几何形状和/或声音测量值,但我们探讨了如何根据空间中观察到的一组稀疏图像和回声来推断RIR。为了实现这一目标,我们介绍了一种基于变压器的方法,该方法使用自我注意力来构建丰富的声学环境,然后通过跨注意来预测任意查询源接收器位置的河流。此外,我们设计了一个新颖的训练目标,该目标改善了RIR预测与目标之间的声学​​特征中的匹配。在使用3D环境的最先进的视听模拟器的实验中,我们证明了我们的方法成功地生成了任意RIR,优于最先进的方法,并且在与传统方法的主要背离中 - 以几种方式概括新的环境。项目:http://vision.cs.utexas.edu/projects/fs_rir。
translated by 谷歌翻译
我们提供了有关诱导模型稀疏性如何帮助实现构图概括和在基础语言学习问题中更好的样本效率的研究。我们考虑在网格世界环境中具有简单的语言条件导航问题,并进行了分离的观察。我们表明,标准的神经体系结构并不总是产生组成概括。为了解决这个问题,我们设计了一个包含目标标识模块的代理,该模块鼓励教学和对象的属性中的单词之间的稀疏相关性,并将它们组合在一起以找到目标。目标标识模块的输出是对值迭代网络计划者的输入。即使从少数示威活动中学习,我们的代理商在包含属性的新颖组合的目标上保持了高度的性能。我们检查了代理的内部表示,并在单词中的字典和环境中的属性中找到正确的对应关系。
translated by 谷歌翻译
通过Navier-Stokes方程的数值解决方案的计算流体动力学(CFD)仿真是从工程设计到气候建模的广泛应用中的重要工具。然而,CFD代码所需的计算成本和内存需求对于实际兴趣的流动可能变得非常高,例如在空气动力学形状优化中。该费用与流体流动控制方程的复杂性有关,其包括具有困难的解决方案的非线性部分衍生术语,导致长的计算时间和限制在迭代设计过程中可以测试的假设的数量。因此,我们提出了DeepCFD:基于卷积神经网络(CNN)的模型,其有效地近似于均匀稳态流动问题的解决方案。所提出的模型能够直接从使用最先进的CFD代码生成的地面真实数据的速度和压力场的完整解决方案的完整解决方案。使用DeepCFD,与标准CFD方法以低误差率的成本相比,我们发现高达3个数量级的加速。
translated by 谷歌翻译
哥内克人Sentinel Imagery的纯粹卷的可用性为使用深度学习的大尺度创造了新的土地利用陆地覆盖(Lulc)映射的机会。虽然在这种大型数据集上培训是一个非琐碎的任务。在这项工作中,我们试验Lulc Image分类和基准不同最先进模型的Bigearthnet数据集,包括卷积神经网络,多层感知,视觉变压器,高效导通和宽残余网络(WRN)架构。我们的目标是利用分类准确性,培训时间和推理率。我们提出了一种基于用于网络深度,宽度和输入数据分辨率的WRNS复合缩放的高效导通的框架,以有效地训练和测试不同的模型设置。我们设计一种新颖的缩放WRN架构,增强了有效的通道注意力机制。我们提出的轻量级模型具有较小的培训参数,实现所有19个LULC类的平均F分类准确度达到4.5%,并且验证了我们使用的resnet50最先进的模型速度快两倍作为基线。我们提供超过50种培训的型号,以及我们在多个GPU节点上分布式培训的代码。
translated by 谷歌翻译
我们提出了GANAV,这是一种新颖的小组注意机制,可以从RGB图像中识别出越野地形和非结构化环境中的安全和可通道的区域。我们的方法根据其可通道的语义分割根据其可通道水平对地形进行了分类。我们新颖的小组注意力损失使任何骨干网络都能明确关注具有低空间分辨率的不同组的特征。与现有的SOTA方法相比,我们的设计可提供有效的推断,同时保持高度的准确性。我们对RUGD和Rellis-3D数据集的广泛评估表明,GANAV在RUGD上的改善对SOTA MIOU的改善增长了2.25-39.05%,Rellis-3d的RUGD提高了5.17-19.06%。我们与Ganav进行了深入的增强基于学习的导航算法的接口,并在现实世界中的非结构化地形中突出了其在导航方面的好处。我们将基于GANAV的导航算法与ClearPath Jackal和Husky Robots集成在一起,并观察到成功率增加了10%,在选择表面最佳的可通道性和4.6-13.9%的表面方面为2-47%在轨迹粗糙度中。此外,加纳夫将禁区的假阳性降低37.79%。代码,视频和完整的技术报告可在https://gamma.umd.edu/offroad/上找到。
translated by 谷歌翻译
3D重建旨在从2D视图重建3D对象。以前的3D重建工作主要关注视图之间或使用CNNS作为骨干之间的功能匹配。最近,在计算机视觉的多种应用中显示了变压器。但是,无论是变形金刚是否可用于3D重建仍然不清楚。在本文中,我们通过提出3D-Retr来填补这种差距,这能够使用变压器执行端到端的3D重建。 3D-Retr首先使用佩带的变压器从2D输入图像中提取视觉功能。然后,3D-Retr然后使用另一个变压器解码器来获得体素特征。然后,CNN解码器作为输入体素特征以获得重建的对象。 3D-Retr能够从单个视图或多个视图中重建3D重建。两个数据集上的实验结果表明,3Drett达到了3D重建的最先进的性能。额外的消融研究还表明3D-DETR使用变压器。
translated by 谷歌翻译
胰腺癌是世界上最严重恶性的癌症之一,这种癌症迅速迅速,具有很高的死亡率。快速的现场评估(玫瑰)技术通过立即分析与现场病理学家的快速染色的细胞影析学形象来创新工作流程,这使得在这种紧压的过程中能够更快的诊断。然而,由于缺乏经验丰富的病理学家,玫瑰诊断的更广泛的扩张已经受到阻碍。为了克服这个问题,我们提出了一个混合高性能深度学习模型,以实现自动化工作流程,从而释放占据病理学家的宝贵时间。通过使用我们特定的多级混合设计将变压器块引入该字段,由卷积神经网络(CNN)产生的空间特征显着增强了变压器全球建模。转向多级空间特征作为全球关注指导,这种设计将鲁棒性与CNN的感应偏差与变压器的复杂全球建模功能相结合。收集4240朵Rose图像的数据集以评估此未开发领域的方法。所提出的多级混合变压器(MSHT)在分类精度下实现95.68%,其鲜明地高于最先进的模型。面对对可解释性的需求,MSHT以更准确的关注区域表达其对应物。结果表明,MSHT可以以前所未有的图像规模精确地区分癌症样本,奠定了部署自动决策系统的基础,并在临床实践中扩大玫瑰。代码和记录可在:https://github.com/sagizty/multi-stage-ybrid-transformer。
translated by 谷歌翻译
灵活的目标指导行为是人类生活的一个基本方面。基于自由能最小化原理,主动推断理论从计算神经科学的角度正式产生了这种行为。基于该理论,我们介绍了一个输出型,时间预测的,模块化的人工神经网络体系结构,该建筑处理感觉运动信息,渗透到世界上与行为相关的方面,并引起高度灵活的,目标定向的行为。我们表明,我们的建筑经过端对端训练,以最大程度地减少自由能的近似值,它会发展出可以将其解释为负担能力地图的潜在状态。也就是说,新兴的潜在状态表明哪种行动导致哪些效果取决于局部环境。结合主动推断,我们表明可以调用灵活的目标指导行为,并结合新兴的负担能力图。结果,我们的模拟代理会在连续的空间中灵活地转向,避免与障碍物发生碰撞,并且更喜欢高确定性地导致目标的途径。此外,我们表明,学识渊博的代理非常适合跨环境的零拍概括:在训练少数固定环境中的代理商在具有障碍和其他影响其行为的固定环境中,它在程序生成的环境中表现出色,其中包含不同量的环境不同位置的各种尺寸的障碍和地形。
translated by 谷歌翻译
学习一项难以捉摸的问题域的知情启发式功能是一个难以捉摸的问题。虽然有了已知的神经网络架构来代表这种启发式知识,但它不明显地了解了哪些具体信息以及针对理解结构的技术有助于提高启发式的质量。本文介绍了一种网络模型,用于学习一种能够通过使用注意机制通过最佳计划模仿与状态空间的遥远部分相互关联的启发式机制,这大幅提高了一种良好的启发式功能的学习。为了抵消制定难度越来越困难问题的方法的限制,我们展示了课程学习的使用,其中新解决的问题实例被添加到培训集中,反过来有助于解决更高复杂性的问题和远远超出所有现有基线的表演,包括古典规划启发式。我们展示了其对网格型PDDL结构域的有效性。
translated by 谷歌翻译
在各种图形相关的任务中出现了计算两个图之间的距离/相似性的图形相似性测量。最近的基于学习的方法缺乏可解释性,因为它们直接将两个图之间的交互信息转换为一个隐藏的向量,然后将其映射到相似性。为了解决这个问题,这项研究提出了图形相似性学习的端到端更容易解释的范式,并通过最大的常见子图推理(INFMC)命名相似性计算。我们对INFMCS的关键见解是相似性评分与最大公共子图(MCS)之间的牢固相关性。我们隐含地推断MC获得标准化的MCS大小,其监督信息仅在训练过程中的相似性得分。为了捕获更多的全局信息,我们还使用图形卷积层堆叠一些香草变压器编码层,并提出一种新颖的置换不变的节点位置编码。整个模型非常简单却有效。全面的实验表明,INFMC始终优于用于图形分类和回归任务的最先进基线。消融实验验证了提出的计算范式和其他组件的有效性。同样,结果的可视化和统计数据揭示了INFMC的解释性。
translated by 谷歌翻译