长期以来,Robotics一直是一个遍布复杂系统体系结构的领域,无论传统或基于学习的模块和联系都需要大量的人类专业知识和先验知识。受大型预训练语言模型的启发,这项工作引入了预先培训的通用表示范式,该范式可以作为给定机器人多个任务的起点。我们提出了感知性因果变压器(PACT),这是一种基于生成变压器的架构,旨在以自我监督的方式直接从机器人数据构建表示形式。通过对状态和行动的自动回归预测,我们的模型隐含地编码了特定机器人的动态和行为。我们的实验评估重点是移动药物的域,我们表明该机器人特定的表示可以作为单个起点,以实现不同的任务,例如安全导航,定位和映射。我们评估了两个形式:使用激光雷达传感器作为感知输入(MUSHR)的轮式机器人,以及使用第一人称RGB图像(栖息地)的模拟药物。我们表明,与训练单个模型的同时训练单个模型相比,对所有任务的单个模型进行训练,并且与独立培训单独的大型模型相当的性能,对每个任务的单个模型进行了可比的训练,则在较大的审计模型上进行了固定小型任务特异性网络,从而使性能明显提高。通过跨任务共享共同的优质表示,我们可以降低整体模型容量并加快此类系统的实时部署。
translated by 谷歌翻译
自然语言是表达人类意图的最直观的方式之一。但是,将指示和命令转换为机器人运动生产以及在现实世界中的部署,远非一件容易的事。的确,将机器人的固有的低水平几何形状和运动动力学约束与人类的高级语义信息相结合,振奋人心,并提出了对任务设计问题的新挑战 - 通常会通过一组静态的动作目标和命令来实现任务或硬件特定的解决方案。相反,这项工作提出了一个灵活的基于语言的框架,该框架允许使用有关先前任务或机器人信息的限制的语言命令修改通用3D机器人轨迹。通过利用预训练的语言模型,我们使用自动回归变压器将自然语言输入和上下文图像映射到3D轨迹中的变化中。我们通过模拟和现实生活实验表明,该模型可以成功遵循人类的意图,从而改变了多个机器人平台和环境的轨迹的形状和速度。这项研究迈出了建立机器人技术的大型预训练的基础模型的一步,并展示了这样的模型如何在人与机器之间建立更直观,更灵活的相互作用。代码库可在以下网址提供:https://github.com/arthurfenderbucker/nl_traimptory_reshaper。
translated by 谷歌翻译
Learning image representations using synthetic data allows training neural networks without some of the concerns associated with real images, such as privacy and bias. Existing work focuses on a handful of curated generative processes which require expert knowledge to design, making it hard to scale up. To overcome this, we propose training with a large dataset of twenty-one thousand programs, each one generating a diverse set of synthetic images. These programs are short code snippets, which are easy to modify and fast to execute using OpenGL. The proposed dataset can be used for both supervised and unsupervised representation learning, and reduces the gap between pre-training with real and procedurally generated images by 38%.
translated by 谷歌翻译
While transformers have greatly boosted performance in semantic segmentation, domain adaptive transformers are not yet well explored. We identify that the domain gap can cause discrepancies in self-attention. Due to this gap, the transformer attends to spurious regions or pixels, which deteriorates accuracy on the target domain. We propose to perform adaptation on attention maps with cross-domain attention layers that share features between the source and the target domains. Specifically, we impose consistency between predictions from cross-domain attention and self-attention modules to encourage similar distribution in the attention and output of the model across domains, i.e., attention-level and output-level alignment. We also enforce consistency in attention maps between different augmented views to further strengthen the attention-based alignment. Combining these two components, our method mitigates the discrepancy in attention maps across domains and further boosts the performance of the transformer under unsupervised domain adaptation settings. Our model outperforms the existing state-of-the-art baseline model on three widely used benchmarks, including GTAV-to-Cityscapes by 1.3 percent point (pp), Synthia-to-Cityscapes by 0.6 pp, and Cityscapes-to-ACDC by 1.1 pp, on average. Additionally, we verify the effectiveness and generalizability of our method through extensive experiments. Our code will be publicly available.
translated by 谷歌翻译
基础模型(FMS)已证明了前所未有的功能,包括零拍学习,高保真数据合成和范围内的概括。但是,正如我们在本文中所显示的那样,FMS在专家任务上的开箱即用表现较差(例如,从语言查询中检索汽车手册技术插图),数据是看不见的,或者属于长尾的数据用于FM预训练的大型数据集的数据分布的一部分。这强调了在此类专家任务上明确评估和芬太尼FMS的必要性,这可以说是在实际现实世界中最重要的任务。在本文中,我们提出了围绕教授FMS了解技术文档的任务,通过学习将其图形插图与相应的语言描述相匹配的任务围绕着了解技术文档的任务。我们的FETA基准重点是公共汽车手册和销售目录手册中的文本对图像和图像到文本检索。 FETA配备了完全自动注释提取的程序(接受后将发布代码),从而使Feta轻松扩展到将来更多的文档类型和应用域。我们的自动注释导致自动性能指标显示,该指标与在人类策划注释中计算的指标一致(也发布)。我们提供多个基线和对FETA的流行FM的分析,从而导致一些有趣的发现,我们认为这对FM社区非常有价值,为现实世界中FMS应用于当前被标准基准的“忽视”的实践专家任务铺平了道路。在常见对象上。
translated by 谷歌翻译
最近在语义Web本体论的背景下研究了受控查询评估(CQE)。 CQE的目标是隐藏一些查询答案,以防止外部用户推断机密信息。通常,存在多种隐藏答案的多种无与伦比的方法,并且先前的CQE方法提前选择了哪些答案是可见的,哪些是不可见的。相反,在本文中,我们研究了一种动态CQE方法,即,我们建议根据对先前的评估更改当前查询的答案。我们的目标是最大程度地合作,除了能够保护机密数据之外,该系统除了能够保护机密数据,这意味着它可以肯定地回答了尽可能多的查询;它通过尽可能延迟答案修改来实现这一目标。我们还表明,我们无法通过静态方法(独立于查询历史记录)在直觉上模拟这种行为。有趣的是,对于通过拒绝表达的OWL 2 QL本体和策略,我们的语义下的查询评估是一阶重写,因此在数据复杂性中是AC0。这为开发实用算法铺平了道路,我们在本文中也初步讨论了这一算法。
translated by 谷歌翻译
来自视频数据的多模态学习最近看过,因为它允许在没有人为注释的情况下培训语义有意义的嵌入,从而使得零射击检索和分类等任务。在这项工作中,我们提出了一种多模态,模态无政府主义融合变压器方法,它学会在多个模态之间交换信息,例如视频,音频和文本,并将它们集成到加入的多模态表示中,以获取聚合的嵌入多模态时间信息。我们建议培训系统的组合丢失,单个模态以及成对的方式,明确地留出任何附加组件,如位置或模态编码。在测试时间时,产生的模型可以处理和融合任意数量的输入模态。此外,变压器的隐式属性允许处理不同长度的输入。为了评估所提出的方法,我们在大规模HOWASET上培训模型,并评估四个具有挑战性的基准数据集上产生的嵌入空间获得最先进的视频检索和零射击视频动作定位。
translated by 谷歌翻译
概括跨越不同视觉域的学习表现的能力,例如在真正的照片,剪贴画,绘画和草图之间是人类视觉系统的基本容量。在本文中,不同于利用一些(或全部)源域监控的大多数跨域工作,我们接近一个相对较新的,非常实用的无监督域泛化(UDG)设置在既不源也不在源域中没有培训监督。我们的方法是基于跨域(BRAD)的桥梁​​的自我监督学习 - 辅助桥域附有一组从每个训练域的Brad将视觉(图像到图像)映射保留的一组语义。 BRAD和MAPPAPAPPED(端到端)与对比的自我监督表示模型一起学习(端到端),其用语义对齐每个域将每个域对齐,因此隐含地驱动所有域(见或看不见)语义上彼此对齐。在这项工作中,我们展示了如何使用边缘正则化的布拉德,我们的方法在多个基准和一系列任务中实现了显着的增益,包括UDG,少量UDA和跨多个域数据集的无监督概括(包括指向未经看明域的概念和课程)。
translated by 谷歌翻译
在Imagenet或其他大规模数据数据上的预培训模型导致计算机愿景的主要进步,尽管伴随着与策划成本,隐私,使用权和道德问题相关的缺点。在本文中,我们首次研究了基于由图形模拟器生成的合成数据到来自非常不同的域的下游任务的培训模型的可转换性。在使用此类合成数据进行预培训时,我们发现不同任务的下游性能受到不同配置的不同配置(例如,照明,对象姿势,背景等),并且没有单尺寸适合 - 所有解决方案。因此,更好地将合成的预训练数据量身定制到特定的下游任务,以获得最佳性能。我们介绍Task2SIM,一个统一的模型将下游任务表示映射到最佳模拟参数,以为它们生成合成的预训练数据。 Task2SIM通过培训学习此映射,以查找一组“看到”任务上的最佳参数集。曾经训练过,它可以用于预测一个新颖的“看不见”任务的最佳仿真参数,而无需额外的培训。鉴于每级图像数量的预算,我们具有20个不同的下游任务的广泛实验,显示了Task2SIM的任务 - 自适应预训练数据导致明显更好的下游性能,而不是在看见和看不见的任务上的非自适应选择模拟参数。它甚至是竞争对手的真实图像的竞争力。
translated by 谷歌翻译
现实世界数据往往展现出长期分布,重量级别不平衡,其中大多数课程可以主导培训过程并改变少数阶层的决策边界。最近,研究人员调查了监督对长尾识别的对比学习的潜力,并证明它提供了强大的性能增益。在本文中,我们表明,虽然监督对比学习可以有助于提高性能,但过去的基线通过不平衡数据分布引入的均匀性差。这种差的均匀性在来自特征空间中具有差的少数阶级的样品中表现出来。为了解决这个问题,我们提出了有针对性的监督对比学习(TSC),从而提高了极度上的特征分布的均匀性。 TSC首先生成一组均匀分布在极度上的目标。然后,在训练期间使不同类别的特征会聚到这些不同的和均匀分布的目标。这迫使所有类别,包括少数群体类别,以维持特征空间中的统一分布,改善了类边界,即使在存在长尾数据的情况下也能提供更好的泛化。多个数据集的实验表明,TSC在长尾识别任务上实现了最先进的性能。
translated by 谷歌翻译