Large language models (LLMs) have been shown to be able to perform new tasks based on a few demonstrations or natural language instructions. While these capabilities have led to widespread adoption, most LLMs are developed by resource-rich organizations and are frequently kept from the public. As a step towards democratizing this powerful technology, we present BLOOM, a 176B-parameter open-access language model designed and built thanks to a collaboration of hundreds of researchers. BLOOM is a decoder-only Transformer language model that was trained on the ROOTS corpus, a dataset comprising hundreds of sources in 46 natural and 13 programming languages (59 in total). We find that BLOOM achieves competitive performance on a wide variety of benchmarks, with stronger results after undergoing multitask prompted finetuning. To facilitate future research and applications using LLMs, we publicly release our models and code under the Responsible AI License.
translated by 谷歌翻译
The task of Compositional Zero-Shot Learning (CZSL) is to recognize images of novel state-object compositions that are absent during the training stage. Previous methods of learning compositional embedding have shown effectiveness in closed-world CZSL. However, in Open-World CZSL (OW-CZSL), their performance tends to degrade significantly due to the large cardinality of possible compositions. Some recent works separately predict simple primitives (i.e., states and objects) to reduce cardinality. However, they consider simple primitives as independent probability distributions, ignoring the heavy dependence between states, objects, and compositions. In this paper, we model the dependence of compositions via feasibility and contextuality. Feasibility-dependence refers to the unequal feasibility relations between simple primitives, e.g., \textit{hairy} is more feasible with \textit{cat} than with \textit{building} in the real world. Contextuality-dependence represents the contextual variance in images, e.g., \textit{cat} shows diverse appearances under the state of \textit{dry} and \textit{wet}. We design Semantic Attention (SA) and generative Knowledge Disentanglement (KD) to learn the dependence of feasibility and contextuality, respectively. SA captures semantics in compositions to alleviate impossible predictions, driven by the visual similarity between simple primitives. KD disentangles images into unbiased feature representations, easing contextual bias in predictions. Moreover, we complement the current compositional probability model with feasibility and contextuality in a compatible format. Finally, we conduct comprehensive experiments to analyze and validate the superior or competitive performance of our model, Semantic Attention and knowledge Disentanglement guided Simple Primitives (SAD-SP), on three widely-used benchmark OW-CZSL datasets.
translated by 谷歌翻译
对于一个合作探索未知环境的多机器人团队,至关重要的是,收集的信息可以在机器人之间有效共享,以支持勘探和导航任务。无线通道的实际限制(例如有限的带宽和位率)敦促机器人仔细选择要传输的信息。在本文中,我们考虑了使用3D场景图对环境信息进行建模的情况,这是一个层次模型,描述了环境的几何和语义方面。然后,我们利用图理论工具,即图形跨度,以设计有效压缩3D场景图的启发式策略,以在带宽约束下启用通信。我们的压缩策略以导航为导向,因为它们旨在在感兴趣的位置之间近乎保留最短的路径,同时满足用户指定的通信预算约束。通过广泛的数值分析和现实模拟器中的合成实验证明了所提出的算法的有效性。
translated by 谷歌翻译
本文通过讨论参加了为期三年的SubT竞赛的六支球队的不同大满贯策略和成果,报道了地下大满贯的现状。特别是,本文有四个主要目标。首先,我们审查团队采用的算法,架构和系统;特别重点是以激光雷达以激光雷达为中心的SLAM解决方案(几乎所有竞争中所有团队的首选方法),异质的多机器人操作(包括空中机器人和地面机器人)和现实世界的地下操作(从存在需要处理严格的计算约束的晦涩之处)。我们不会回避讨论不同SubT SLAM系统背后的肮脏细节,这些系统通常会从技术论文中省略。其次,我们通过强调当前的SLAM系统的可能性以及我们认为与一些良好的系统工程有关的范围来讨论该领域的成熟度。第三,我们概述了我们认为是基本的开放问题,这些问题可能需要进一步的研究才能突破。最后,我们提供了在SubT挑战和相关工作期间生产的开源SLAM实现和数据集的列表,并构成了研究人员和从业人员的有用资源。
translated by 谷歌翻译
在未知和大规模的地下环境中,与一组异质的移动机器人团队进行搜救,需要高精度的本地化和映射。在复杂和感知衰落的地下环境中,这一至关重要的需求面临许多挑战,因为在船上感知系统需要在非警官条件下运作(由于黑暗和灰尘,坚固而泥泞的地形以及自我的存在以及自我的存在,都需要运作。 - 类似和模棱两可的场景)。在灾难响应方案和缺乏有关环境的先前信息的情况下,机器人必须依靠嘈杂的传感器数据并执行同时定位和映射(SLAM)来构建环境的3D地图,并定位自己和潜在的幸存者。为此,本文报告了Team Costar在DARPA Subterranean Challenge的背景下开发的多机器人大满贯系统。我们通过合并一个可适应不同的探针源和激光镜配置的单机器人前端界面来扩展以前的工作,即LAMP,这是一种可伸缩的多机前端,以支持大型大型和内部旋转循环闭合检测检测规模环境和多机器人团队,以及基于渐变的非凸度的稳健后端,配备了异常弹性姿势图优化。我们提供了有关多机器人前端和后端的详细消融研究,并评估美国跨矿山,发电厂和洞穴收集的挑战现实世界中的整体系统性能。我们还发布了我们的多机器人后端数据集(以及相应的地面真相),可以作为大规模地下大满贯的具有挑战性的基准。
translated by 谷歌翻译
多机器人大满贯系统在受GPS污染的环境中需要循环封闭以维护无漂移的集中式地图。随着越来越多的机器人和环境大小,检查和计算所有循环闭合候选者的转换变得不可行。在这项工作中,我们描述了一个循环闭合模块,该模块能够优先考虑哪个循环闭合以根据基础姿势图,与已知信标的接近性以及点云的特性进行计算。我们在DARPA地下挑战和许多具有挑战性的地下数据集中验证该系统,并证明该系统能够生成和保持低误差的地图。我们发现,我们提出的技术能够选择有效的循环封闭,与探空量解决方案相比,与没有优先级排序的基线版本相比,中位误差的平均值减少了51%,中位误差的平均误差和平均值减少了75%。我们还发现,与处理四个半小时内每个可能的循环封闭的系统相比,我们提出的系统能够在一小时的任务时间内找到较低的错误。可以找到此工作的代码和数据集https://github.com/nebula-autonomy/lamp
translated by 谷歌翻译
LiDAR的探测法吸引了相当大的关注,作为在复杂的GNSS污染环境中运行的自主机器人的强大定位方法。但是,由于自动操作所需的板载计算和内存资源的局限性,在大规模环境中在异质平台上实现可靠和有效的性能仍然是一个挑战。在这项工作中,我们提出了实时地下3D映射的强大且计算效率的\ LIDAR ODOMETIRY系统。 Locus 2.0包括一个新型的基于正态的\ Morrell {广义迭代的最接近点(GICP)}公式,该公式会减少点云对齐的计算时间,这是一种自适应体素电网滤波器,可维持所需的计算负载,无论环境的几何形状和滑动方式如何 - 窗口地图方法界限内存消耗。所提出的方法被证明适合在严重的计算和记忆约束下部署在参与大规模探索的异质机器人平台上。我们展示了Locus 2.0,这是Costar团队进入DARPA地下挑战赛的关键要素,在各种地下场景中。我们将基因座2.0作为开源库,并在具有挑战性和大规模的地下环境中发布基于\激光雷达的Odometry数据集。该数据集在多种环境中具有腿部和轮式平台,包括雾,灰尘,黑暗和几何归化环境,总计$ 11〜h $运营以及$ 16〜公里的距离。
translated by 谷歌翻译
3D场景图最近已成为3D环境的强大高级表示。一个3D场景图将环境描述为一个分层图,其中节点在多个级别的抽象和边缘表示概念之间的关系。尽管3D场景图可以用作机器人的高级“心理模型”,但如何实时建立如此丰富的代表仍然是未知的领域。本文描述了一个实时空间感知系统,这是一套算法,可实时从传感器数据构建3D场景图。我们的第一个贡献是开发实时算法,以在机器人探索环境时逐步构建场景图的层。这些算法在当前机器人位置构建了本地欧几里得签名的距离功能(ESDF),从ESDF中提取位置的拓扑图,然后使用受社区检测技术启发的方法将其分为房间。我们的第二个贡献是研究3D场景图中的循环闭合检测和优化。我们表明,3D场景图允许定义层次描述符以进行循环闭合检测;我们的描述符捕获场景图中跨层的统计信息,从低级视觉外观到有关对象和位置的摘要统计信息。然后,我们提出了第一种算法来优化3D场景图,以响应循环封闭。我们的方法依靠嵌入式变形图同时校正场景图的所有层。我们将提出的空间感知系统实施到一个名为Hydra的体系结构中,该体系结合了快速的早期和中级感知过程与较慢的高级感知。我们在模拟和真实数据上评估了Hydra,并证明它能够以与批处理离线方法相当的准确性重建3D场景图,尽管在线运行。
translated by 谷歌翻译
零拍学习(ZSL)旨在将分类能力转移到看不见的课程。最近的方法证明,泛化和专业化是在ZSL中实现良好性能的两个基本能力。然而,它们只关注一个能力,导致模型,这些模型太过普遍,具有劣化的分类能力或专注于概括到看不见的课程。在本文中,我们提出了一种端到端网络,具有平衡的泛化和专业化能力,称为BGSNet,利用两种能力,并在实例和数据集级别平衡它们。具体而言,BGSNet由两个分支组成:泛化网络(GNET),它应用epiSodic元学习学习广义知识,以及平衡专业化网络(BSNet),它采用多个细心提取器来提取歧视特征并满足实例级别平衡。一种新颖的自调整分集损失旨在优化具有较少冗余和更多样性的BSNet。我们进一步提出了可分辨性的数据集级别平衡并更新线性退火调度中的权重,以模拟网络修剪,从而以低成本获得BSNet的最佳结构,并且实现了数据集级平衡。四个基准数据集的实验展示了我们模型的效果。足够的组分消融证明了整合泛化和专业能力的必要性。
translated by 谷歌翻译
在最近的视觉自我监督作品中,通过将标签分配给变换或增强的输入图像来建立模仿分类目标,称为借口任务。借口的目标可以预测应用于图像的转换。然而,观察到,已经存在于数据集中的图像变换可能在学习这种自我监督的表示方面不太有效。在此观察中构建,我们提出了一种基于生成的对冲网络的框架,自动找到输入数据集中不存在的变换,从而有效地对自我监督学习有效。这种自动化策略允许估计数据集的转换分布,并且还构造其对借口任务进行采样的训练对的互补分布。我们使用多个可视识别数据集进行了评估我们的框架,以显示我们自动转换政策的效果。
translated by 谷歌翻译