Autonomous navigation in crowded spaces poses a challenge for mobile robots due to the highly dynamic, partially observable environment. Occlusions are highly prevalent in such settings due to a limited sensor field of view and obstructing human agents. Previous work has shown that observed interactive behaviors of human agents can be used to estimate potential obstacles despite occlusions. We propose integrating such social inference techniques into the planning pipeline. We use a variational autoencoder with a specially designed loss function to learn representations that are meaningful for occlusion inference. This work adopts a deep reinforcement learning approach to incorporate the learned representation for occlusion-aware planning. In simulation, our occlusion-aware policy achieves comparable collision avoidance performance to fully observable navigation by estimating agents in occluded spaces. We demonstrate successful policy transfer from simulation to the real-world Turtlebot 2i. To the best of our knowledge, this work is the first to use social occlusion inference for crowd navigation.
translated by 谷歌翻译
当人类与机器人互动时,不可避免地会影响。考虑一辆在人类附近行驶的自动驾驶汽车:自动驾驶汽车的速度和转向将影响人类驾驶方式。先前的作品开发了框架,使机器人能够影响人类对所需行为的影响。但是,尽管这些方法在短期(即前几个人类机器人相互作用)中有效,但我们在这里探索了长期影响(即同一人与机器人之间的重复相互作用)。我们的主要见解是,人类是动态的:人们适应机器人,一旦人类学会预见机器人的行为,现在影响力的行为可能会失败。有了这种见解,我们在实验上证明了一种普遍的游戏理论形式主义,用于产生有影响力的机器人行为,而不是重复互动的有效性降低。接下来,我们为Stackelberg游戏提出了三个修改,这些游戏使机器人的政策具有影响力和不可预测性。我们最终在模拟和用户研究中测试了这些修改:我们的结果表明,故意使他们的行为更难预期的机器人能够更好地维持对长期互动的影响。在此处查看视频:https://youtu.be/ydo83cgjz2q
translated by 谷歌翻译
机器人需要多种互动模式来与人类在复杂的工业任务中进行稳健合作。我们开发了共存和共存(可可)人类机器人协作系统。共存模式使机器人能够在共享空间中独立地与人类在不同子任务上合作。合作模式使机器人能够遵循人类的指导并恢复失败。人类意图跟踪算法将人类和机器人运动测量作为输入,并提供了交互模式的开关。我们证明了可可系统在用例中类似于现实世界多步组件任务的有效性。
translated by 谷歌翻译
协作机器人需要有效的人类意图估算,以便在诸如人类意图不断变化的工业集会等结构化任务中安全,平稳地与人类合作。我们提出了意图跟踪的概念,并引入了一个协作机器人系统,该系统同时跟踪层次级别的意图。跟踪高级意图以估计人类的相互作用模式,并使机器人能够(1)避免与人碰撞以最大程度地减少中断或(2)帮助人类纠正失败。低级意图估算为机器人提供了特定任务的信息,以进行并发执行。我们在UR5E机器人上实现了该系统,并通过消融试验性研究在组装用例中展示了强大的,无缝和人体工程学的人类机器人协作。
translated by 谷歌翻译
自治车辆必须推理城市环境中的空间闭塞,以确保安全性而不会过于谨慎。前工作探索了观察到的道路代理人的社会行为的闭塞推动,因此将人们视为传感器。从代理行为推断出占用是一种固有的多模式问题;驾驶员可以同样地表现出与它们之前的不同占用模式类似(例如,驾驶员可以以恒定速度或在开放的道路上移动)。然而,过去的工作不考虑这种多层性,从而忽略了在驾驶员行为及其环境之间的关系中模拟了这种梯级不确定性的来源。我们提出了一种遮挡推理方法,其特征是观察人员的行为作为传感器测量,并将它们与标准传感器套件的熔断器融合。为了捕获炼泥的不确定性,我们用离散的潜在空间训练一个条件变形AutoEncoder,以学习从观察到的驾驶员轨迹到驾驶员前方视图的占用网格表示的多模式映射。我们的方法处理多代理场景,使用证据理论将来自多个观察到的驱动因素的测量结果组合以解决传感器融合问题。我们的方法在真实的数据集中验证,表现出基线,并展示实时能力的性能。我们的代码可在https://github.com/sisl/multiagentvarizingalocclusionInferience获得。
translated by 谷歌翻译
We tackle open-world semantic segmentation, which aims at learning to segment arbitrary visual concepts in images, by using only image-text pairs without dense annotations. Existing open-world segmentation methods have shown impressive advances by employing contrastive learning (CL) to learn diverse visual concepts and adapting the learned image-level understanding to the segmentation task. However, these methods based on CL have a discrepancy since it only considers image-text level alignment in training time, while the segmentation task requires region-text level alignment at test time. In this paper, we propose a novel Text-grounded Contrastive Learning (TCL) framework to directly align a text and a region described by the text to address the train-test discrepancy. Our method generates a segmentation mask associated with a given text, extracts grounded image embedding from the masked region, and aligns it with text embedding via TCL. The framework addresses the discrepancy by letting the model learn region-text level alignment instead of image-text level alignment and encourages the model to directly improve the quality of generated segmentation masks. In addition, for a rigorous and fair comparison, we present a unified evaluation protocol with widely used 8 semantic segmentation datasets. TCL achieves state-of-the-art zero-shot segmentation performance with large margins in all datasets. Code is available at https://github.com/kakaobrain/tcl.
translated by 谷歌翻译
为了经济部署机器人操纵器,机器人动作的编程和执行必须迅速。为此,我们提出了一种基于新颖的,基于约束的方法,以直观地指定顺序操作任务,并为这种任务规范计算时间优势的机器人运动。我们的方法遵循基于约束的任务规范的思想,目的是建立最小和以对象为中心的任务描述,该描述在很大程度上与基础机器人运动学无关。我们将此任务描述转换为非线性优化问题。通过解决此问题,我们获得了(本地)最佳的机器人运动,而不仅仅是用于单个运动,还用于整个操作序列。我们在一系列涉及五个不同的机器人模型(包括高度冗余的移动操纵器)的实验中证明了我们方法的功能。
translated by 谷歌翻译
Intonations play an important role in delivering the intention of a speaker. However, current end-to-end TTS systems often fail to model proper intonations. To alleviate this problem, we propose a novel, intuitive method to synthesize speech in different intonations using predefined intonation templates. Prior to TTS model training, speech data are grouped into intonation templates in an unsupervised manner. Two proposed modules are added to the end-to-end TTS framework: an intonation predictor and an intonation encoder. The intonation predictor recommends a suitable intonation template to the given text. The intonation encoder, attached to the text encoder output, synthesizes speech abiding the requested intonation template. Main contributions of our paper are: (a) an easy-to-use intonation control system covering a wide range of users; (b) better performance in wrapping speech in a requested intonation with improved objective and subjective evaluation; and (c) incorporating a pre-trained language model for intonation modelling. Audio samples are available at https://srtts.github.io/IntoTTS.
translated by 谷歌翻译
大多数最新的说话者验证架构都采用了多尺度处理和频道注意机制。这些模型的卷积层通常具有固定的内核大小,例如3或5。在本研究中,我们进一步为这一研究采用了选择性核心注意(SKA)机制。SKA机制允许每个卷积层以数据驱动的方式自适应地选择内核大小。它基于利用频率和通道域的注意机制。我们首先将现有的SKA模块应用于我们的基线。然后,我们提出了两个SKA变体,其中第一个变体在ECAPA-TDNN模型的前面应用,另一个变体与RES2NET骨干块结合使用。通过广泛的实验,我们证明了我们提出的两个SKA变体始终提高性能,并在三个不同的评估方案上进行测试时是互补的。
translated by 谷歌翻译
在本文中,我们提出了自我监督的发言者表示学习策略,该策略包括在前端的引导平衡扬声器表示学习和在后端的不确定性意识的概率扬声器嵌入训练。在前端阶段,我们通过具有均匀性正则化术语的引导训练方案来学习扬声器表示。在后端阶段,通过最大化属于同一扬声器的语音样本之间的相互似然分数来估计概率扬声器嵌入,这不仅提供扬声器表示,而且提供数据不确定性。实验结果表明,拟议的举止均衡训练策略可以有效地帮助了解扬声器表示,并以基于对比学习的传统方法优越。此外,我们展示了集成的两级框架在eer和mindcf方面进一步改善了VoxceleB1测试中的扬声器验证性能。
translated by 谷歌翻译