机器人进行深入增强学习(RL)的导航,在复杂的环境下实现了更高的性能,并且表现良好。同时,对深度RL模型的决策的解释成为更多自主机器人安全性和可靠性的关键问题。在本文中,我们提出了一种基于深入RL模型的注意力分支的视觉解释方法。我们将注意力分支与预先训练的深度RL模型联系起来,并通过以监督的学习方式使用受过训练的深度RL模型作为正确标签来训练注意力分支。由于注意力分支经过训练以输出与深RL模型相同的结果,因此获得的注意图与具有更高可解释性的代理作用相对应。机器人导航任务的实验结果表明,所提出的方法可以生成可解释的注意图以进行视觉解释。
translated by 谷歌翻译
支持日常任务的家庭服务机器人是老年人或残疾人的有前途解决方案。对于家庭服务机器人,在执行碰撞风险之前至关重要。在本文中,我们的目标是为未来的活动产生标题。我们提出了关系的未来字幕模型(RFCM),这是一种未来字幕任务的跨模式语言生成模型。RFCM具有关系自我注意编码器,可以比变压器中常规的自我注意力更有效地提取事件之间的关系。我们进行了比较实验,结果表明RFCM在两个数据集上的基线方法优于基线方法。
translated by 谷歌翻译
文本引导的图像操纵任务最近在视觉和语言社区中获得了关注。虽然大多数事先研究专注于单拐操纵,但我们本文的目标是解决更具挑战性的多转映像操纵(MTIM)任务。考虑到一系列指令和先前生成的图像,此任务的先前模型成功生成了图像。然而,这种方法遭受了发布的遭受,并且缺乏指令中描述的物体的产生质量,从而降低了整体性能。为了克服这些问题,我们提出了一种称为视觉引导语言的新建筑,GaN(Lattegan)。在这里,我们通过引入视觉引导的语言注意(拿铁)模块来解决先前方法的局限性,该语言模块提取生成器的细粒度文本表示,以及识别全局和全局的文本条件的U-Net鉴别器架构。假冒或真实图像的本地代表。在两个不同的MTIM数据集,CodraW和I-CLEVR上进行广泛的实验,证明了所提出的模型的最先进的性能。
translated by 谷歌翻译
高性能深神经网络(DNN)的系统在边缘环境中的需求量很高。由于其较高的计算复杂性,在严格限制计算资源的边缘设备上部署DNN是一项挑战。在本文中,我们通过结合最近备份的参数还原技术来得出一个紧凑的DNN模型,称为DSODENET:神经ODE(普通微分方程)和DSC(可分开的卷积)。 Neural Ode利用了Resnet和Ode之间的相似性,并在多层之间共享重量参数的大部分,这大大降低了内存消耗。我们将dsodeNet应用于域适应性,作为与图像分类数据集的实际用例。我们还为dsodeNet提出了一种基于资源的FPGA设计,其中所有参数和特征地图除了预处理和后处理层外,都可以映射到芯片上的记忆中。它是在Xilinx ZCU104板上实施的,并根据域的适应精度,推理速度,FPGA资源利用率和与软件对应物相比进行了评估。结果表明,与我们的基线神经ODE实施相比,DSODENET获得了可比较或稍好的域适应精度,而没有预处理和后处理层的总参数大小降低了54.2%至79.8%。我们的FPGA实施将推理速度加速23.8倍。
translated by 谷歌翻译
LIDAR(光检测和测距)SLAM(同时定位和映射)作为室内清洁,导航和行业和家庭中许多其他有用应用的基础。从一系列LIDAR扫描,它构建了一个准确的全球一致的环境模型,并估计它内部的机器人位置。 SLAM本质上是计算密集的;在具有有限的加工能力的移动机器人上实现快速可靠的SLAM系统是一个具有挑战性的问题。为了克服这种障碍,在本文中,我们提出了一种普遍,低功耗和资源有效的加速器设计,用于瞄准资源限制的FPGA。由于扫描匹配位于SLAM的核心,所提出的加速器包括可编程逻辑部分上的专用扫描匹配核心,并提供软件接口以便于使用。我们的加速器可以集成到各种SLAM方法,包括基于ROS(机器人操作系统) - 基于ROS(机器人操作系统),并且用户可以切换到不同的方法而不修改和重新合成逻辑部分。我们将加速器集成为三种广泛使用的方法,即扫描匹配,粒子滤波器和基于图形的SLAM。我们使用现实世界数据集评估资源利用率,速度和输出结果质量方面的设计。 Pynq-Z2板上的实验结果表明,我们的设计将扫描匹配和循环闭合检测任务加速高达14.84倍和18.92倍,分别在上述方法中产生4.67倍,4.00倍和4.06倍的整体性能改进。我们的设计能够实现实时性能,同时仅消耗2.4W并保持精度,可与软件对应物乃至最先进的方法相当。
translated by 谷歌翻译