基于自动机的方法使机器人能够执行各种复杂的任务。但是,大多数现有的基于自动机的算法都高度依赖于已考虑任务的状态的手动定制表示,从而限制了其在深度强化学习算法中的适用性。为了解决这个问题,通过将变压器纳入强化学习中,我们开发了一个双转化器引导的时间逻辑框架(T2TL),该逻辑框架(T2TL)两次利用变压器的结构特征,即首先通过变压器模块编码LTL指令,以有效地理解对有效的理解培训期间的任务说明,然后再次通过变压器编码上下文变量,以改善任务性能。特别是,LTL指令由Co-Safe LTL指定。作为具有语义的改写操作,LTL的进展被利用以将复杂的任务分解为可学习的子目标,这不仅将非马克维亚奖励决策转换为马尔可夫的奖励决策过程,而且通过同时学习多个子 - 学习效率,提高了采样效率。任务。进一步纳入了环境不足的LTL预训练方案,以促进变压器模块的学习,从而改善LTL的表示。模拟和实验结果证明了T2TL框架的有效性。
translated by 谷歌翻译
透明的物体广泛用于工业自动化和日常生活中。但是,强大的视觉识别和对透明物体的感知一直是一个主要挑战。目前,由于光的折射和反射,大多数商用级深度摄像机仍然不擅长感知透明物体的表面。在这项工作中,我们从单个RGB-D输入中提出了一种基于变压器的透明对象深度估计方法。我们观察到,变压器的全球特征使得更容易提取上下文信息以执行透明区域的深度估计。此外,为了更好地增强细粒度的特征,功能融合模块(FFM)旨在帮助连贯的预测。我们的经验证据表明,与以前的最新基于卷积的数据集相比,我们的模型在最近的流行数据集中有了重大改进,例如RMSE增长25%,RER增长21%。广泛的结果表明,我们的基于变压器的模型可以更好地汇总对象的RGB和不准确的深度信息,以获得更好的深度表示。我们的代码和预培训模型将在https://github.com/yuchendoudou/tode上找到。
translated by 谷歌翻译
高分辨率表示对于基于视觉的机器人抓问题很重要。现有作品通常通过子网络将输入图像编码为低分辨率表示形式,然后恢复高分辨率表示。这将丢失空间信息,当考虑多种类型的对象或远离摄像机时,解码器引入的错误将更加严重。为了解决这些问题,我们重新审视了CNN的设计范式,以实现机器人感知任务。我们证明,与串行堆叠的卷积层相反,使用平行分支将是机器人视觉抓握任务的更强大设计。特别是,为机器人感知任务(例如,高分辨率代表和轻量级设计)提供了神经网络设计的准则,这些指南应对不同操纵场景中的挑战做出回应。然后,我们开发了一种新颖的抓地视觉体系结构,称为HRG-NET,这是一种平行分支结构,始终保持高分辨率表示形式,并反复在分辨率上交换信息。广泛的实验验证了这两种设计可以有效地提高基于视觉的握把和加速网络训练的准确性。我们在YouTube上的真实物理环境中显示了一系列比较实验:https://youtu.be/jhlsp-xzhfy。
translated by 谷歌翻译
这项工作提出了下一代人类机器人界面,只能通过视觉来推断和实现用户的操纵意图。具体而言,我们开发了一个集成了近眼跟踪和机器人操作的系统,以实现用户指定的操作(例如,抓取,拾取和位置等),在其中将视觉信息与人类的注意合并在一起,以创建为所需的映射机器人动作。为了实现视力指导的操纵,开发了一个头部安装的近眼跟踪设备,以实时跟踪眼球运动,以便可以确定用户的视觉注意力。为了提高抓地力性能,然后开发出基于变压器的GRASP模型。堆叠的变压器块用于提取层次特征,其中在每个阶段扩展了通道的体积,同时挤压了特征地图的分辨率。实验验证表明,眼球跟踪系统产生低的凝视估计误差,抓地力系统在多个握把数据集上产生有希望的结果。这项工作是基于凝视互动的辅助机器人的概念证明,该机器人具有巨大的希望,可以帮助老年人或上肢残疾在日常生活中。可在\ url {https://www.youtube.com/watch?v=yuz1hukyurm}上获得演示视频。
translated by 谷歌翻译
在本文中,我们提出了一个基于变压器的架构,即TF-Grasp,用于机器人Grasp检测。开发的TF-Grasp框架具有两个精心设计的设计,使其非常适合视觉抓握任务。第一个关键设计是,我们采用本地窗口的注意来捕获本地上下文信息和可抓取对象的详细特征。然后,我们将跨窗户注意力应用于建模遥远像素之间的长期依赖性。对象知识,环境配置和不同视觉实体之间的关系汇总以进行后续的掌握检测。第二个关键设计是,我们构建了具有跳过连接的层次编码器架构,从编码器到解码器提供了浅特征,以启用多尺度功能融合。由于具有强大的注意力机制,TF-Grasp可以同时获得局部信息(即对象的轮廓),并建模长期连接,例如混乱中不同的视觉概念之间的关系。广泛的计算实验表明,TF-GRASP在康奈尔(Cornell)和雅克(Jacquard)握把数据集上分别获得了较高的结果与最先进的卷积模型,并获得了97.99%和94.6%的较高精度。使用7DOF Franka Emika Panda机器人进行的现实世界实验也证明了其在各种情况下抓住看不见的物体的能力。代码和预培训模型将在https://github.com/wangshaosun/grasp-transformer上找到
translated by 谷歌翻译
具有高级别规格的自治系统的运动规划具有广泛的应用。然而,涉及定时时间逻辑的正式语言的研究仍在调查中。此外,许多现有结果依赖于用户指定的任务在给定环境中可行的关键假设。当操作环境是动态和未知的挑战时,由于环境可以找到禁止,导致预先定时定时任务无法完全满足潜在冲突的任务。在考虑时间束缚要求时,这些问题变得更具挑战性。为了解决这些挑战,这项工作提出了一种控制框架,其考虑了强制限制来强制执行安全要求和软限制,以启用任务放松。使用度量间隔时间逻辑(MITL)规范来处理时间限制约束。通过构建轻松的定时产品自动机,在线运动规划策略与后退地平线控制器合成以产生政策,以减少优先顺序的降低方式实现多重目标1)正式保证了对硬安全限制的满足感; 2)主要满足软定时任务; 3)尽可能收集时变奖励。放松结构的另一个新颖性是考虑违反时间和任务的不可行情况。提供仿真结果以验证所提出的方法。
translated by 谷歌翻译
本文研究了Markov决策过程(MDP)建模的自主动态系统的运动规划,在连续状态和动作空间上具有未知的过渡概率。线性时间逻辑(LTL)用于指定无限地平线上的高级任务,可以转换为具有几种接受集的极限确定性广义B \“UCHI Automaton(LDGBA)。新颖性是设计嵌入式产品MDP(通过结合同步跟踪 - 前沿函数来记录自动化的同步跟踪 - 前沿函数,并促进接受条件的满足感。基于LDGBA的奖励塑造和折扣方案的模型的满足 - 免费加强学习(RL)仅取决于EP-MDP状态,并可以克服稀疏奖励的问题。严格的分析表明,任何优化预期折扣返回的RL方法都保证找到最佳策略,其迹线最大化满意度概率。然后开发模块化深度确定性政策梯度(DDPG)以在连续状态和行动空间上生成此类策略。我们的f Ramework通过一系列Openai健身房环境进行评估。
translated by 谷歌翻译
本文研究了运动和环境不确定性的最佳运动规划。通过将系统建模作为概率标记的马尔可夫决策过程(PL-MDP),控制目标是合成有限内存策略,在该策略下,该代理满足具有所需满足的线性时间逻辑(LTL)的高级复杂任务可能性。特别地,考虑了满足无限地平线任务的轨迹的成本优化,分析了降低预期平均成本和最大化任务满意度概率之间的权衡。而不是使用传统的Rabin Automata,LTL公式被转换为限制确定性的B \“UCHI自动机(LDBA),其具有更直接的接受条件和更紧凑的图形结构。这项工作的新颖性在于考虑案件LTL规范可能是不可行的,并且在PL-MDP和LDBA之间的轻松产品MDP的开发可能是不可行的和开发。放松的产品MDP允许代理在任务不完全可行的情况下进行修改其运动计划,并量化修订计划的违规测量。然后配制多目标优化问题,共同考虑任务满意度的概率,违反原始任务限制的违规以及策略执行的实施成本,通过耦合的线性计划解决。据最好我们的知识,它是第一个弥合规划修订版和计划前缀和计划的最佳控制合成之间的差距的工作在无限地平线上修复代理轨迹。提供实验结果以证明所提出的框架的有效性。
translated by 谷歌翻译
Conditional variational models, using either continuous or discrete latent variables, are powerful for open-domain dialogue response generation. However, previous works show that continuous latent variables tend to reduce the coherence of generated responses. In this paper, we also found that discrete latent variables have difficulty capturing more diverse expressions. To tackle these problems, we combine the merits of both continuous and discrete latent variables and propose a Hybrid Latent Variable (HLV) method. Specifically, HLV constrains the global semantics of responses through discrete latent variables and enriches responses with continuous latent variables. Thus, we diversify the generated responses while maintaining relevance and coherence. In addition, we propose Conditional Hybrid Variational Transformer (CHVT) to construct and to utilize HLV with transformers for dialogue generation. Through fine-grained symbolic-level semantic information and additive Gaussian mixing, we construct the distribution of continuous variables, prompting the generation of diverse expressions. Meanwhile, to maintain the relevance and coherence, the discrete latent variable is optimized by self-separation training. Experimental results on two dialogue generation datasets (DailyDialog and Opensubtitles) show that CHVT is superior to traditional transformer-based variational mechanism w.r.t. diversity, relevance and coherence metrics. Moreover, we also demonstrate the benefit of applying HLV to fine-tuning two pre-trained dialogue models (PLATO and BART-base).
translated by 谷歌翻译
Credit assignment problem of neural networks refers to evaluating the credit of each network component to the final outputs. For an untrained neural network, approaches to tackling it have made great contributions to parameter update and model revolution during the training phase. This problem on trained neural networks receives rare attention, nevertheless, it plays an increasingly important role in neural network patch, specification and verification. Based on Koopman operator theory, this paper presents an alternative perspective of linear dynamics on dealing with the credit assignment problem for trained neural networks. Regarding a neural network as the composition of sub-dynamics series, we utilize step-delay embedding to capture snapshots of each component, characterizing the established mapping as exactly as possible. To circumvent the dimension-difference problem encountered during the embedding, a composition and decomposition of an auxiliary linear layer, termed minimal linear dimension alignment, is carefully designed with rigorous formal guarantee. Afterwards, each component is approximated by a Koopman operator and we derive the Jacobian matrix and its corresponding determinant, similar to backward propagation. Then, we can define a metric with algebraic interpretability for the credit assignment of each network component. Moreover, experiments conducted on typical neural networks demonstrate the effectiveness of the proposed method.
translated by 谷歌翻译