In contrast to the control-theoretic methods, the lack of stability guarantee remains a significant problem for model-free reinforcement learning (RL) methods. Jointly learning a policy and a Lyapunov function has recently become a promising approach to ensuring the whole system with a stability guarantee. However, the classical Lyapunov constraints researchers introduced cannot stabilize the system during the sampling-based optimization. Therefore, we propose the Adaptive Stability Certification (ASC), making the system reach sampling-based stability. Because the ASC condition can search for the optimal policy heuristically, we design the Adaptive Lyapunov-based Actor-Critic (ALAC) algorithm based on the ASC condition. Meanwhile, our algorithm avoids the optimization problem that a variety of constraints are coupled into the objective in current approaches. When evaluated on ten robotic tasks, our method achieves lower accumulated cost and fewer stability constraint violations than previous studies.
translated by 谷歌翻译
强化学习方法作为一种有前途的技术在自由浮动太空机器人的运动计划中取得了卓越的成果。但是,由于计划维度的增加和系统动态耦合的加剧,双臂自由浮动太空机器人的运动计划仍然是一个开放的挑战。特别是,由于缺乏最终效果的姿势约束,当前的研究无法处理捕获非合作对象的任务。为了解决该问题,我们提出了一种新型算法,即有效的算法,以促进基于RL的方法有效提高计划准确性。我们的核心贡献是通过先验知识指导构建一项混合政策,并引入无限规范以构建更合理的奖励功能。此外,我们的方法成功地捕获了具有不同旋转速度的旋转对象。
translated by 谷歌翻译
近年来,太空中出现了不合作的物体,例如失败的卫星和太空垃圾。这些对象通常由自由浮动双臂空间操纵器操作或收集。由于消除了建模和手动参数调整的困难,强化学习(RL)方法在空间操纵器的轨迹计划中表现出了更有希望的标志。尽管以前的研究证明了它们的有效性,但不能应用于跟踪旋转未知(非合作对象)的动态靶标。在本文中,我们提出了一个学习系统,用于将自由浮动双臂空间操纵器(FFDASM)的运动计划朝向非合作对象。具体而言,我们的方法由两个模块组成。模块I意识到了大型目标空间内两个最终效应的多目标轨迹计划。接下来,模块II将非合件对象的点云作为输入来估计运动属性,然后可以预测目标点在非合作对象上的位置。我们利用模块I和模块II的组合来成功地跟踪具有未知规律性的旋转对象上的目标点。此外,实验还证明了我们学习系统的可扩展性和概括。
translated by 谷歌翻译
实现人类水平的灵活性是机器人技术中的重要开放问题。但是,即使在婴儿级别,灵巧的手动操纵任务也是通过增强学习(RL)的挑战。困难在于高度的自由度和异质因素(例如手指关节)之间所需的合作。在这项研究中,我们提出了双人灵感手基准(BI-DEXHANDS),这是一种模拟器,涉及两只灵巧的手,其中包含数十只双人操纵任务和数千个目标对象。具体而言,根据认知科学文献,BI-DEXHANDS中的任务旨在匹配不同级别的人类运动技能。我们在ISSAC体育馆里建造了Bi-Dexhands;这可以实现高效的RL培训,仅在一个NVIDIA RTX 3090中达到30,000+ fps。我们在不同的设置下为流行的RL算法提供了全面的基准;这包括单代理/多代理RL,离线RL,多任务RL和META RL。我们的结果表明,PPO类型的上车算法可以掌握简单的操纵任务,该任务等效到48个月的人类婴儿(例如,捕获飞行的物体,打开瓶子),而多代理RL可以进一步帮助掌握掌握需要熟练的双人合作的操作(例如,举起锅,堆叠块)。尽管每个任务都取得了成功,但在获得多个操纵技能方面,现有的RL算法无法在大多数多任务和少量学习设置中工作,这需要从RL社区进行更实质性的发展。我们的项目通过https://github.com/pku-marl/dexteroushands开放。
translated by 谷歌翻译
由于其二次复杂性,是变压器中的关注模块,其是变压器中的重要组件不能高效地扩展到长序列。许多工作侧重于近似于尺寸的圆点 - 指数的软MAX功能,导致分二次甚至线性复杂性变压器架构。但是,我们表明这些方法不能应用于超出点的指数样式的更强大的注意模块,例如,具有相对位置编码(RPE)的变压器。由于在许多最先进的模型中,相对位置编码被用作默认,设计可以包含RPE的高效变压器是吸引人的。在本文中,我们提出了一种新颖的方法来加速对RPE的转化仪的关注计算在核心化的关注之上。基于观察到相对位置编码形成Toeplitz矩阵,我们数在数学上表明,可以使用快速傅里叶变换(FFT)有效地计算具有RPE的核化注意。使用FFT,我们的方法实现$ \ mathcal {o}(n \ log n)$时间复杂性。有趣的是,我们进一步证明使用相对位置编码适当地可以减轻香草群关注的培训不稳定问题。在广泛的任务上,我们经验证明我们的模型可以从头开始培训,没有任何优化问题。学习模型比许多高效的变压器变体更好地执行,并且在长序列制度中比标准变压器更快。
translated by 谷歌翻译
Segmenting the fine structure of the mouse brain on magnetic resonance (MR) images is critical for delineating morphological regions, analyzing brain function, and understanding their relationships. Compared to a single MRI modality, multimodal MRI data provide complementary tissue features that can be exploited by deep learning models, resulting in better segmentation results. However, multimodal mouse brain MRI data is often lacking, making automatic segmentation of mouse brain fine structure a very challenging task. To address this issue, it is necessary to fuse multimodal MRI data to produce distinguished contrasts in different brain structures. Hence, we propose a novel disentangled and contrastive GAN-based framework, named MouseGAN++, to synthesize multiple MR modalities from single ones in a structure-preserving manner, thus improving the segmentation performance by imputing missing modalities and multi-modality fusion. Our results demonstrate that the translation performance of our method outperforms the state-of-the-art methods. Using the subsequently learned modality-invariant information as well as the modality-translated images, MouseGAN++ can segment fine brain structures with averaged dice coefficients of 90.0% (T2w) and 87.9% (T1w), respectively, achieving around +10% performance improvement compared to the state-of-the-art algorithms. Our results demonstrate that MouseGAN++, as a simultaneous image synthesis and segmentation method, can be used to fuse cross-modality information in an unpaired manner and yield more robust performance in the absence of multimodal data. We release our method as a mouse brain structural segmentation tool for free academic usage at https://github.com/yu02019.
translated by 谷歌翻译
We adapt Lee et al.'s (2018) span-based entity coreference model to the task of end-to-end discourse deixis resolution in dialogue, specifically by proposing extensions to their model that exploit task-specific characteristics. The resulting model, dd-utt, achieves state-of-the-art results on the four datasets in the CODI-CRAC 2021 shared task.
translated by 谷歌翻译
磁共振成像(MRI)图像中的小病变对于多种疾病的临床诊断至关重要。但是,MRI质量很容易被各种噪声降解,这可以极大地影响小病变的诊断准确性。尽管已经提出了一些用于降级MR图像的方法,但缺乏提高特定于任务的降级方法来提高小病变的诊断信心。在这项工作中,我们建议通过体素杂种残留MLP-CNN模型来降低具有小病变的三维(3D)MR图像。我们结合了基本的深度学习体系结构MLP和CNN,以获得适当的固有偏差,以通过添加残差连接来利用远距离信息,以使图像降低并整合MLP和CNN中的每个输出层。我们在720 T2-Flair脑图像上评估了所提出的方法,其在不同的噪声水平下具有较小的病变。结果表明,与最先进的方法相比,在定量和视觉评估中,我们的方法在测试数据集上具有优势。此外,两名经验丰富的放射科医生同意,在中等和高噪声水平下,我们的方法在恢复小病变和整体图像质量方面优于其他方法。我们的方法的实现可在https://github.com/laowangbobo/Residual_MLP_CNN_MIXER上获得。
translated by 谷歌翻译
我们提出了一个新颖的封闭式复发性神经网络,以检测一个人何时咀嚼食物。我们在0.18 UM CMOS技术中将神经网络作为自定义模拟集成电路实现。对神经网络进行了6.4小时的数据,该数据是从安装在志愿者的乳突骨上的接触麦克风中收集的。当对1.6个小时的以前未见数据进行测试时,神经网络以24秒的分辨率确定了咀嚼事件。它的召回率为91%,F1得分为94%,同时消耗了1.1 UW的功率。一种用于检测整个饮食发作的系统 - 例如餐和小吃 - 基于新颖的模拟神经网络,估计有18.8UW的力量。
translated by 谷歌翻译
从大脑活动中解码图像一直是一个挑战。由于深度学习的发展,有可用的工具可以解决此问题。解码图像旨在将神经尖峰列车映射到低级视觉特征和高级语义信息空间。最近,有一些关于从尖峰列车解码的研究,但是,这些研究更少关注神经科学的基础,很少有研究将接受场合并为视觉图像重建。在本文中,我们提出了一种具有生物学特性的深度学习神经网络体系结构,以从尖峰火车中重建视觉图像。据我们所知,我们实施了一种将接收场属性矩阵集成到损失函数中的方法。我们的模型是从神经尖峰火车到图像的端到端解码器。我们不仅将Gabor过滤器合并到自动编码器中,该自动编码器用于生成图像,还提出了具有接收场特性的损失函数。我们在两个数据集上评估了我们的解码器,这些数据集包含猕猴的一级视觉皮层神经尖峰和sal虫视网膜神经节细胞(RGC)峰值。我们的结果表明,我们的方法可以有效地结合感受的特征以重建图像,从而根据神经信息提供一种新的视觉重建方法。
translated by 谷歌翻译