最近的几项工程致力于在一个环境中致力于无监督的加固学习,其中一项政策首先使用无监督的互动预测,然后微调在相同环境上定义的几个下游监督任务的最佳政策。沿着这一条线,我们解决了一类多种环境中无监督的加强学习问题,其中策略预先培训了从整个类的交互接受,然后在课堂的任何环境中进行微调。值得注意的是,问题本质上是多目标,因为我们可以在许多方面折交环境之间的预训练目标。在这项工作中,我们培养了对课堂内最不利的案件敏感的探索策略。因此,我们将探索问题作为勘探策略在整类环境中探索熵诱导的临界百分点的最大值的最大化。然后,我们提出了一种策略梯度算法,$ \ Alpha $ Mepol,通过与类的介导的交互来优化引入的目标。最后,我们经验展示了算法在学习探索挑战性的连续环境中的能力,我们展示了加强学习从预先接受训练的探索策略W.R.T.从头开始学习。
translated by 谷歌翻译
在终身环境中学习,动态不断发展,是对电流加强学习算法的艰难挑战。然而,这将是实际应用的必要特征。在本文中,我们提出了一种学习超策略的方法,其输入是时间,输出当时要查询的策略的参数。此超级策略验证,以通过引入受控偏置的成本来最大限度地提高估计的未来性能,有效地重用过去数据。我们将未来的性能估计与过去的绩效相结合,以减轻灾难性遗忘。为避免过度接收收集的数据,我们派生了我们嵌入惩罚期限的可差化方差。最后,我们在与最先进的算法相比,在逼真的环境中,经验验证了我们的方法,包括水资源管理和交易。
translated by 谷歌翻译
政策梯度(PG)算法是备受期待的强化学习对现实世界控制任务(例如机器人技术)的最佳候选人之一。但是,每当必须在物理系统上执行学习过程本身或涉及任何形式的人类计算机相互作用时,这些方法的反复试验性质就会提出安全问题。在本文中,我们解决了一种特定的安全公式,其中目标和危险都以标量奖励信号进行编码,并且学习代理被限制为从不恶化其性能,以衡量为预期的奖励总和。通过从随机优化的角度研究仅行为者的政策梯度,我们为广泛的参数政策建立了改进保证,从而将现有结果推广到高斯政策上。这与策略梯度估计器的差异的新型上限一起,使我们能够识别出具有很高概率的单调改进的元参数计划。两个关键的元参数是参数更新的步长和梯度估计的批处理大小。通过对这些元参数的联合自适应选择,我们获得了具有单调改进保证的政策梯度算法。
translated by 谷歌翻译
精确农业正在迅速吸引研究,以有效地引入自动化和机器人解决方案,以支持农业活动。葡萄园和果园中的机器人导航在自主监控方面具有竞争优势,并轻松获取农作物来收集,喷涂和执行时必的耗时必要任务。如今,自主导航算法利用了昂贵的传感器,这也需要大量的数据处理计算成本。尽管如此,葡萄园行代表了一个具有挑战性的户外场景,在这种情况下,GPS和视觉进程技术通常难以提供可靠的定位信息。在这项工作中,我们将Edge AI与深度强化学习相结合,以提出一种尖端的轻质解决方案,以解决自主葡萄园导航的问题,而无需利用精确的本地化数据并通过基于灵活的学习方法来克服任务列出的算法。我们训练端到端的感觉运动剂,该端机直接映射嘈杂的深度图像和位置不可稳定的机器人状态信息到速度命令,并将机器人引导到一排的尽头,不断调整其标题以进行无碰撞的无碰撞中央轨迹。我们在现实的模拟葡萄园中进行的广泛实验证明了解决方案的有效性和代理的概括能力。
translated by 谷歌翻译
精确农业的发展在农业过程中逐渐引入自动化,以支持和合理化与现场管理有关的所有活动。特别是,服务机器人技术通过部署能够在字段中导航的自主代理在执行不同的任务而无需人工干预(例如监视,喷涂和收获)的同时,在这一演变中起主要作用。在这种情况下,全球路径规划是每个机器人任务的第一步,并确保通过完整的现场覆盖范围有效地执行导航。在本文中,我们提出了一种基于学习的方法来解决Waypoint生成,以规划基于行的农作物的导航路径,从利益区域的顶级图表开始。我们提出了一种基于对比损失的新方法,可以将这些点投射到可分离的潜在空间。拟议的深神经网络可以同时在单个正向传球中使用两个专门的头部来预测路点位置和群集分配。对模拟和现实世界图像的广泛实验表明,所提出的方法有效地解决了基于直的和曲面的作物的路点生成问题,从而克服了先前最先进的方法的局限性。
translated by 谷歌翻译
当前可用的量子计算机受到限制,包括硬件噪声和数量有限的Qubits。因此,利用经典优化器来训练参数化的量子电路的变异量子算法已引起对量子技术的近期实际应用的极大关注。在这项工作中,我们采取概率的观点,并将经典优化重新制定为贝叶斯后部的近似。通过将成本函数与量子电路参数相结合的成本函数结合到最小化的成本函数来诱导后验。我们描述了一个基于最大后验点估计值的降低策略。量子H1-2计算机上的实验表明,所得电路的执行速度更快,嘈杂的速度比没有降低策略的训练的电路较小。随后,我们根据随机梯度Langevin动力学描述了后验采样策略。关于三个不同问题的数值模拟表明,该策略能够从后部完整产生样品并避免局部优势。
translated by 谷歌翻译
自动配音(AD)是翻译应适合给定长度模板的用例之一,以实现源代理和目标语音之间的同步性。对于神经机翻译(MT),在源长度接近源长度(例如,在+ -10%内的字符数内)产生翻译,同时保持质量是一个具有挑战性的任务。控制NMT输出长度为翻译质量的成本,通常用两步的生成N-Best假设的方法来减轻,然后基于长度和质量重新排序它们。这项工作引入了一种自学方法,允许变压器模型直接学习生成与源长度紧密匹配的输出,短等距MT。特别地,我们对等距MT的方法不需要生成多个假设,也不需要任何辅助评分函数。我们向3名语言对(英语 - 法语,意大利语,德语,西班牙语)报告结果,该结果与基于TED谈话数据的公开可用的基准。自动和手动评估都表明,我们的自学习方法与更复杂的等距MT方法进行了执行。
translated by 谷歌翻译
我们介绍了Prosody-Aware Machine翻译的任务,旨在产生适合配音的翻译。配音是口语句要求将内容传输以及源的韵律结构转移到目标语言中以保留时序信息。实际上,这意味着从源暂停到目标并确保目标语音段具有大致相同的源片段的暂停。在这项工作中,我们提出了一种隐含和明确的建模方法,将韵律信息整合到神经机翻译中。英语 - 德语/法语与自动指标的实验表明,最简单的考虑方法最佳。结果是通过人类评估的翻译和配音视频确认。
translated by 谷歌翻译
通过智能连接设备,技术正在逐步重塑国内环境,提高家庭安全和整体环境质量。然而,人口转移和流行病最近展示导致他们房屋中的老年人隔离,产生了可靠的辅助人物的需求。机器人助理是国内福利创新的新前沿。老年人监测只是一个可能的服务应用之一,智能机器人平台可以处理集体福祉。在本文中,我们展示了一个新的辅助机器人,我们通过模块化的基于层的架构开发,使灵活的机械设计与最先进的人工智能进行了灵活的人工智能,以便感知和声音控制。关于以前的机器人助手的作品,我们提出了一个设置有四个麦粉轮的全向平台,这使得自主导航与杂乱环境中的有效障碍物避免。此外,我们设计可控定位装置,以扩展传感器的视觉范围,并改善对用户界面的访问以进行远程呈现和连接。轻量级深度学习解决方案,用于视觉感知,人员姿势分类和声乐命令完全运行机器人的嵌入式硬件,避免了云服务私有数据收集产生的隐私问题。
translated by 谷歌翻译
昂贵的传感器和低效的算法管道显着影响自动机器的总成本。然而,实惠的机器人解决方案对于实际使用至关重要,其财务影响构成了在大多数申请领域采用服务机器人的基本要求。其中,精密农业领域的研究人员努力设计强大,经济高效的自主平台,以提供真正的大规模竞争解决方案。在本文中,我们提出了一个完整的算法管道,用于基于行的作物自主导航,专门设计用于应对低范围的传感器和季节性变化。首先,我们建立一个强大的数据驱动方法,为自主机器生成一个可行的路径,仅涵盖庄稼的占用网格信息的裁剪的完整扩展。此外,我们的解决方案利用了深入学习优化技术和综合生成数据的最新进步,以提供一种实惠的解决方案,可有效地解决由于植被生长在行的植被而有效地解决了众所周知的全球导航卫星系统不可靠性和降级。对计算机生成的环境和现实世界作物的广泛实验和模拟表明了我们的方法的稳健性和内在的完全平整性,其开辟了高度实惠和完全自主机器的可能性。
translated by 谷歌翻译