现实世界的任务往往是高度结构化的。分层强化学习(HRL)作为一种在强化学习(RL)中利用给定任务的层次结构的方法引起了研究兴趣。然而,识别增强RL性能的层次结构政策结构并非易事。在本文中,我们提出了一种HRL方法,该方法使用互信息最大化来学习分层策略的潜在变量。我们的方法可以被解释为学习状态 - 动作空间的adiscrete和潜在表示的一种方式。为了学习与优势函数模式相对应的期权政策,我们引入了优势加权重要性抽样。在我们的HRL方法中,门控策略用于根据选项 - 值函数选择期权策略,并且这些选项策略基于确定性策略梯度方法进行优化。该框架是通过利用adeterministic期权政策利用标准RL中的整体政策与HRL中的分层政策之间的类比得出的。实验结果表明,我们的HRL方法可以学习多种选项,并且可以增强RL在连续控制任务中的性能。
translated by 谷歌翻译
随着机器人和其他智能代理从简单的环境和问题转移到更复杂的非结构化设置,手动编程他们的行为变得越来越具有挑战性和昂贵。通常,教师更容易展示所需的行为,而不是尝试手动启动它。这种从示范中学习的过程,以及算法的研究,被称为模仿学习。这项工作提供了模仿学习的介绍。它涵盖了基本的假设,方法以及它们之间的关系;为解决问题而开发的丰富算法集;关于有效工具和实施的建议。我们打算将本文服务于两个受众。首先,我们希望机器学习专家能够熟悉模仿学习的挑战,尤其是机器人技术的挑战,以及它与更熟悉的框架(如统计监督学习理论和强化学习)之间有趣的理论和实践区别。其次,我们希望应用人工智能中的神经病学家和专家对模仿学习的框架和工具有广泛的了解。
translated by 谷歌翻译
到目前为止,已经进行了许多研究以建立用于推荐时尚物品和服装的系统。尽管他们在各自的任务中取得了良好的表现,但他们中的大多数都无法向用户解释他们的判断,从而影响了他们的实用性。对于可解释的时尚推荐,这项研究提出了一个系统,它不仅能够为装备提供良好的分数,而且能够通过提供背后的理由来解释分数。为此,我们提出了一种方法,用于量化每个项目的每个特征对分数的影响程度。使用这种影响力值,我们可以确定哪个项目和哪些特征使装备好或坏。我们用人类可解释的特征组合表示每个项目的图像,从而对最有影响力的项目 - 特征对的识别给出了输出得分的使用复合计划。为了评估这种方法的性能,我们设计了一个可以在没有人类注释的情况下进行的实验;在装备中放置单个项目 - 特征对,以便得分减少,然后我们测试所提出的方法是否可以使用上述影响值正确地检测被替换的项目。实验结果表明,该方法能够准确地检测降低机芯的不良物品。
translated by 谷歌翻译
本文提出了一种用模糊时间戳建模事件序列的方法,这是一种时间折扣卷积。与普通时间序列不同,时间间隔不是恒定的,小的时移没有显着的影响,并且将时间戳或持续时间输入到模型中是无效的。我们建模所需的标准是提供针对时间变化或时间戳不确定性的稳健性以及维持时间序列模型的基本能力,即忘记无意义的过去信息和处理无限序列。所提出的方法使用具有特定参数化的时间卷积机制来处理它们,其有效地表示时移不变量中的事件依赖性,同时折扣过去事件的影响,以及动态池化机制,其提供针对时间戳中的不确定性的鲁棒性并且增强时间。 -discounting功能通过动态更改池窗口大小。在我们的学习算法中,衰减和动态池化机制在处理无限长度和可变长度序列中起着关键作用。对具有模糊时间戳和普通时间序列的真实世界事件序列的数值实验证明了我们的方法的优点。
translated by 谷歌翻译
到目前为止,已经进行了许多关于图像恢复的研究,即从其扭曲版本中恢复清晰图像的问题。有许多不同类型的失真会影响图像质量。以前的研究集中在单一类型的变形上,提出了去除它们的方法。但是,由于现实世界中的多种因素,图像质量下降。因此,取决于应用,例如自动驾驶汽车或监视摄像机的视觉,我们需要能够处理具有未知混合比的多个组合失真。为此,我们提出了一种简单而有效的神经网络层结构。它以并行方式执行多个操作,这些操作由注意机制加权,以便根据输入选择适当的操作。该层可以堆叠形成陡峭的网络,这是可区分的,因此可以通过梯度下降以端到端的方式进行训练。实验结果表明,所提出的方法比以前的方法更好地利用多个组合失真的图像恢复任务。
translated by 谷歌翻译
构建一个能够执行人类视觉和语言任务的人工智能系统仍然具有挑战性。到目前为止,研究人员已经分别单独列出了各个任务,他们为每个任务设计了网络,并在其专用数据集上对其进行了训练。虽然这种方法取得了一定程度的成功,但它难以理解不同任务之间的关系,并将学到的知识转移给其他人。我们提出了一种多任务学习方法,该方法能够学习视觉语言表示,这些表示由来自其多样化的任务的许多任务共享。表示是分层的,每个任务的预测都是从层次结构的相应级别的表示中计算出来的。我们通过实验证明,我们的方法在图像标题检索,视觉问题转换和视觉基础方面始终优于单一任务学习方法。我们还通过可视化在我们的网络中生成的注意力图来分析学习的层次表示。
translated by 谷歌翻译
本文讨论了引用表达式的生成,这些表达式不仅能够正确地理解对象,而且还能简化人类的理解。随着图像的构成变得更加复杂并且目标变得相对不那么突出,识别被引物体变得更加困难。然而,现有的研究认为所有正确地指向物体的句子同样是好的,忽略了它们是否容易被人理解。如果目标不显着,人类利用与周围环境相关的关系来帮助听众更好地理解它。为了从人类注释中获取这些信息,我们的模型旨在从目标的内部和外部提取信息。此外,我们认为容易理解的句子是人类正确和快速理解的句子。我们通过使用人类及其精确度定位对象所需的时间来优化它。为了评估我们的系统,我们创建了一个新的引用表达数据集,其图像是从大型盗窃自动V(GTA V)获得的,限制了人的目标。我们提出的方法在机器评估和众源人类评估方面都优于以前的方法。源代码和数据集即将推出。
translated by 谷歌翻译
本文提出了一种使用深度神经网络直接从线性全息图进行粒子体积重建的方法。数字全息体积重建通常使用多次衍射计算从在线全息图获得截面重构图像,然后通过使用焦点度量来检测侧面和轴向位置以及粒子的大小。然而,轴向分辨率受到数值孔径的限制。光学系统,这些过程非常耗时。这里提出的方法可以同时检测横向和轴向位置,并通过深度神经网络(DNN)进行粒子化。我们用数字方式研究了DNN在检测到的位置和尺寸误差方面的性能。计算时间比传统的基于衍射的方法快。
translated by 谷歌翻译
情绪对人类智能非常重要。例如,情绪与内部身体状态和外部刺激的评估密切相关。这有助于我们快速响应环境。人类智能中另一个重要的角色是情绪在决策中的作用。此外,情绪的社会方面也非常重要。因此,如果阐明情绪的机制,我们就可以朝着对自然智慧的本质理解前进。在这项研究中,提出了一种模式的情绪,通过计算模型阐明情绪的机制。此外,从伙伴机器人的角度来看,情感模型可以帮助我们建立能够对人类产生共鸣的机器人。为了理解和同情人们的感受,机器人需要拥有自己的情感。这可能允许机器人在人类社会中被接受。所提出的模型使用由三个模块组成的深度神经网络实现,这三个模块彼此相互作用。仿真结果表明,所提出的模型表现出合理的行为作为情感的基本机制。
translated by 谷歌翻译
A unified method for extracting geometric shape features from binary image data using a steady state partial differential equation (PDE) system as a boundary value problem is presented in this paper. The PDE and functions are formulated to extract the thickness, orientation, and skeleton simultaneously. The main advantages of the proposed method is that the orientation is defined without derivatives and thickness computation is not imposed a topological constraint on the target shape. A one-dimensional analytical solution is provided to validate the proposed method. In addition, two and three-dimensional numerical examples are presented to confirm the usefulness of the proposed method.
translated by 谷歌翻译