信任区域方法在政策搜索中产生了最先进的结果。一种常见的方法是使用KL-分歧来约束自然梯度政策更新中的信任区域。我们表明,如果我们使用标准指数策略分布的自然参数化与兼容值函数近似相结合,则自然梯度和信赖域优化是等价的。此外,我们表明,标准自然梯度更新可能会根据导致早熟收敛的错误计划减少策略的熵。为了控制熵减少,我们引入了一种新的策略搜索方法,称为兼容策略搜索(COPOS),它限制了熵损失。实验结果表明,COPOS产生最先进的结果,具有挑战性的连续控制任务和不可分割的部分可观测任务。
translated by 谷歌翻译
随着机器人和其他智能代理从简单的环境和问题转移到更复杂的非结构化设置,手动编程他们的行为变得越来越具有挑战性和昂贵。通常,教师更容易展示所需的行为,而不是尝试手动启动它。这种从示范中学习的过程,以及算法的研究,被称为模仿学习。这项工作提供了模仿学习的介绍。它涵盖了基本的假设,方法以及它们之间的关系;为解决问题而开发的丰富算法集;关于有效工具和实施的建议。我们打算将本文服务于两个受众。首先,我们希望机器学习专家能够熟悉模仿学习的挑战,尤其是机器人技术的挑战,以及它与更熟悉的框架(如统计监督学习理论和强化学习)之间有趣的理论和实践区别。其次,我们希望应用人工智能中的神经病学家和专家对模仿学习的框架和工具有广泛的了解。
translated by 谷歌翻译
运动原语的概率表示为机器人学中的机器学习开辟了重要的新的可能性。这些表示能够捕捉来自教师的演示的可变性,作为轨迹上的概率分布,提供合理的探索区域和适应机器人环境变化的能力。然而,为了能够捕捉不同联结之间的变异性和相关性,概率运动原语需要估计与其确定性对应物相比较大数量的参数,其仅聚焦于平均行为。在本文中,我们利用概率运动原语的参数的原始分布来制造具有少量训练实例的参数估计。此外,我们引入了通用运算符来适应关节和任务空间中的运动原语。提出的训练方法和适应操作员在咖啡准备和机器人乒乓球任务中进行测试。在咖啡制备任务中,我们评估了咖啡研磨机和酿造室在目标区域中的位置变化的泛化性能,仅在两次演示后实现了所需的行为。在乒乓球任务中,我们评估命中率和回报率,在使用fewertask特定启发式时表现优于以前的方法。
translated by 谷歌翻译
网络设计的一个主要挑战是预先不知道流量负载。这使得很难充分投入资源,以便最好地预防或缓解瓶颈。虽然有几位作者已经说明了如何通过聚合流量以粗粒度的方式预测流量,但是人们普遍认为,在单个流量级别(包括流量流量)上对流量进行细粒度预测是不可能的。据我们所知,本文显示了第一种细粒度流量预测的方法。简而言之,我们引入了基于频率的核心卡尔曼滤波器(FKKF),它基于测量来预测个体流的行为。 OurFKKF依靠众所周知的卡尔曼滤波器与内核相结合来支持非线性函数的预测。此外,我们将运行空间从时间变为频率空间。在这个通过短时傅里叶变换(STFT)对输入数据进行湿转换的空间中,可以通过主成分分析(PCA)从过去和正在进行的流动中收集流的峰结构进行预测。相同的套接字到套接字连接。我们证明了我们的方法对大学数据中心的流行基准线的有效性。我们的方法预测20个流量组中的17个流量的平均流量,平均预测误差为6.43%,提前约0.49(平均)秒,而现有的粗粒度方法最多表现出77%的预测误差。
translated by 谷歌翻译
最近,深度强化学习(RL)方法已成功应用于多智能体场景。通常,这些方法依赖于代理状态的声明来表示分散决策所需的信息内容。然而,由于没有利用这些系统固有的基本特性,连接对具有大量同质因子的群体系统的扩展性很差,因为它不利用这些系统固有的基本特性:(i)swarmare中的代理可互换和(ii)群中代理的确切数量是相关的。因此,我们提出了一种基于均值嵌入分布的深度多代理RL的新状态表示。我们将代理商视为分布的样本,并使用经验均值嵌入作为分散策略的输入。我们使用直方图,径向基函数和神经网络学习到端来定义meanembedding的不同特征空间。我们在全球和本地可观察的设置中评估来自温暖文献(交会和追求逃避)的两个众所周知的问题的表示。对于本地设置,我们还引入了简单的通信协议。在所有方法中,使用神经网络特征的平均嵌入表示使得相邻代理之间的最丰富的信息交换促进了更复杂的集体策略的发展。
translated by 谷歌翻译
群体系统构成了强化学习(RL)的一个具有挑战性的问题,因为算法需要学习分散的控制策略,这些策略可以通过代理的有限本地感知和通信能力来实现。虽然通常很难直接定义代理的行为,但是简单的通信使用给定任务的先验知识可以更容易地定义协议。在本文中,我们提出了许多简单的通信协议,可以通过深度强化学习来利用多机器人群环境中的分散控制策略。协议基于编码代理的本地邻域关系的直方图,并且还可以将任务特定信息(例如最短距离和方向)发送到期望目标。在我们的框架中,我们使用信任区域政策优化的调整来学习复杂的协作任务,例如编队建设和建立通信链路。我们在模拟的2D物理环境中评估我们的发现,并比较不同通信协议的含义。
translated by 谷歌翻译
许多最近的轨迹优化算法在围绕平均轨迹和保守政策更新的系统动力学的线性近似之间交替。限制政策变化的一种方法是在连续政策之间绕过Kullback-Leibler(KL)差异。这些方法已经在挑战诸如物理系统的端到端控制等问题方面取得了巨大的实验成功。但是,系统动态的线性近似可能会在策略更新中引入偏差并阻止收敛到最优策略。在本文中,我们提出了一种新的基于模型的基于轨迹的策略优化算法,该算法保证了单调改进。该算法反向传播从轨迹数据而不是系统动力学模型中学习的局部的,二次的和时间相关的\ qfunc_。我们的政策更新可确保精确的KL约束满足,而不会简化系统动态的假设。我们通过实验证明了高度非线性控制任务,与线性化系统动力学的方法相比,我们的算法性能有所提高。为了显示我们算法的单调改进,我们另外对我们的策略更新方案进行了理论分析,得出了一个较低的连续迭代之间政策回报的变化。
translated by 谷歌翻译
进化算法已被广泛用于一系列随机优化问题。在大多数研究中,目标是优化解决方案的预期质量。受约束性违反具有极大破坏性影响的现实问题的启发,我们考虑了背包问题的一种变体,即利用最大$ $ alpha $的小概率违反背包容量限制的约束下利润最大化。这个问题被称为机会约束的背包问题,而且机会约束优化问题迄今为止在进化计算文献中很少受到关注。我们展示了如何在通过进化算法解决这些问题时使用流行的偏差等值,如Chebyshev不等式和Chernoff边界作为解决方案评估的一部分,并将我们的算法的有效性与广泛的机会约束背包实例进行比较。
translated by 谷歌翻译
许多具有挑战性的图像处理任务可以通过一个不合理的线性逆问题来描述:去模糊,去卷积,修复,压缩传感和超分辨率都在这个框架中。传统的反向解算器最小化了由数据拟合项组成的成本函数,该数据拟合项用于测量图像与观察结果的匹配程度,以及正则化器,其反映先验知识并促进具有期望属性的图像。机器学习和图像处理方面的最新进展表明,通常可以从训练数据中学习一个能够胜过更传统的正规化器的正规化器。我们提出了一种端到端的数据驱动方法,用于解决受Neumann系列启发的逆问题,我们将其称为Neumann网络。我们不是展开迭代优化算法,而是截断Neumann序列,它直接用数据驱动的非线性正则化器解决线性逆问题。 Neumann网络体系结构优于传统的反问题解决方法,无模型深度学习方法,以及标准数据集上最先进的展开迭代方法。最后,当图像属于子空间的并集并且在前向模型的适当假设下,我们证明存在Neumann网络配置,该结构很好地逼近逆问题的最优估计,并且凭经验证明训练的Neumann网络具有理论预测的形式。 。
translated by 谷歌翻译
研究人员和金融专业人员需要强大的计算机化工具,使用户能够快速操作和评估财经新闻中的语义文本内容。然而,现有方法通常在文献层面工作,而对个别句子的实际结构和情感的深入洞察仍然模糊。因此,投资者需要应用最高的关注度和详细的,特定领域的知识,以便在细粒度的基础上评估信息。为了促进这种手动过程,本文提出使用分布式文本表示和多实例学习将信息从文档级转移到句子级。与替代方法相比,该方法具有优越的预测性能,同时保留了背景和可解释性。我们对手动标记数据集的分析产生了高达69.90%的预测准确度,超过了替代方法的性能至少3.80个百分点。因此,这项研究不仅有利于投资者的财务决策,而且还有助于公司按照预期传达他们的信息。
translated by 谷歌翻译