信任区域方法在政策搜索中产生了最先进的结果。一种常见的方法是使用KL-分歧来约束自然梯度政策更新中的信任区域。我们表明,如果我们使用标准指数策略分布的自然参数化与兼容值函数近似相结合,则自然梯度和信赖域优化是等价的。此外,我们表明,标准自然梯度更新可能会根据导致早熟收敛的错误计划减少策略的熵。为了控制熵减少,我们引入了一种新的策略搜索方法,称为兼容策略搜索(COPOS),它限制了熵损失。实验结果表明,COPOS产生最先进的结果,具有挑战性的连续控制任务和不可分割的部分可观测任务。
translated by 谷歌翻译
随着机器人和其他智能代理从简单的环境和问题转移到更复杂的非结构化设置,手动编程他们的行为变得越来越具有挑战性和昂贵。通常,教师更容易展示所需的行为,而不是尝试手动启动它。这种从示范中学习的过程,以及算法的研究,被称为模仿学习。这项工作提供了模仿学习的介绍。它涵盖了基本的假设,方法以及它们之间的关系;为解决问题而开发的丰富算法集;关于有效工具和实施的建议。我们打算将本文服务于两个受众。首先,我们希望机器学习专家能够熟悉模仿学习的挑战,尤其是机器人技术的挑战,以及它与更熟悉的框架(如统计监督学习理论和强化学习)之间有趣的理论和实践区别。其次,我们希望应用人工智能中的神经病学家和专家对模仿学习的框架和工具有广泛的了解。
translated by 谷歌翻译
运动原语的概率表示为机器人学中的机器学习开辟了重要的新的可能性。这些表示能够捕捉来自教师的演示的可变性,作为轨迹上的概率分布,提供合理的探索区域和适应机器人环境变化的能力。然而,为了能够捕捉不同联结之间的变异性和相关性,概率运动原语需要估计与其确定性对应物相比较大数量的参数,其仅聚焦于平均行为。在本文中,我们利用概率运动原语的参数的原始分布来制造具有少量训练实例的参数估计。此外,我们引入了通用运算符来适应关节和任务空间中的运动原语。提出的训练方法和适应操作员在咖啡准备和机器人乒乓球任务中进行测试。在咖啡制备任务中,我们评估了咖啡研磨机和酿造室在目标区域中的位置变化的泛化性能,仅在两次演示后实现了所需的行为。在乒乓球任务中,我们评估命中率和回报率,在使用fewertask特定启发式时表现优于以前的方法。
translated by 谷歌翻译
网络设计的一个主要挑战是预先不知道流量负载。这使得很难充分投入资源,以便最好地预防或缓解瓶颈。虽然有几位作者已经说明了如何通过聚合流量以粗粒度的方式预测流量,但是人们普遍认为,在单个流量级别(包括流量流量)上对流量进行细粒度预测是不可能的。据我们所知,本文显示了第一种细粒度流量预测的方法。简而言之,我们引入了基于频率的核心卡尔曼滤波器(FKKF),它基于测量来预测个体流的行为。 OurFKKF依靠众所周知的卡尔曼滤波器与内核相结合来支持非线性函数的预测。此外,我们将运行空间从时间变为频率空间。在这个通过短时傅里叶变换(STFT)对输入数据进行湿转换的空间中,可以通过主成分分析(PCA)从过去和正在进行的流动中收集流的峰结构进行预测。相同的套接字到套接字连接。我们证明了我们的方法对大学数据中心的流行基准线的有效性。我们的方法预测20个流量组中的17个流量的平均流量,平均预测误差为6.43%,提前约0.49(平均)秒,而现有的粗粒度方法最多表现出77%的预测误差。
translated by 谷歌翻译
最近,深度强化学习(RL)方法已成功应用于多智能体场景。通常,这些方法依赖于代理状态的声明来表示分散决策所需的信息内容。然而,由于没有利用这些系统固有的基本特性,连接对具有大量同质因子的群体系统的扩展性很差,因为它不利用这些系统固有的基本特性:(i)swarmare中的代理可互换和(ii)群中代理的确切数量是相关的。因此,我们提出了一种基于均值嵌入分布的深度多代理RL的新状态表示。我们将代理商视为分布的样本,并使用经验均值嵌入作为分散策略的输入。我们使用直方图,径向基函数和神经网络学习到端来定义meanembedding的不同特征空间。我们在全球和本地可观察的设置中评估来自温暖文献(交会和追求逃避)的两个众所周知的问题的表示。对于本地设置,我们还引入了简单的通信协议。在所有方法中,使用神经网络特征的平均嵌入表示使得相邻代理之间的最丰富的信息交换促进了更复杂的集体策略的发展。
translated by 谷歌翻译
群体系统构成了强化学习(RL)的一个具有挑战性的问题,因为算法需要学习分散的控制策略,这些策略可以通过代理的有限本地感知和通信能力来实现。虽然通常很难直接定义代理的行为,但是简单的通信使用给定任务的先验知识可以更容易地定义协议。在本文中,我们提出了许多简单的通信协议,可以通过深度强化学习来利用多机器人群环境中的分散控制策略。协议基于编码代理的本地邻域关系的直方图,并且还可以将任务特定信息(例如最短距离和方向)发送到期望目标。在我们的框架中,我们使用信任区域政策优化的调整来学习复杂的协作任务,例如编队建设和建立通信链路。我们在模拟的2D物理环境中评估我们的发现,并比较不同通信协议的含义。
translated by 谷歌翻译
许多最近的轨迹优化算法在围绕平均轨迹和保守政策更新的系统动力学的线性近似之间交替。限制政策变化的一种方法是在连续政策之间绕过Kullback-Leibler(KL)差异。这些方法已经在挑战诸如物理系统的端到端控制等问题方面取得了巨大的实验成功。但是,系统动态的线性近似可能会在策略更新中引入偏差并阻止收敛到最优策略。在本文中,我们提出了一种新的基于模型的基于轨迹的策略优化算法,该算法保证了单调改进。该算法反向传播从轨迹数据而不是系统动力学模型中学习的局部的,二次的和时间相关的\ qfunc_。我们的政策更新可确保精确的KL约束满足,而不会简化系统动态的假设。我们通过实验证明了高度非线性控制任务,与线性化系统动力学的方法相比,我们的算法性能有所提高。为了显示我们算法的单调改进,我们另外对我们的策略更新方案进行了理论分析,得出了一个较低的连续迭代之间政策回报的变化。
translated by 谷歌翻译
视频表示是许多计算机视觉应用中的关键挑战,例如视频分类,视频字幕和视频监控。在本文中,我们提出了一种新颖的视频表示方法,从一系列视频帧中捕获包括运动和外观在内的有意义的信息,并将其压缩成单个图像。为此,我们计算光流并在最小二乘优化中使用它来查找新图像,即所谓的流剖面图像(FPI)。该图像在移除背景信息的同时对运动以及地面外观信息进行编码。在活动识别实验中验证了该图像的质量,并将结果与​​动态图像[1]和特征图像[2]等其他视频表示技术进行了比较。实验结果以及视觉质量证实FPI可以成功地用于视频处理应用。
translated by 谷歌翻译
手势的使用为人机交互(HCI)系统的笨重接口设备提供了自然的替代方案。随着技术的进步和人与机器之间的通信变得更加复杂,人机交互系统也应相应地进行扩展,以适应引入的复杂性。在本文中,我们提出了一种通过使用预定义的手势音素形成缩放手势的方法,以及基于基于旋转进化神经网络(CNN)的框架,通过仅学习手势音素的成分来识别手势。通过增加使用的手势音素的数量,可以手指地增加可能的手势的总数。为此目的,我们引入了一个名为Scaled Hand Gestures Dataset(SHGD)的新的基准数据集,其中只有手势音素在训练集和测试集中的3元组手势。在我们的实验分析中,我们实现了识别包含一个和三个音素的手势,其准确度分别为98.47%(15个等级)和94.69%(810个等级)。我们的数据集,代码和预训练模型是公开可用的。
translated by 谷歌翻译
开放域对话代理必须能够在将有关用户的知识纳入对话的同时交谈许多主题。在这项工作中,我们通过从会话中提取个人属性来获取这些知识,用于下游Web应用程序中的个性化。这个问题比科学出版物或维基百科文章中的信息提取的既定任务更具挑战性,因为对话仅仅是关于说话者的隐含线索。我们提出了使用深度学习来推断个人属性的方法,例如职业,年龄或家庭状况。具体来说,我们提出了几种HiddenAttribute模型,它们是利用注意机制和嵌入的神经网络。我们的方法在每个谓词的基础上进行训练,以输出给定主谓结合的对象值的排名(例如,当发言者谈论患者,急诊室等时,将医生和护士职业排名较高)。包括Redditdiscussions,电影剧本和众包个人对话在内的各种会话文本的实验证明了我们的方法的可行性以及它们与最先进的基线相比的卓越性能。
translated by 谷歌翻译