Hierarchical decomposition of control is unavoidable in large dynamical systems. In reinforcement learning (RL), it is usually solved with subgoals defined at higher policy levels and achieved at lower policy levels. Reaching these goals can take a substantial amount of time, during which it is not verified whether they are still worth pursuing. However, due to the randomness of the environment, these goals may become obsolete. In this paper, we address this gap in the state-of-the-art approaches and propose a method in which the validity of higher-level actions (thus lower-level goals) is constantly verified at the higher level. If the actions, i.e. lower level goals, become inadequate, they are replaced by more appropriate ones. This way we combine the advantages of hierarchical RL, which is fast training, and flat RL, which is immediate reactivity. We study our approach experimentally on seven benchmark environments.
translated by 谷歌翻译
有效的强化学习需要适当的平衡探索和剥削,由动作分布的分散定义。但是,这种平衡取决于任务,学习过程的当前阶段以及当前的环境状态。指定动作分布分散的现有方法需要依赖问题的超参数。在本文中,我们建议使用以下原则自动指定动作分布分布:该分布应具有足够的分散,以评估未来的政策。为此,应调整色散以确保重播缓冲区中的动作和产生它们的分布模式的足够高的概率(密度),但是这种分散不应更高。这样,可以根据缓冲区中的动作有效评估策略,但是当此策略收敛时,动作的探索性随机性会降低。上述原则在挑战性的基准蚂蚁,Halfcheetah,Hopper和Walker2D上进行了验证,并取得了良好的效果。我们的方法使动作标准偏差收敛到与试验和错误优化产生的相似的值。
translated by 谷歌翻译
大图转换为固定尺寸矢量(嵌入)仍然是一个挑战。它的克服将使图形上的任何操作减少到向量空间中的操作。但是,大多数现有方法仅限于具有数十个顶点的图。在本文中,我们通过递归神经网络(编码器和解码器)解决了上述挑战。编码器网络将子图的嵌入嵌入到较大子图的嵌入中,并最终转换为输入图的嵌入。解码器相反。无论(子)图的大小如何,嵌入的尺寸是恒定的。本文提出的仿真实验证实,我们提出的图形自动编码器Regae可以处理具有数千个顶点的图形。
translated by 谷歌翻译
我们提出了一种在该框架中的精细时间离散化和学习算法中的加强学习(RL)的框架。 RL的主要目标之一是为物理机器提供学习最佳行为而不是被编程的方法。然而,机器通常在精细时间离散化中控制。最常见的RL方法将独立的随机元素应用于每个操作,这不适合该设置。这是不可行的,因为它导致受控系统猛拉,而且没有确保足够的探索,因为单一动作不足以创造可能被翻译成政策改进的重要经验。在本文介绍的RL框架中,考虑了策略,以产生基于在后续时刻中自相关的状态和随机元素的动作。这里介绍的RL算法大致优化了这种策略。在不同的时间离散化中,在四个模拟学习控制问题(ANT,HALFCHETAH,HOPPER和WANKER2D)中验证了该算法的效率。在大多数情况下,这里介绍的算法优于竞争对手。
translated by 谷歌翻译
In this paper, we propose a new short-term load forecasting (STLF) model based on contextually enhanced hybrid and hierarchical architecture combining exponential smoothing (ES) and a recurrent neural network (RNN). The model is composed of two simultaneously trained tracks: the context track and the main track. The context track introduces additional information to the main track. It is extracted from representative series and dynamically modulated to adjust to the individual series forecasted by the main track. The RNN architecture consists of multiple recurrent layers stacked with hierarchical dilations and equipped with recently proposed attentive dilated recurrent cells. These cells enable the model to capture short-term, long-term and seasonal dependencies across time series as well as to weight dynamically the input information. The model produces both point forecasts and predictive intervals. The experimental part of the work performed on 35 forecasting problems shows that the proposed model outperforms in terms of accuracy its predecessor as well as standard statistical models and state-of-the-art machine learning models.
translated by 谷歌翻译
Tools of Topological Data Analysis provide stable summaries encapsulating the shape of the considered data. Persistent homology, the most standard and well studied data summary, suffers a number of limitations; its computations are hard to distribute, it is hard to generalize to multifiltrations and is computationally prohibitive for big data-sets. In this paper we study the concept of Euler Characteristics Curves, for one parameter filtrations and Euler Characteristic Profiles, for multi-parameter filtrations. While being a weaker invariant in one dimension, we show that Euler Characteristic based approaches do not possess some handicaps of persistent homology; we show efficient algorithms to compute them in a distributed way, their generalization to multifiltrations and practical applicability for big data problems. In addition we show that the Euler Curves and Profiles enjoys certain type of stability which makes them robust tool in data analysis. Lastly, to show their practical applicability, multiple use-cases are considered.
translated by 谷歌翻译
该论文探讨了波兰语(PLT5)的文本到文本传输转换器语言模型(T5)与从短文本段落中固有和外在关键字提取的任务。该评估是在新的波兰开放科学元数据语料库(POSMAC)上进行的,该科学与本文一起发布:库里卡特项目中编写的216,214篇科学出版物摘要的集合。我们比较了通过四种不同方法获得的结果,即PLT5KW,Extremetext,temopl,Keybert,并得出结论,PLT5KW模型可为频繁代表的关键字带来特别有希望的结果。此外,在POSMAC上训练的PLT5KW关键字生成模型似乎还可以在跨域文本标签方案中产生非常有用的结果。我们讨论了该模型在新闻故事和基于电话的对话框成绩单上的性能,这些成绩单代表文本流派和科学摘要数据集外部域。最后,我们还试图表征在固有和外部关键字提取上评估文本对文本模型的挑战。
translated by 谷歌翻译
我们提出了三种新型的修剪技术,以提高推理意识到的可区分神经结构搜索(DNAS)的成本和结果。首先,我们介绍了DNA的随机双路构建块,它可以通过内存和计算复杂性在内部隐藏尺寸上进行搜索。其次,我们在搜索过程中提出了一种在超级网的随机层中修剪块的算法。第三,我们描述了一种在搜索过程中修剪不必要的随机层的新技术。由搜索产生的优化模型称为Prunet,并在Imagenet Top-1图像分类精度的推理潜伏期中为NVIDIA V100建立了新的最先进的Pareto边界。将Prunet作为骨架还优于COCO对象检测任务的GPUNET和EFIDENENET,相对于平均平均精度(MAP)。
translated by 谷歌翻译
积极和未标记的学习是一个重要的问题,在许多应用中自然出现。几乎所有现有方法的显着局限性在于假设倾向得分函数是恒定的(疤痕假设),这在许多实际情况下都是不现实的。避免这种假设,我们将参数方法考虑到后验概率和倾向得分功能的关节估计问题。我们表明,在轻度假设下,当两个函数具有相同的参数形式(例如,具有不同参数的逻辑)时,相应的参数是可识别的。在此激励的情况下,我们提出了两种估计方法:关节最大似然法和第二种方法基于两种Fisher一致表达式的交替实现。我们的实验结果表明,所提出的方法比基于预期最大化方案的现有方法可比性或更好。
translated by 谷歌翻译
作为一种相对较新的运动形式,电子竞技提供了无与伦比的数据可用性。尽管游戏发动机生成的大量数据,但提取它们并验证其完整性以实用和科学用途的目的是具有挑战性的。我们的工作旨在通过提供来自Starcraft II电子竞技锦标赛的原始文件和预处理的文件来向更广泛的科学界开放电子竞技。这些文件可用于统计和机器学习建模任务,并与各种基于实验室的测量(例如行为测试,脑成像)相关。我们已经收集了公开可用的游戏发动机,生成了比赛的“重播”,并使用低级应用程序编程界面(API)Parser库进行了数据提取和清理。此外,我们开源并发布了在创建数据集过程中开发的所有自定义工具。这些工具包括Pytorch和Pytorch Lightning API抽象来加载和建模数据。我们的数据集包含自2016年以来的主要和Premiere Starcraft II锦标赛的重播。为了准备数据集,我们处理了55个锦标赛的“ replaypacks”,其中包含17930个带有游戏状态信息的文件。根据对可用的星际争霸II数据集的初步调查,我们观察到我们的数据集是其出版物后最大的星际争霸II电子竞技数据的最大可用来源。对提取数据的分析有望在各种受监督和自我监督的任务中进行进一步的人工智能(AI),机器学习(ML),心理学,人工互动(HCI)和与运动有关的研究。
translated by 谷歌翻译