本文讨论了具有丰富记录数据的域中的政策选择问题,但互动预算有限。解决此问题将在行业,机器人和推荐领域中安全评估和部署离线强化学习政策等。已经提出了几种违规评估(OPE)技术以评估仅使用记录数据的策略的值。然而,OPE的评估与真实环境中的完整在线评估之间仍然存在巨大差距。然而,在实践中通常不可能进行大量的在线互动。为了克服这个问题,我们介绍了\ emph {主动脱机策略选择} - 一种新的顺序决策方法,将记录数据与在线交互相结合,以识别最佳策略。这种方法使用ope估计来热启动在线评估。然后,为了利用有限的环境相互作用,我们决定基于具有表示政策相似性的内核函数的贝叶斯优化方法来评估哪个策略。我们使用大量候选政策的多个基准,以表明所提出的方法提高了最先进的OPE估计和纯在线策略评估。
translated by 谷歌翻译
预测具有微观结构的材料的代表性样品的演变是均质化的基本问题。在这项工作中,我们提出了一种图形卷积神经网络,其利用直接初始微结构的离散化表示,而无需分割或聚类。与基于特征和基于像素的卷积神经网络模型相比,所提出的方法具有许多优点:(a)它是深入的,因为它不需要卵容,但可以从中受益,(b)它具有简单的实现使用标准卷积滤波器和层,(c)它在没有插值的非结构化和结构网格数据上本身工作(与基于像素的卷积神经网络不同),并且(d)它可以保留与其他基于图形的卷积神经网络等旋转不变性。我们展示了所提出的网络的性能,并将其与传统的基于像素的卷积神经网络模型和基于传统的像素的卷积神经网络模型进行比较,并且在多个大型数据集上的基于特征的图形卷积神经网络。
translated by 谷歌翻译