Alphazero及其扩展Muzero是使用机器学习技术在国际象棋,GO和其他一些游戏的超人级别上玩的计算机程序。他们仅通过从自我玩法中学习的强化学习才能达到这种水平,除了游戏规则外,没有任何领域知识。适应alphazero中用于解决搜索问题的方法和技术是一个自然的想法。给定搜索问题,如何代表alphazero启发的求解器?这个搜索问题的“解决规则”是什么?我们用简单的求解器和自我还原来描述可能的表示形式,并为满足性问题提供了此类表示的例子。我们还描述了适合搜索问题的蒙特卡洛树搜索版本。
translated by 谷歌翻译