我们将零温度的大都市蒙特卡洛算法作为通过最大程度地减少损失函数来训练神经网络的工具。我们发现,正如理论上的预期,并在其他作者的经验上表现出来,Metropolis Monte Carlo可以训练具有与梯度下降相当的准确性(即使不一定那么快)的准确性。当神经网络的参数数量较大时,大都市算法不会自动失败。当神经网络的结构或神经元激活是强大的异质性时,它可能会失败,并且我们引入了一种自适应的蒙特卡洛算法AMC来克服这些局限性。 Monte Carlo方法的内在随机性和数值稳定性使AMC可以训练深层神经网络和经常性的神经网络,其中梯度太小或太大,无法通过梯度下降进行训练。 Monte Carlo方法为培训神经网络的基于梯度的方法提供了补充,从而可以访问一组不同的网络架构和原理。
translated by 谷歌翻译