在双替代强制选择任务中,先验知识可以提高性能,特别是在靠近心理物理阈值的操作时。例如,如果主题知道一个选择比另一个更有可能更有可能,则可以在证据疲软时使其选择。这些任务的常见假设是先前储存在神经活动中。在这里,我们提出了一个不同的假设:之前的储存在突触强度中。我们研究国际脑实验室任务,其中光栅出现在屏幕的右侧或左侧,鼠标必须移动一个轮子将光栅带到中心。相反,光栅通常是低的,这使得任务相对困难,并且光栅出现在右侧的现有概率是80%或20%,其(无罪)的约50试验块。我们将其模拟作为增强学习任务,使用前馈神经网络将状态映射到动作,并调整网络的权重以最大化奖励,通过策略梯度学习。我们的模型使用内部状态来存储对光栅和信心的估计,并遵循贝叶斯更新,并且可以在接合和脱离状态之间切换以模仿动物行为。该模型再现主要实验发现 - 在大约10个试验中,块开关后的对比度变化的心理曲线。此外,如在实验中所见,在我们的模型中,右侧块和左块中的神经元活动的差异很小 - 如果噪声约为2%,几乎不可能将块结构从单一试验中的活动中解码。难以测试的假设难以测试,但该技术应该在不遥远的未来中提供。
translated by 谷歌翻译