智能论文笔记

Encoding priors in the brain: a reinforcement learning model for mouse decision making

Sanjukta Krishnagopal , Peter Latham

分类：机器学习

2021-12-10

在双替代强制选择任务中，先验知识可以提高性能，特别是在靠近心理物理阈值的操作时。例如，如果主题知道一个选择比另一个更有可能更有可能，则可以在证据疲软时使其选择。这些任务的常见假设是先前储存在神经活动中。在这里，我们提出了一个不同的假设：之前的储存在突触强度中。我们研究国际脑实验室任务，其中光栅出现在屏幕的右侧或左侧，鼠标必须移动一个轮子将光栅带到中心。相反，光栅通常是低的，这使得任务相对困难，并且光栅出现在右侧的现有概率是80％或20％，其（无罪）的约50试验块。我们将其模拟作为增强学习任务，使用前馈神经网络将状态映射到动作，并调整网络的权重以最大化奖励，通过策略梯度学习。我们的模型使用内部状态来存储对光栅和信心的估计，并遵循贝叶斯更新，并且可以在接合和脱离状态之间切换以模仿动物行为。该模型再现主要实验发现 - 在大约10个试验中，块开关后的对比度变化的心理曲线。此外，如在实验中所见，在我们的模型中，右侧块和左块中的神经元活动的差异很小 - 如果噪声约为2％，几乎不可能将块结构从单一试验中的活动中解码。难以测试的假设难以测试，但该技术应该在不遥远的未来中提供。

translated by 谷歌翻译

虽然变形式自动泊车在多个任务中成功，但是使用传统前沿的使用是限于编码输入数据的底层结构的能力。我们介绍了一个被编码的先前切片的Wasserstein AutoEncoder，其中另外的先前编码器网络学会了数据歧管的嵌入，该数据歧管保留数据的拓扑和几何属性，从而提高了潜在空间的结构。使用切片的Wassersein距离迭代培训AutoEncoder和先前编码器网络。通过沿着大学探测器的内插来遍历潜伏空间来探讨所学习歧管编码的有效性，该测量空间产生位于数据歧管上的样本，因此与欧几里德插值相比更令人逼真。为此，我们介绍一种基于图形的算法，用于探索数据歧管，并通过沿着路径的样本密度最大化，同时最小化总能量，沿着潜在空间内插入潜伏空间。我们使用3D螺旋数据来表明先前对数据不同的几何形状，与传统的自动化器不同，并通过网络算法展示嵌入式数据歧管的探索。我们将框架应用于基准图像数据集，以演示在异常生成，潜在结构和测地插值中学习数据表示的优势。

translated by 谷歌翻译