在观察他人的行为时,人类会对其他人为何如此行事进行推断,以及这对他们对世界的看法意味着什么。人类还使用这样一个事实,即当他人观察时,他们的行为将以这种方式进行解释,从而使他们能够提供信息,从而与他人进行有效沟通。尽管学习算法最近在许多双人游戏,零和游戏中实现了超人的表现,但可扩展的多智能体强化学习算法在复杂的,部分可观察的环境中可以发挥作用的策略和惯例已被证明是难以捉摸的。我们提出了贝叶斯动作解码器(BAD),这是一种新的多智能体学习方法,它使用近似贝叶斯更新来获得公众对环境中所有代理所采取的行动的条件的信念。与公众的信念一起,这种贝叶斯更新有效地定义了一种新的马尔可夫决策过程,即公众信念MDP,其中行动空间由确定性的部分政策组成,由深层网络参数化,可以针对给定的公共状态进行抽样。它利用了这样的事实:如果动作空间被扩充到将私有信息映射到环境动作的部分策略,那么仅作用于该公共信念状态的代理仍然可以学习其私人信息。贝叶斯更新也与人类在观察他人行为时进行的心理推理理论密切相关。我们首先在基于原理的两步矩阵游戏中验证BAD,其中它优于传统的政策梯度方法。然后,我们在具有挑战性的合作部分信息卡游戏Hanabi上评估BAD,其中双人游戏设置方法超越了之前发布的所有学习和手动编码方法。
translated by 谷歌翻译
从交互样本中学习不完美信息游戏的策略是一个具有挑战性的问题。这种设置的常用方法MonteCarlo Counterfactual Regret Minimization(MCCFR)由于高方差而具有较慢的长期收敛率。在本文中,我们引入了适用于MCCFR的任何采样变体的方差减少技术(VR-MCCFR)。使用此技术,每次迭代估计值和更新被重新构建为采样值和状态 - 动作基线的函数,类似于它们用于政策梯度强化学习。新的制定允许估计从同一集中的其他估计中引导,沿着采样的轨迹传播基线的好处;即使从其他估计引导,估计仍然是无偏见的。最后,我们证明给定一个完美的基线,值估计的方差可以减少到零。实验评估表明,VR-MCCFR带来了一个数量级的加速,而经验方差降低了三个数量级。减小的方差允许第一次CFR +与采样一起使用,将加速增加到两个数量级。
translated by 谷歌翻译
本文重点研究数据集的分层非重叠聚类问题。在这样的聚类中,每个数据项与一个叶子节点完全相关联,并且每个内部节点与存储在其下的子树中的所有数据项相关联,使得层次的每个级别对应于数据集的分区。我们开发了一种新的贝叶斯非参数方法,结合了嵌套的中餐厅过程(nCRP)和分层Dirichlet过程(HDP)。与其他现有的贝叶斯方法相比,我们的解决方案使用复杂的潜在混合特征处理数据,这在以前的文献中尚未探索过。我们讨论模型的细节和推理过程。此外,对三个数据集的实验表明,我们的方法实现了与现有算法相比较的可靠实证结果。
translated by 谷歌翻译
研究人员目前依靠临时数据集来训练自动化可视化工具并评估可视化设计的有效性。这些样本通常缺乏真实数据集的特征,而且它们的一次性特性使得难以比较不同的技术。在本文中,我们介绍了VizNet:一个包含来自开放数据存储库和在线可视化库的超过3100万个数据集的大规模语料库。 Onaverage,这些数据集包含3个维度的17个记录,并且在整个公司中,我们发现51%的维度记录分类数据,44%定量,仅有5%的时间。 VizNet提供了必要的公共基线,用于比较可视化设计技术,以及用于自动化可视化分析的开发基准模型和算法。为了展示VizNet的实用程序作为进行在线众包实验的平台,我们复制了一项先前的研究,评估用户任务和数据分布对视觉编码有效性的影响,并通过考虑额外的任务来扩展它:异常值检测。为了应对大规模运行此类研究,我们展示了如何从实验结果中学习感知有效性的度量,并展示其在测试数据集中的预测能力。
translated by 谷歌翻译
在本报告中,我们回顾了基于记忆的元学习作为建筑样本有效策略的工具,该策略从过去的经验中学习以适应目标类中的任何任务。我们的目标是为读者提供此工具的概念基础,以构建在陆域上运行的新的可扩展代理。为此,我们提出了基本的算法模板,用于建立最佳预测器和强化学习器,其行为就好像它们具有允许它们有效地利用任务结构的概率模型。此外,我们在贝叶斯框架内重建基于内存的元学习,显示元学习策略接近最优,因为它们分摊贝叶斯过滤数据,其中适应在内存动态中实现为具有足够统计数据的状态机。从本质上讲,基于记忆的学习 - 学习将概率序贯推理的难题转化为回归问题。
translated by 谷歌翻译
元学习是一种工具,可以让我们构建样本有效的学习系统。在这里,我们表明,一旦经过元训练,LSTM元学习者不仅仅是他们的样本效率低下的深度学习(DL)和重建学习(RL)兄弟,而是他们实际上追求的是基本不同的学习轨迹。我们在三组结构化任务中研究他们的学习动态,其中先前已经描述了DL和RL系统的相应学习动力学:线性回归(Saxe etal。,2013),非线性回归(Rahaman等,2018; Xu等, 2018年)和背景匪徒(Schaul等,2019)。在每种情况下,虽然样本效率低下的DL和RL学习者以交错的方式揭示任务结构,但经过元训练的LSTM元学习者同时发现几乎所有的任务结构,与贝叶斯最优推理算法所期望的模式一致。这对于学习行为本身感兴趣的研究领域有影响,例如安全性,课程设计和人机循环机器学习。
translated by 谷歌翻译
目的:组织氧饱和度(StO2)的术中测量在缺血检测,监测灌注和鉴别疾病中是重要的。高光谱成像(HSI)测量组织的光学反射光谱,并使用该信息量化其组成,包括StO2。但是,由于捕获率和数据处理时间,实时监控很困难。方法:先前开发了一种基于多光纤探头的内窥镜系统,以稀疏地捕获HSI数据(sHSI)。这些通过深度神经网络与RGB图像组合,以生成高分辨率超立方体并计算StO2。为了提高准确度和处理速度,我们提出了双输入条件生成对抗网络(cGAN)Dual2StO2,通过融合RGB和sHSI的特征来直接估计StO2。结果:在vivoporcine肠道数据中进行了验证实验,其中地面实况StO2是从HSIcamera生成的。在平均StO2预测精度和结构相似性度量方面,还将性能与我们的先前光谱分辨率网络SSRNet进行了比较。 Dual2StO2也使用具有不同光纤数量的模拟探针数据进行测试。结论:在一般结构中,由二重StO2估计的StO2在视觉上更接近于地面实况,与SSRNet相比,实现了更高的预测精度和更快的处理速度。仿真表明,当在探头中使用更多数量的光纤时,结果得到改善。未来的工作将包括网络架构的改进,基于模拟结果的硬件优化,以及超出StO2估计的临床应用技术评估。
translated by 谷歌翻译
持续学习旨在使机器学习模型能够以顺序方式学习过去和未来任务的通用解决方案空间。 Conventionalmodels在学习新任务时倾向于忘记先前任务的知识,这种现象称为灾难性遗忘。当在持续学习中使用贝叶斯模型时,可以在两个方面保留以前任务的知识:1)。参数的后验分布,包含先前任务中推理的知识,然后作为后续任务的先验; 2)。核心集,包含以前任务的数据分布知识。在这里,我们通过分别使用自然梯度和斯坦梯度表明贝叶斯连续学习可以通过这两种方式得到促进。
translated by 谷歌翻译
自主无人机比赛最近成为一个有趣的研究问题。梦想是在这项新的快节奏运动中击败人类。一种常见的方法是学习端到端策略,通过模仿专家来直接预测来自图像的控制。然而,这样的政策受限于它模仿和扩展到其他环境的专家,并且车辆动力学很难。克服端到端策略缺点的一种方法是仅在感知任务上构建网络并使用PID或MPC控制器处理控制。但是,必须对单个控制器进行广泛调整,并且通常不能覆盖整个状态空间。在本文中,我们建议使用融合多个控制器的DNN来学习优化控制器。该网络学习了一个具有在线轨迹滤波功能的鲁棒控制器,可以抑制噪声轨迹和各个控制器的缺陷。 Theresult是一个能够学习来自不同控制器的过滤轨迹的良好融合的网络,从而显着改善整体性能。我们将经过训练的网络与其从实际模拟中获得的控制器,端到端基线和人类飞行员进行比较;我们的网络在广泛的实验中击败所有基线并接近专业人员飞行员的表现。 https://youtu.be/hGKlE5X9Z5U上提供了总结此工作的视频
translated by 谷歌翻译
当训练集很大时,标签噪声是许多深度学习任务中固有的。解决噪声标签的典型方法是使用稳健的损耗函数。分类交叉熵(CCE)是许多应用中的成功损失函数。然而,CCE也因容易装配带有损坏标签的样品而臭名昭着。相比之下,平均绝对误差(MAE)在理论上是耐受噪声的,但它通常比CCE在实践中更糟糕。在这项工作中,我们有三个要点。首先,为了解释为什么MAE通常比CCE表现更差,我们从根据每个样本的梯度幅度相对于logitvector的角度揭示其内在样本加权方案,从根本上引入了对它们的新理解。因此,我们发现MAE在训练样本中的分化程度太小,以至于信息量较大的人在训练期间无法对非信息性做出足够的贡献。因此,当噪声率高时,MAE通常不足数据。其次,根据我们的发现,我们提出了改进的MAE(IMAE),它继承了MAE良好的噪声鲁棒性。此外,训练数据点的区分度是可控的,因此IMAE解决了MAE的欠拟合问题。第三,IMAE对CCE和MAE的有效性通过大量实验进行了实验评估,这些实验侧重于合成损坏标签下的图像分类和真实噪声标签下的视频检索。
translated by 谷歌翻译