Monte-Carlo Tree Search (MCTS) is an adversarial search paradigm that first found prominence with its success in the domain of computer Go. Early theoretical work established the game-theoretic soundness and convergence bounds for Upper Confidence bounds applied to Trees (UCT), the most popular instantiation of MCTS; however, there remain notable gaps in our understanding of how UCT behaves in practice. In this work, we address one such gap by considering the question of whether UCT can exhibit lookahead pathology -- a paradoxical phenomenon first observed in Minimax search where greater search effort leads to worse decision-making. We introduce a novel family of synthetic games that offer rich modeling possibilities while remaining amenable to mathematical analysis. Our theoretical and experimental results suggest that UCT is indeed susceptible to pathological behavior in a range of games drawn from this family.
translated by 谷歌翻译
条件密度的可靠建模对于粒子物理学等定量科学领域很重要。在物理外部的域中,已显示隐式定量位神经网络(IQN)以提供有条件密度的准确模型。我们使用Compact Muon螺线管(CMS)打开数据门户的工具和模拟数据成功地应用IQNS进行喷射仿真和校正。
translated by 谷歌翻译
我们的商品设备中的大量传感器为传感器融合的跟踪提供了丰富的基板。然而,当今的解决方案无法在实用的日常环境中提供多个代理商的强大和高跟踪精度,这是沉浸式和协作应用程序未来的核心。这可以归因于这些融合解决方案利用多样性的有限范围,从而阻止它们迎合准确性,鲁棒性(不同的环境条件)和可伸缩性(多个试剂)的多个维度。在这项工作中,我们通过将双层多样性的概念引入多代理跟踪中的传感器融合问题来朝着这一目标迈出重要的一步。我们证明,互补跟踪方式的融合,被动/亲戚(例如,视觉探测法)和主动/绝对跟踪(例如,基础架构辅助的RF定位)提供了一个关键的多样性第一层,可带来可伸缩性,而第二层的多样性则是多样性的。在于融合的方法论,我们将算法(鲁棒性)和数据驱动(用于准确性)方法汇集在一起​​。 Rovar是这种双层多样性方法的实施例,使用算法和数据驱动技术智能地参与跨模式信息,共同承担着准确跟踪野外多种代理的负担。广泛的评估揭示了Rovar在跟踪准确性(中位数),鲁棒性(在看不见的环境中),轻重量(在移动平台上实时运行,例如Jetson Nano/tx2),以启用实用的多功能多多数,以启用实用的多功能,以实用代理在日常环境中的沉浸式应用。
translated by 谷歌翻译
我们探索了使用机器学习技术来消除实验光谱中大量$ \ gamma $ ray检测器的响应。分段$ \ gamma $ -Ray总吸收光谱仪(TAS)允许同时测量单个$ \ gamma $ -ray $ -Ray-ray Energy(e $ _ \ gamma $)和总激发能量(E $ _X $)。 TAS检测器数据的分析使E $ _X $和E $ _ \ gamma $数量相关联,因此与使用E $ _x $和E $ _ \ gamma $响应函数相关的技术是复杂的,因此不那么准确。在这项工作中,我们调查了有条件生成的对抗网络(CGAN)同时展开$ e_ {x} $和$ e _ {\ gamma} $ data在TAS检测器中的数据。具体而言,我们采用PIX2PIX CGAN,这是一种基于深度学习进展的生成建模技术,以处理$(e_x,e _ {\ gamma})$矩阵作为图像到图像翻译问题。我们提出了单个 - $ \ gamma $和double-$ \ gamma $ decay cascades的模拟和实验矩阵的结果。我们的模型展示了检测器分辨率限制内的表征功能,其模拟测试用例$ 90 \%$。
translated by 谷歌翻译
在视觉检索系统中,更新嵌入式模型需要每条数据的重新计算功能。该昂贵的过程称为回填。最近,提出了向后兼容培训(BCT)的想法。为避免回填的成本,BCT修改了对新模型的培训,使其与旧模型兼容的表示。但是,BCT可以显着地阻碍新模型的性能。在这项工作中,我们提出了一种新的学习范例来代表学习:前进兼容培训(FCT)。在FCT中,当旧型号接受培训时,我们还为未来的未知版本做好准备。我们提出学习侧信息,每个样本的辅助功能,促进了模型的未来更新。为了开发一个强大而灵活的模型兼容框架,我们将侧面信息与旧嵌入到新嵌入的前向转换相结合。新模型的培训没有修改,因此,其准确性不会降低。与各种数据集的BCT相比,我们展示了显着的检索准确性改进:Imagenet-1K(+ 18.1%),Place-365(+ 5.4%)和VGG-Face2(+ 8.3%)。 FCT在不同数据集,损失和架构培训时获得模型兼容性。
translated by 谷歌翻译
从现有数据中学习最佳行为是加强学习(RL)中最重要的问题之一。这被称为RL中的“非政策控制”,其中代理的目标是根据从给定策略(称为行为策略)获得的数据计算最佳策略。由于最佳策略可能与行为策略有很大不同,因此与“政体”设置相比,学习最佳行为非常困难,在学习中将利用来自策略更新的新数据。这项工作提出了一种非政策的天然参与者批评算法,该算法利用州行动分布校正来处理外部行为和样本效率的自然政策梯度。具有收敛保证的现有基于天然梯度的参与者批评算法需要固定功能,以近似策略和价值功能。这通常会导致许多RL应用中的次级学习。另一方面,我们提出的算法利用兼容功能,使人们能够使用任意神经网络近似策略和价值功能,并保证收敛到本地最佳策略。我们通过将其与基准RL任务上的香草梯度参与者 - 批评算法进行比较,说明了提出的非政策自然梯度算法的好处。
translated by 谷歌翻译
最近,使用自动编码器(由使用神经网络建模的编码器,渠道和解码器组成)的通信系统的端到端学习问题最近被证明是一种有希望的方法。实际采用这种学习方法面临的挑战是,在变化的渠道条件(例如无线链接)下,它需要经常对自动编码器进行重新训练,以保持低解码错误率。由于重新培训既耗时又需要大量样本,因此当通道分布迅速变化时,它变得不切实际。我们建议使用不更改编码器和解码器网络的快速和样本(几射击)域的适应方法来解决此问题。不同于常规的训练时间无监督或半监督域的适应性,在这里,我们有一个训练有素的自动编码器,来自源分布,我们希望(在测试时间)使用仅使用一个小标记的数据集和无标记的数据来适应(测试时间)到目标分布。我们的方法着重于基于高斯混合物网络的通道模型,并根据类和组件条件仿射变换制定其适应性。学习的仿射转换用于设计解码器的最佳输入转换以补偿分布变化,并有效地呈现在接近源分布的解码器输入中。在实际MMWAVE FPGA设置以及无线设置共有的许多模拟分布变化上,使用非常少量的目标域样本来证明我们方法在适应时的有效性。
translated by 谷歌翻译
我们考虑了两个玩家零和游戏的问题。这个问题在文献中制定为Min-Max Markov游戏。该游戏的解决方案是从给定状态开始的最小最大收益称为状态的最小值。在这项工作中,我们使用在文献中成功应用的连续放松技术​​来计算双球员零和游戏的解决方案,以在马尔可夫决策过程的上下文中计算更快的价值迭代算法。我们将连续放松的概念扩展到两个玩家零和游戏的设置。我们表明,在游戏的特殊结构下,该技术有助于更快地计算状态的最大值。然后,我们推导出一种广义的Minimax Q学习算法,当模型信息未知时计算最佳策略。最后,我们证明了利用随机近似技术的提议的广义Minimax Q学习算法的收敛性,在迭代的界限上的假设下。通过实验,我们展示了我们所提出的算法的有效性。
translated by 谷歌翻译