深度加强学习(DRL)在游戏和机器人控制等应用中彻底改变了学习和致动。数据收集的成本,即从代理环境互动产生转变,仍然是在复杂的现实问题中更广泛的DRL采用的重大挑战。在GPU云平台上培训DRL代理的云原生范例是一个有前途的解决方案。在本文中,我们为云天然深层加固学习提供了一种可扩展和弹性图书馆优雅的钢茶,其有效地支持数百万GPU核心,以便在多个层面进行大规模平行的训练。在一个高级别的优雅普罗拉科尔使用基于锦标赛的集合计划,以协调数百个甚至数千个GPU的培训过程,安排排行榜与培训池与数百个豆荚之间的相互作用。在低级,每个POD通过在单个GPU中充分利用近7,000个GPU CUDA核心,模拟了代理环境的交互。我们的优雅RL-Podracer Library通过遵循集装箱,微服务和MLOPS的开发原则,具有高可扩展性,弹性和可访问性。使用NVIDIA DGX SuperPod Cloud,我们对机器人和股票交易中的各种任务进行了广泛的实验,并表明Elegitrl-Podracer大大优于Rllib。我们的代码可在GitHub上获得。
translated by 谷歌翻译
最近,在蒙版的图像建模中取得了重大进展,以赶上掩盖语言建模。但是,与NLP中的单词不同,图像的语义分解仍然使视觉和语言之间的掩盖自动编码(MAE)不同。在本文中,我们探讨了单词的潜在视觉类似物,即语义部分,并通过提出语义引导的掩盖策略将语义信息集成到MAE的训练过程中。与广泛采用的随机掩蔽相比,我们的掩蔽策略可以逐渐指导网络学习各种信息,即从部分内部模式到零件之间的关系。特别是,我们通过两个步骤实现这一目标。 1)语义部分学习:我们设计了一种自制的部分学习方法,通过利用和完善基于VIT的编码器的多头注意来获得语义部分。 2)语义引导的MAE(SEMMAE)训练:我们设计了一种掩盖策略,该策略从掩盖每个部分中的一部分贴片到掩盖图像中的一部分(整个)部分。关于各种视觉任务的广泛实验表明,Semmae可以通过集成语义信息来学习更好的图像表示。特别是,Semmae在Imagenet-1k上达到了84.5%的微调精度,这使香草Mae的表现优于1.4%。在语义细分和细粒度的识别任务中,Semmae还带来了重大改进并产生最先进的性能。
translated by 谷歌翻译
视觉变压器(VITS)已成为各种视觉任务的流行结构和优于卷积神经网络(CNNS)。然而,这种强大的变形金机带来了巨大的计算负担。而这背后的基本障碍是排气的令牌到令牌比较。为了缓解这一点,我们深入研究Vit的模型属性,观察到VITS表现出稀疏关注,具有高令牌相似性。这直观地向我们介绍了可行的结构不可知的尺寸,令牌编号,以降低计算成本。基于这一探索,我们为香草vits提出了一种通用的自我切片学习方法,即坐下。具体而言,我们首先设计一种新颖的令牌减肥模块(TSM),可以通过动态令牌聚集来提高VIT的推理效率。不同于令牌硬滴,我们的TSM轻轻地集成了冗余令牌变成了更少的信息,可以在不切断图像中的鉴别性令牌关系的情况下动态缩放视觉注意。此外,我们介绍了一种简洁的密集知识蒸馏(DKD)框架,其密集地以柔性自动编码器方式传送无组织的令牌信息。由于教师和学生之间的结构类似,我们的框架可以有效地利用结构知识以获得更好的收敛性。最后,我们进行了广泛的实验来评估我们的坐姿。它展示了我们的方法可以通过1.7倍加速VITS,其精度下降可忽略不计,甚至在3.6倍上加速VITS,同时保持其性能的97%。令人惊讶的是,通过简单地武装LV-VIT与我们的坐线,我们在想象中实现了新的最先进的表现,超过了最近文学中的所有CNN和VITS。
translated by 谷歌翻译
自我关注已成为最近网络架构的一个组成部分,例如,统治主要图像和视频基准的变压器。这是因为自我关注可以灵活地模拟远程信息。出于同样的原因,研究人员最近使尝试恢复多层Perceptron(MLP)并提出一些类似MLP的架构,显示出极大的潜力。然而,当前的MLP样架构不擅长捕获本地细节并缺乏对图像和/或视频中的核心细节的逐步了解。为了克服这个问题,我们提出了一种新颖的Morphmlp架构,该架构专注于在低级层处捕获本地细节,同时逐渐改变,以专注于高级层的长期建模。具体地,我们设计一个完全连接的层,称为Morphfc,两个可变过滤器,其沿着高度和宽度尺寸逐渐地发展其接收领域。更有趣的是,我们建议灵活地调整视频域中的Morphfc层。为了我们最好的知识,我们是第一个创建类似MLP骨干的用于学习视频表示的骨干。最后,我们对图像分类,语义分割和视频分类进行了广泛的实验。我们的Morphmlp,如此自我关注的自由骨干,可以与基于自我关注的型号一样强大。
translated by 谷歌翻译
最近的研究表明,在将图神经网络应用于多元时间序列预测中,其中时间序列的相互作用被描述为图形结构,并且变量表示为图节点。沿着这一行,现有方法通常假定确定图神经网络的聚合方式的图形结构(或邻接矩阵)是根据定义或自学来固定的。但是,变量的相互作用在现实情况下可以是动态的和进化的。此外,如果在不同的时间尺度上观察到时间序列的相互作用序列的相互作用大不相同。为了使图形神经网络具有灵活而实用的图结构,在本文中,我们研究了如何对时间序列的进化和多尺度相互作用进行建模。特别是,我们首先提供与扩张的卷积配合的层次图结构,以捕获时间序列之间的比例特定相关性。然后,以经常性的方式构建了一系列邻接矩阵,以表示每一层的不断发展的相关性。此外,提供了一个统一的神经网络来集成上述组件以获得最终预测。这样,我们可以同时捕获成对的相关性和时间依赖性。最后,对单步和多步骤预测任务的实验证明了我们方法比最新方法的优越性。
translated by 谷歌翻译
图形神经网络(GNNS)可以使用深度学习对图进行分析,并在图中捕获结构化信息的结果有希望的结果。本文着重于创建一个小图来表示原始图,以便在尺寸降低的图上训练的GNN可以做出准确的预测。我们将原始图视为接收场的分布,并旨在合成一个小图,其接受场具有相似的分布。因此,我们通过接受场分布匹配(GCDM)提出了图形屈服,该图是通过使用最大平均差异(MMD)量化的分布匹配损耗来优化合成图来完成的。此外,我们证明了GCDM生成的合成图在评估阶段高度概括为各种模型,并且使用此框架可显着提高冷凝速度。
translated by 谷歌翻译
设计私人投票规则是值得信赖的民主的重要问题。在本文中,根据差异隐私的框架,我们根据知名的Condorcet方法提出了三类随机投票规则:Laplacian Condorcet方法($ cm^{lap} _ \ lambda $),指数condorcet方法($ cmcmential condorcet方法^{exp} _ \ lambda $)和随机响应condorcet方法($ cm^{rr} _ \ lambda $),其中$ \ lambda $代表噪声级别。通过准确估计随机性引入的错误,我们表明$ cm^{exp} _ \ lambda $是大多数情况下最准确的机制。我们证明,我们的所有规则都满足绝对单调性,Lexi参与,概率帕累托效率,近似概率孔孔标准和近似SD-StrategyProofness。此外,$ cm^{rr} _ \ lambda $满足(非适当的)概率condorcet标准,而$ cm^{lap} _ \ lambda $和$ cm^{exp} _ \ \ lambda _ 。最后,我们将差异隐私视为投票公理,并讨论其与其他公理的关系。
translated by 谷歌翻译
尽管最近在半监督联合学习(FL)进行医学图像诊断方面取得了进展,但未确定未标记的客户之间的类别分布不平衡的问题仍未解决。在本文中,我们研究了类不平衡的半监督FL(IMFED-SEMI)的实用但具有挑战性的问题,该问题使所有客户端仅具有未标记的数据,而服务器只有少量标记的数据。新型动态银行学习计划解决了这个IMFED-SEMI问题,该计划通过利用班级比例信息来改善客户培训。该方案由两个部分组成,即,为每个本地客户端提取各种类比例的动态银行构建,以及分类分类,以强加本地模型以学习不同的类比例。我们评估了两个公共现实世界中医学数据集的方法,包括25,000 CT切片的颅内出血诊断和10,015个皮肤镜图像的皮肤病变诊断。与第二好的精度以及全面的分析研究相比,我们的方法的有效性已得到了显着改善(7.61%和4.69%)的验证(7.61%和4.69%)。代码可在https://github.com/med-air/imfedsemi上找到。
translated by 谷歌翻译
图形卷积网络由于非欧几里得数据的出色建模能力而广泛用于基于骨架的动作识别。由于图形卷积是局部操作,因此它只能利用短距离关节依赖性和短期轨迹,但无法直接建模遥远的关节关系和远程时间信息,这些信息对于区分各种动作至关重要。为了解决此问题,我们提出了多尺度的空间图卷积(MS-GC)模块和一个多尺度的时间图卷积(MT-GC)模块,以在空间和时间尺寸中丰富模型的接受场。具体而言,MS-GC和MT-GC模块将相应的局部图卷积分解为一组子图形卷积,形成了层次的残差体系结构。在不引入其他参数的情况下,该功能将通过一系列子图卷积处理,每个节点都可以与其邻域一起完成多个空间和时间聚集。因此,最终的等效接收场被扩大,能够捕获空间和时间域中的短期和远程依赖性。通过将这两个模块耦合为基本块,我们进一步提出了一个多尺度的空间时间图卷积网络(MST-GCN),该网络(MST-GCN)堆叠了多个块以学习有效的运动表示行动识别的运动表示。拟议的MST-GCN在三个具有挑战性的基准数据集(NTU RGB+D,NTU-1220 RGB+D和动力学 - 骨骼)上实现了出色的性能,用于基于骨架的动作识别。
translated by 谷歌翻译
对看不见的环境变化的深入强化学习的概括通常需要对大量各种培训变化进行政策学习。我们从经验上观察到,接受过许多变化的代理商(通才)倾向于在一开始就更快地学习,但是长期以来其最佳水平的性能高原。相比之下,只接受一些变体培训的代理商(专家)通常可以在有限的计算预算下获得高回报。为了两全其美,我们提出了一个新颖的通才特权训练框架。具体来说,我们首先培训一名通才的所有环境变化。当它无法改善时,我们会推出大量的专家,并从通才克隆过重量,每个人都接受了训练,以掌握选定的一小部分变化子集。我们终于通过所有专家的示范引起的辅助奖励恢复了通才的培训。特别是,我们调查了开始专业培训的时机,并在专家的帮助下比较策略以学习通才。我们表明,该框架将政策学习的信封推向了包括Procgen,Meta-World和Maniskill在内的几个具有挑战性和流行的基准。
translated by 谷歌翻译