We study a multi-agent reinforcement learning (MARL) problem where the agents interact over a given network. The goal of the agents is to cooperatively maximize the average of their entropy-regularized long-term rewards. To overcome the curse of dimensionality and to reduce communication, we propose a Localized Policy Iteration (LPI) algorithm that provably learns a near-globally-optimal policy using only local information. In particular, we show that, despite restricting each agent's attention to only its $\kappa$-hop neighborhood, the agents are able to learn a policy with an optimality gap that decays polynomially in $\kappa$. In addition, we show the finite-sample convergence of LPI to the global optimal policy, which explicitly captures the trade-off between optimality and computational complexity in choosing $\kappa$. Numerical simulations demonstrate the effectiveness of LPI.
translated by 谷歌翻译
Video super-resolution is one of the most popular tasks on mobile devices, being widely used for an automatic improvement of low-bitrate and low-resolution video streams. While numerous solutions have been proposed for this problem, they are usually quite computationally demanding, demonstrating low FPS rates and power efficiency on mobile devices. In this Mobile AI challenge, we address this problem and propose the participants to design an end-to-end real-time video super-resolution solution for mobile NPUs optimized for low energy consumption. The participants were provided with the REDS training dataset containing video sequences for a 4X video upscaling task. The runtime and power efficiency of all models was evaluated on the powerful MediaTek Dimensity 9000 platform with a dedicated AI processing unit capable of accelerating floating-point and quantized neural networks. All proposed solutions are fully compatible with the above NPU, demonstrating an up to 500 FPS rate and 0.2 [Watt / 30 FPS] power consumption. A detailed description of all models developed in the challenge is provided in this paper.
translated by 谷歌翻译
基于伪标签的半监督学习(SSL)在原始数据利用率上取得了巨大的成功。但是,由于自我生成的人工标签中包含的噪声,其训练程序受到确认偏差的影响。此外,该模型的判断在具有广泛分布数据的现实应用程序中变得更加嘈杂。为了解决这个问题,我们提出了一种名为“班级意识的对比度半监督学习”(CCSSL)的通用方法,该方法是提高伪标签质量并增强现实环境中模型的稳健性的插手。我们的方法不是将现实世界数据视为一个联合集合,而是分别处理可靠的分布数据,并将其融合到下游任务中,并将其与图像对比度融合到下游任务中,以更好地泛化。此外,通过应用目标重新加权,我们成功地强调了清洁标签学习,并同时减少嘈杂的标签学习。尽管它很简单,但我们提出的CCSSL比标准数据集CIFAR100和STL10上的最新SSL方法具有显着的性能改进。在现实世界数据集Semi-Inat 2021上,我们将FixMatch提高了9.80%,并提高了3.18%。代码可用https://github.com/tencentyouturesearch/classification-spoomls。
translated by 谷歌翻译
在本文中,我们发现两个因素抑制POMS从实现高感感性质量:1)方向优化(COO)问题和2)模型的低频趋势。首先,POMS倾向于生成SR图像,其位置空间中的位置最接近所有潜在的高分辨率(HR)图像的分配中心,导致这种POMS失去高频细节。其次,图像的90美元\%$区域由低频信号组成;相比之下,人类感知依赖于图像的高频细节。然而,POMS应用相同的计算来处理不同频率区域,使POM倾向于恢复低频区域。基于这两个因素,我们提出了一种细节,通过组合高频增强模块和空间对比学习模块来降低COO问题的影响和低频趋势来提高对比损失(DECHROSTS)。实验结果表明,在若干常规SR模型上施加DROCKS时的效率和有效性。例如,在EDSR中,与基于GAN的方法相比,我们所提出的方法与视觉质量微妙降级的基于GAN的方法实现了3.60美元。此外,我们的最终结果表明,与最先进的方法相比,配备了我们的DECHROSS的SR网络更具现实和视觉上令人愉悦的纹理。 %拟议方法的源代码包含在补充材料中,并将在将来公开。
translated by 谷歌翻译
弱监督对象本地化(WSOL)旨在仅通过使用图像级标签来学习对象本地化器。基于卷积神经网络(CNN)的技术通常导致突出显示物体的最辨别部分,同时忽略整个对象范围。最近,变压器架构已经部署到WSOL,以捕获具有自我关注机制和多层的Perceptron结构的远程特征依赖性。然而,变压器缺乏CNN所固有的局部感应偏差,因此可以恶化WSOL中的局部特征细节。在本文中,我们提出了一种基于变压器的新型框架,称为LCTR(局部连续性变压器),该框架被称为LCTR(局部连续性变压器),该框架在长期特征依赖项中提高全局特征的本地感知能力。为此,我们提出了一个关系的修补程序注意模块(RPAM),其考虑全球跨补丁信息。我们进一步设计了一个CUE挖掘模块(CDM),它利用本地特征来指导模型的学习趋势,以突出弱局部响应。最后,在两个广泛使用的数据集,即Cub-200-2011和ILSVRC上进行综合实验,以验证我们方法的有效性。
translated by 谷歌翻译
由于维度的诅咒和训练数据的限制,即使对于强大的深度神经网络,近似高维功能是一个非常具有挑战性的任务。灵感来自使用可逆剩余网络(REVNET)的非线性级别集学习(NLL)方法,本文提出了一种通过学习级别集(钻头)的尺寸减少方法,用于函数近似。我们的方法包含两个主要组件:一个是伪可逆神经网络(PRNN)模块,有效地将高维输入变量转换为低维活动变量,另一个是基于变换的近似函数值的合成回归模块低维空间中的数据。 PRNN由于使用RevEN而言,PRNN不仅放宽了NLL方法中存在的非线性变换的可逆性约束,还可以自适应地重量每个样本的影响并控制函数对学习的活动变量的灵敏度。合成的回归使用输入空间中的欧几里德距离来选择相邻样本,其在活动变量的空间上的投影用于执行局部最小二乘性多项式拟合。这有助于解决传统本地和全球回归中存在的数值振荡问题。广泛的实验结果表明,我们的钻探方法优于NLL和有源子空间方法,特别是当目标函数在其输入域内部拥有临界点时。
translated by 谷歌翻译
我们为图形神经网络提供了一个空间的联合学习框架,即STFL。该框架探讨了输入空间 - 时间数据的潜在相关性,并将其转换为节点特征和邻接矩阵。框架中的联合学习设置可确保数据隐私,同时实现了良好的模型泛化。实验结果在睡眠阶段数据集ISRUC_S3上,说明了STFL对图形预测任务的有效性。
translated by 谷歌翻译
为了弥合深度神经网络的复杂性和硬件能力之间不断增加的差距,网络量化引起了越来越多的研究关注。混合精度量化的最新趋势利用硬件的多个位宽度算术运算来释放网络量化的全部潜力。然而,这也导致困难的整数编程配方,并且即使使用各种放松,大多数现有方法也能使用极其耗时的搜索过程。我们建议优化一个代理度量,而不是解决原始整数编程的问题,而是与整数编程的丢失高度相关的网络正交性的概念,而是用线性编程易于优化。该方法通过数量级的秩序减少了搜索时间和所需的数据量,符合量化精度几乎没有妥协。具体而言,我们在Reset-18上获得72.08%的前1个精度,6.7MB不需要任何搜索迭代。鉴于我们的算法的高效率和低数据依赖性,我们将其用于训练后量化,该量化仅在MobileNetv2上实现71.27%的前1个精度,只有1.5MB。我们的代码可在https://github.com/mac-automl/oppq上获得。
translated by 谷歌翻译
In this paper, we study item advertisements for small businesses. This application recommends prospective customers to specific items requested by businesses. From analysis, we found that the existing Recommender Systems (RS) were ineffective for small/new businesses with a few sales history. Training samples in RS can be highly biased toward popular businesses with sufficient sales and can decrease advertising performance for small businesses. We propose a meta-learning-based RS to improve advertising performance for small/new businesses and shops: Meta-Shop. Meta-Shop leverages an advanced meta-learning optimization framework and builds a model for a shop-level recommendation. It also integrates and transfers knowledge between large and small shops, consequently learning better features in small shops. We conducted experiments on a real-world E-commerce dataset and a public benchmark dataset. Meta-Shop outperformed a production baseline and the state-of-the-art RS models. Specifically, it achieved up to 16.6% relative improvement of Recall@1M and 40.4% relative improvement of nDCG@3 for user recommendations to new shops compared to the other RS models.
translated by 谷歌翻译
本文研究了在线性季节控制设置中权力下放程度与分布式控制器的性能之间的权衡。我们在图形和分布式控制器上研究一个互连代理系统,称为$ \ kappa $分布式控件,该系统使代理可以根据距离$ \ kappa $在基础图上的状态信息做出控制决策。该控制器可以使用参数$ \ kappa $调整其权力下放化程度,从而允许表征权力下放和绩效之间的关系。我们表明,在温和的假设下,包括可稳定性,可检测性和次数增长的图形条件,$ \ kappa $分布式控制和集中式最佳控制之间的性能差异在$ \ kappa $中呈指数级较小。该结果表明,分布式控制可以通过中等程度的权力下放实现近乎最佳的性能,因此它是用于大规模网络系统的有效控制器体系结构。
translated by 谷歌翻译