去噪扩散概率模型最近获得了很多研究的关注,因为它们优于GAN,以及目前提供最先进的生成性能。扩散模型的卓越性能使它们在若干应用中为它们提供了吸引人的工具,包括尿素,超分辨率和语义编辑。在本文中,我们证明扩散模型也可以用作语义分割的仪器,特别是当标记数据稀缺时的设置中。特别地,对于几种预训练的扩散模型,我们研究了从执行反向扩散过程的马尔可夫步骤的网络的中间激活。我们表明这些激活有效地捕获了来自输入图像的语义信息,并且看起来是分割问题的优异像素级表示。基于这些观察,我们描述了一种简单的分段方法,即使仅提供了几种训练图像也可以工作。我们的方法显着优于若干数据集的现有替代品,以获得相同数量的人类监督。
translated by 谷歌翻译
本文提出了一种基于稀疏的计算方法,用于优化用于加强学习(RL)任务的神经网络。该方法结合了两个想法:神经网络修剪并考虑到输入数据相关;只有在它们的变化超过某个阈值时才可以更新神经元状态。运行神经网络时,它显着降低了乘法的数量。我们测试了不同的RL任务,并在乘法数量下实现了20-150倍。没有大量的性能损失;有时表现甚至有所改善。
translated by 谷歌翻译
在本文中,我们研究了一个凸凹马鞍点问题$ \ min_x \ max_y f(x)+ y ^ \ top \ mathbf {a} x - g(y)$,其中$ f(x)$和$ g(y)$是平滑和凸的功能。我们提出了一种加速的原始 - 双梯度方法,用于解决该问题(i)在匹配较低复杂性绑定的强 - 凸强 - 凹形方案中实现最佳线性收敛速率(Zhang等,2021)和(ii)在只有其中一个函数$ f(x)$和$ g(y)$的情况下实现加速的线性收敛速率,而甚至没有它们。最后,我们获得了一种线性收敛算法,用于一般平滑和凸凹骑马点问题$ \ min_x \ max_y f(x,y)$,不需要强大的凸起或强凹面。
translated by 谷歌翻译
用于无线多输入多输出(MIMO)系统的通道解码,通道检测,信道评估和资源管理是可以成功应用机器学习(ML)的问题的所有问题。在本文中,我们研究了几种方法来解决一定的预编码方案估算谱效率(SE)值的问题,优选在最短的时间内。在平均平均百分比误差(MAPE)方面的最佳结果是通过梯度升高分类特征,而线性模型展示了更差的预测质量。神经网络同样地表现为渐变升压,但由于超参数调谐和频繁再培训,它们更具资源和耗时。我们研究了所提出的算法在四极针模拟器产生的广泛情景中的实际适用性。在几乎所有场景中,使用渐变升压和神经网络实现的MAPE小于10 \%。
translated by 谷歌翻译
我们将反应性消息传递(RMP)作为框架,用于在概率模型的因子图表示中执行基于时间表,鲁棒和可扩展的消息通过的基于消息传递的推断。 RMP基于反应性编程风格,该样式仅描述因子图中的节点如何对连接节点中的更改作出反应。没有固定消息传递计划提高推理过程的稳健性,可伸缩性和执行时间。我们还存在ReactiveMp.jl,这是一个Julia包,用于通过最小化约束的自由能实现RMP。通过用户定义的本地表单和分解约束对变分后部分布的结构,ReastiveMp.jl执行混合消息传递算法,包括信仰传播,变分消息通过,期望传播和期望最大化更新规则。实验结果表明,与其他概率模型的贝叶斯推断的其他朱莉娅封装相比,基于Reactivemp的RMP的性能提高。特别是,我们表明RMP框架能够为大型概率状态空间模型运行贝叶斯人推断,并在标准膝上型计算机上具有数十万个随机变量。
translated by 谷歌翻译
我们介绍了一种使用Nerf式生成模型解决逆问题的新框架。给出了单一的2-D图像和已知相机参数的3-D场景重建问题感兴趣。我们展示了天真地优化潜伏的空间,导致伪影和糟糕的新颖观看渲染。我们将此问题归因于3-D几何形状清晰的音量障碍物,并在新颖视野的渲染中变得可见。我们提出了一种新颖的辐射场正则化方法,以获得更好的3-D表面和改进的新颖观点,给定单一视图观察。我们的方法自然地扩展到一般逆问题,包括若有所述,其中仅部分地观察到单一视图。我们通过实验评估我们的方法,实现视觉改进和性能在广泛的任务中升高了基线。与以前的现有技术相比,我们的方法达到了30-40美元的MSE减免和15-25美元的LPIP损失减少。
translated by 谷歌翻译
周围代理的运动预测是自主驾驶背景下的重要任务,因为它与驾驶员的安全密切相关。车辆运动预测(VMP)转变挑战赛追踪侧重于开发模型,该模型具有稳健的分支,能够衡量其预测的不确定性。在这项工作中,我们提出了在排行榜上提供的基准和第2位提高的方法。
translated by 谷歌翻译
具有更多数据,计算和参数的缩放语言模型在自然语言处理方面取得了重大进展。例如,由于缩放,GPT-3能够在内心学习任务上实现强烈结果。但是,培训这些大密度模型需要大量的计算资源。在本文中,我们提出并开发了名为Glam(通用语言模型)的语言模型系列,它使用稀疏激活的专家架构来规模模型容量,同时与致密变体相比,也产生显着更少的训练成本。最大的Glam具有1.2万亿参数,比GPT-3大约为7倍。它仅消耗了用于训练GPT-3的1/3的能量,并且需要一半的计算拖鞋进行推理,同时仍然在29个NLP任务中实现更好的整体零射击和一次性性能。
translated by 谷歌翻译
物体检测在计算机视觉中取得了巨大的进步。具有外观降级的小物体检测是一个突出的挑战,特别是对于鸟瞰观察。为了收集足够的阳性/阴性样本进行启发式训练,大多数物体探测器预设区域锚,以便将交叉联盟(iou)计算在地面判处符号数据上。在这种情况下,小物体经常被遗弃或误标定。在本文中,我们提出了一种有效的动态增强锚(DEA)网络,用于构建新颖的训练样本发生器。与其他最先进的技术不同,所提出的网络利用样品鉴别器来实现基于锚的单元和无锚单元之间的交互式样本筛选,以产生符合资格的样本。此外,通过基于保守的基于锚的推理方案的多任务联合训练增强了所提出的模型的性能,同时降低计算复杂性。所提出的方案支持定向和水平对象检测任务。对两个具有挑战性的空中基准(即,DotA和HRSC2016)的广泛实验表明,我们的方法以适度推理速度和用于训练的计算开销的准确性实现最先进的性能。在DotA上,我们的DEA-NET与ROI变压器的基线集成了0.40%平均平均精度(MAP)的先进方法,以便用较弱的骨干网(Resnet-101 VS Resnet-152)和3.08%平均 - 平均精度(MAP),具有相同骨干网的水平对象检测。此外,我们的DEA网与重新排列的基线一体化实现最先进的性能80.37%。在HRSC2016上,它仅使用3个水平锚点超过1.1%的最佳型号。
translated by 谷歌翻译
我们提出了一种从本地最佳示范中学习被代表为高斯过程(GPS)的学习限制的方法。我们的方法使用Karush-Kuhn-Tucker(KKT)最优状态来确定在该规约紧密的演示中的位置,以及这些状态的约束梯度的缩放。然后,我们训练约束的GP表示,这是一致的,并概括了这些信息。我们进一步表明,GP不确定性可以在Kinodynamic RRT内使用以计划概率 - 安全的轨迹,并且我们可以利用计划者内的GP结构来恰好实现指定的安全概率。我们展示了我们的方法可以学习复杂的非线性约束,在5D非整理车,12D四轮机器和3连杆平面臂上演示,所有这些都是在需要最小的限制信息。我们的结果表明学习的GP约束是准确的,优于先前的约束学习方法,需要更高的先验知识。
translated by 谷歌翻译