基于自我关注机制的顶部,视觉变压器最近在各种视觉任务上表现出显着的性能。虽然实现出色的性能,但它们仍然需要相对密集的计算成本,随着斑块的数量,自我关注头和变压器块增加而剧烈缩放。在本文中,我们争辩说,由于图像的变化大,因此它们对贴片之间的长距离依赖性建模的需要不同。为此,我们介绍了一个Adavit,一个自适应计算框架,学习在每次输入的基础上派生在整个骨干内的修补程序,自我注意力头和变压器块的使用策略,旨在提高视觉变压器的推理效率图像识别的最小精度降低。以端到端的方式与变压器骨架一起优化,轻量级决策网络连接到骨架上,以便在飞行中产生决定。关于ImageNet的广泛实验表明,与最先进的视觉变压器相比,我们的方法对效率的提高超过了2倍的效率,只有0.8%的准确性,实现了在不同的计算预算上的良好效率/准确性权衡权衡。我们进一步对学习使用政策进行了定量和定性分析,并对视觉变压器的冗余提供了更多的见解。
translated by 谷歌翻译
卷积神经网络(CNNS)在许多实际应用中成功了。但是,它们的高计算和存储要求通常使它们难以在资源受限的设备上部署。为了解决这个问题,已经提出了许多修剪算法用于CNN,但大多数人不能将CNNS提交给合理的水平。在本文中,我们提出了一种基于递归最小二乘(RLS)优化的训练和修剪CNN的新颖算法。在为某些时期培训CNN之后,我们的算法组合了逆输入自相关矩阵和权重矩阵,以按层评估和修剪不重要的输入通道或节点层。然后,我们的算法将继续培训修剪的网络,并且在修剪的网络恢复旧网络的完整性能之前,不会进行下一次修剪。此外,对于CNN,所提出的算法可用于前馈神经网络(FNN)。在MNIST,CIFAR-10和SVHN数据集上的三个实验表明,我们的算法可以实现更合理的修剪,并且具有比其他四个流行的修剪算法更高的学习效率。
translated by 谷歌翻译
在经典曲线图中,给定实值曲线图信号,其曲线图傅里叶变换通常被定义为信号和图表拉普拉斯的每个特征向量之间的内部产品。不幸的是,在矢量值图表信号的情况下,该定义在数学上没有数学上有效,然而,在最先进的图表学习建模和分析中是典型的操作数。因此,寻求向矢量值信号解码的广义转换,因此本文的主要目的是本文的主要目的。探索了几次尝试,并且还发现在邻接等级的分层水平下进行转换,有助于更容易提高信号的光谱特性。拟议的方法被引入为一个新工具,协助图表学习模型的诊断和分析行为。
translated by 谷歌翻译
最近,已经研究了各种视图合成失真估计模型以更好地为3-D视频编码服务。然而,它们可以在不同水平的深度变化,纹理变性和视图合成失真(VSD)中数量地定量地模拟关系,这对于速率失真优化和速率分配至关重要。在本文中,开发了一种基于自动加权层表示的视图合成失真估计模型。首先,根据深度变化和它们相关的纹理变性,定义子VSD(S-VSD)。之后,一组理论衍生证明VSD可以大致分解成乘以其相关权重的S-VSD。为了获得S-VSD,开发了一种基于层的S-VSD表示,其中具有相同深度变化级别的所有像素用层表示,以在层级别实现高效的S-VSD计算。同时,学习非线性映射函数以准确地表示VSD和S-VSD之间的关系,在VSD估计期间自动为S-VSD提供权重。要了解此类功能,构建了VSD的数据集及其关联的S-VSD。实验结果表明,在其相关的S-VSD可用后,可以通过由非线性映射函数的重量进行准确地估计VSD。所提出的方法以准确性和效率优于相关的最先进方法。该方法的数据集和源代码将在https://github.com/jianjin008/处提供。
translated by 谷歌翻译
大多数当前图像标题模型通常从左到右生成标题。这种单向财产使它们只能利用过去的背景但不是未来的背景。尽管最近的基于改进的模型可以通过基于第一阶段的预检索或预先生成的标题在第二阶段生成新的标题来利用过去和未来的上下文,但是这些模型的解码器通常由两个网络组成〜(即第一阶段中的猎犬或标题器和第二阶段的炼油厂),其只能顺序地执行。在本文中,我们引入了一种用于图像标题的紧凑双向变压器模型,其可以在解码器并行执行解码器时隐式地和明确地利用双向上下文。具体地,通过将​​左右(L2R)和向右(R2L)紧密地耦合到单个紧凑型〜(即隐式)和可选地允许两个流的相互作用(即明确)的相互作用(即明确)来实现来实现。最终标题以句子级集合方式从L2R或R2L流中选择。我们对MSCOCO基准进行广泛的消融研究,并找到紧凑的架构,它用作隐式利用双向上下文的正则化,以及句子级集合比显式交互机制扮演更重要的角色。通过无缝地与单词级集合组合,句子级集合的效果进一步放大。我们进一步将传统的单流自我关键培训扩展到此架构下的双流程版本,并与非视语 - 预先预订模型相比,实现新的最先进导致。源代码可用于{\ color {magenta} \ url {https://github.com/yuanezhou/cbtrans}}。
translated by 谷歌翻译
GPU广泛用于加速机器学习工作负载的培训。随着现代机器学习模型越来越大,他们需要更长的时间来训练,导致GPU能耗更高。本文介绍了GPOEO,一个用于机器学习培训工作负载的在线GPU能量优化框架。 GPOEO通过采用用于在线测量,多目标预测建模和搜索优化的新颖技术动态地确定最佳能量配置。为了表征目标工作量行为,GPOEO利用GPU性能计数器。为了减少性能计数器分析开销,它使用分析模型来检测训练迭代变化,并且仅在检测到迭代移位时收集性能计数器数据。 GPOEO基于梯度升压和本地搜索算法使用多目标模型,在执行时间和能量消耗之间找到权衡。通过将其应用于来自在NVIDIA RTX3080TI GPU上运行的两个AI基准套件,通过将其应用于71台机器学习工作负载来评估GPoeo。与NVIDIA默认调度策略相比,GPOEO提供16.2%的平均节能,平均执行时间增加5.1%。
translated by 谷歌翻译
持续学习需要模型来学习新任务,同时保持先前学识到的知识。已经提出了各种算法来解决这一真正的挑战。到目前为止,基于排练的方法,例如经验重播,取得了最先进的性能。这些方法将过去任务的一小部分保存为内存缓冲区,以防止模型忘记以前学识的知识。但是,它们中的大多数情况都同样对待每一个新任务,即,在学习不同的新任务时修复了框架的超级参数。这样的设置缺乏对过去和新任务之间的关系/相似性的考虑。例如,与从公共汽车中学到的人相比,从狗的知识/特征比识别猫(新任务)更有益。在这方面,我们提出了一种基于BI级优化的元学习算法,以便自适应地调整从过去和新任务中提取的知识之间的关系。因此,该模型可以在持续学习期间找到适当的梯度方向,避免在内存缓冲区上的严重过度拟合问题。广泛的实验是在三个公开的数据集(即CiFar-10,CiFar-100和微小想象网)上进行的。实验结果表明,该方法可以一致地改善所有基线的性能。
translated by 谷歌翻译
最近,高光谱成像(HSI)引起了越来越多的研究关注,特别是对于基于编码光圈快照谱成像(CASSI)系统的研究。现有的深度HSI重建模型通常接受对数据进行配对数据,以在CASSI中的特定光学硬件掩模给出的2D压缩测量时检索原始信号,在此期间,掩码很大程度上影响了重建性能,并且可以作为数据上的“模型超参数”。增强。此屏蔽特定的培训风格将导致硬件错误稳定问题,从而为在不同硬件和嘈杂环境中部署深度HSI模型的障碍。为了解决这一挑战,我们为HSI引入了具有完整变分的贝叶斯学习处理的掩码不确定性,并通过真实硬件的启发的掩模分解显式模拟它。具体而言,我们提出了一种基于图形的自我调整(GST)网络,以推理适应不同硬件之间的掩模的不同空间结构的不确定性。此外,我们开发了一个Bilevel优化框架,以平衡HSI重建和不确定性估计,占MASK的HyperParameter属性。广泛的实验结果和模型讨论验证了两个错误频繁场景下提出的GST方法的有效性(超过33/30 dB),与最先进的校正方法相比,竞争性能很大。我们的代码和预先接受的模型可在https://github.com/jiamian wang / mask_unctainty_spectral_sci获得
translated by 谷歌翻译
最近,基于图形神经网络(GNN)的文本分类模型引起了越来越多的关注。大多数这些模型采用类似的网络范例,即使用预训练节点嵌入初始化和两层图卷积。在这项工作中,我们提出了Textrgnn,一种改进的GNN结构,它引入了剩余连接以加深卷积网络深度。我们的结构可以获得更广泛的节点接收领域,有效地抑制节点特征的过平滑。此外,我们将概率语言模型集成到图形节点嵌入的初始化中,从而可以更好地提取非图形语义信息。实验结果表明,我们的模型是一般和高效的。无论是语料库级别还是文本级别,它都可以显着提高分类准确性,并在各种文本分类数据集中实现SOTA性能。
translated by 谷歌翻译
由于领导者的动态信息对所有跟随节点未知,所以基于知识的非线性多种代理系统的同步问题是具有挑战性的。本文提出了一类非线性领导系统的基于学习的完全分布式观察者,可以同时学习领导者的动态和状态。这里考虑的领导者动态不需要有界雅各的矩阵。基于基于学习的分布式观察者,我们进一步综合了一种自适应分布式控制法,用于解决经受不确定非线性领导系统的多个Euler-Lagrange系统的前导次的同步问题。结果由模拟示例说明。
translated by 谷歌翻译