Multi-task learning (MTL) models have demonstrated impressive results in computer vision, natural language processing, and recommender systems. Even though many approaches have been proposed, how well these approaches balance different tasks on each parameter still remains unclear. In this paper, we propose to measure the task dominance degree of a parameter by the total updates of each task on this parameter. Specifically, we compute the total updates by the exponentially decaying Average of the squared Updates (AU) on a parameter from the corresponding task.Based on this novel metric, we observe that many parameters in existing MTL methods, especially those in the higher shared layers, are still dominated by one or several tasks. The dominance of AU is mainly due to the dominance of accumulative gradients from one or several tasks. Motivated by this, we propose a Task-wise Adaptive learning rate approach, AdaTask in short, to separate the \emph{accumulative gradients} and hence the learning rate of each task for each parameter in adaptive learning rate approaches (e.g., AdaGrad, RMSProp, and Adam). Comprehensive experiments on computer vision and recommender system MTL datasets demonstrate that AdaTask significantly improves the performance of dominated tasks, resulting SOTA average task-wise performance. Analysis on both synthetic and real-world datasets shows AdaTask balance parameters in every shared layer well.
translated by 谷歌翻译
在多任务学习(MTL)中,对联合模型进行了培训,可以同时对几个任务进行预测。联合培训降低了计算成本并提高数据效率;但是,由于这些不同任务的梯度可能需要冲突,因此训练MTL的联合模型通常比其相应的单任务对应人员产生的性能较低。减轻此问题的一种常见方法是使用特定的启发式方法将每个任务梯度组合到联合更新方向上。在本文中,我们建议将梯度组合步骤视为一个议价游戏,在该游戏中,任务就达成了有关参数更新联合方向的协议。在某些假设下,议价问题具有独特的解决方案,称为NASH讨价还价解决方案,我们建议将其用作多任务学习的原则方法。我们描述了一种新的MTL优化程序NASH-MTL,并为其收敛性得出了理论保证。从经验上讲,我们表明NASH-MTL在各个域中的多个MTL基准上实现了最新的结果。
translated by 谷歌翻译
近年来,由于许多应用中的良好性能,多任务学习(MTL)引起了很多关注。但是,许多现有的MTL模型不能保证其性能不会比每项任务的单一任务对应物更糟糕。虽然这些现象已经被一些作品经验识别,但很少的工作旨在处理所产生的问题,这在本文中正式定义为负分享。为了实现安全的多任务学习,在没有\ texit {否定共享}的情况下,我们提出了一个安全的多任务学习(SMTL)模型,它由所有任务,私人编码器,门和私有解码器共享的公共编码器组成。具体而言,每个任务都有私人编码器,门和私有解码器,其中门是学习如何将私人编码器和公共编码器组合到下游私有解码器。为了减少推理阶段期间的存储成本,提出了一种Lite版本的SMTL,以允许大门选择公共编码器或相应的私人编码器。此外,我们提出了一种SMT1的变体来放置所有任务的解码后的所有门。几个基准数据集的实验证明了所提出的方法的有效性。
translated by 谷歌翻译
多任务学习(MTL)在各种领域取得了巨大的成功,但是如何平衡不同的任务以避免负面影响仍然是一个关键问题。为实现任务平衡,存在许多有效的工作来平衡任务丢失或渐变。在本文中,我们统一了八个代表性的任务平衡方法,从损失加权的角度统一,并提供一致的实验比较。此外,我们令人惊讶地发现,培训具有从分配中采样的随机重量的MTL模型可以实现与最先进的基线相比的性能。基于此发现,我们提出了一种称为随机损失加权(RLW)的简单且有效的加权策略,其可以仅在现有工作中仅​​在一个附加的代码中实现。从理论上讲,我们分析了RLW的融合,并揭示了RLW的概率比具有固定任务权重的现有模型逃脱局部最小值,从而产生更好的概括能力。经验上,我们在六个图像数据集中广泛评估了所提出的RLW方法,以及来自Xtreme基准测试的四个多语言任务,以显示与最先进的策略相比所提出的RLW战略的有效性。
translated by 谷歌翻译
多任务学习(MTL)是深度学习中的一个活动字段,其中我们通过利用任务之间的关系来共同学习多项任务。已经证明,与独立学习每个任务时,MTL有助于该模型共享任务之间的学习功能并增强预测。我们为2任务MTL问题提出了一个新的学习框架,它使用一个任务的预测作为另一个网络的输入来预测其他任务。我们定义了由循环一致性损失和对比学习,对齐和跨任务一致性损失的两个新的损失术语。这两个损耗都旨在实施模型以对准多个任务的预测,以便模型一致地预测。理论上我们证明,两次损失都帮助模型更有效地学习,并且在与直接预测的对齐方面更好地了解跨任务一致性损失。实验结果还表明,我们的拟议模型在基准城市景观和NYU数据集上实现了显着性能。
translated by 谷歌翻译
最近的多任务学习研究旨在反对单一的标准化,其中培训只需最大限度地减少任务损失的总和。代替了几种Ad-hoc多任务优化算法,它受到各种假设的启发,关于使多任务设置困难的原因。这些优化器中的大多数都需要每个任务渐变,并引入重要的内存,运行时和实现开销。我们提出了一个理论分析,表明许多专业的多任务优化器可以被解释为正规化的形式。此外,我们表明,当与单任务学习的标准正则化和稳定技术耦合时,单一的标定化匹配或改善在监督和加固学习设置中复杂的多任务优化器的性能。我们相信我们的结果要求对该地区最近的研究进行关键重新评估。
translated by 谷歌翻译
在多任务学习(MTL)中,通过优化目标函数来训练多任务网络是一种常见的做法,这是特定于任务的目标函数的加权平均值。尽管该策略的计算优势很明显,但在文献中尚未研究所得损失格局的复杂性。可以说,它的优化可能比对特定于任务的目标的单独优化更加困难。在这项工作中,我们通过在不同特定于任务的目标函数上交替进行独立的梯度下降步骤来研究这种替代方案的好处,并制定了一种新颖的方式,将这种方法与最先进的优化者相结合。由于特定于任务的目标的分离是以增加计算时间为代价的,因此我们提出了一个随机的任务分组,作为更好的优化和计算效率之间的权衡。与平均目标函数和其他最先进的MTL方法相比,三个众所周知的视觉MTL数据集的实验结果在损失和标准指标上显示出更好的总体绝对性能。特别是,我们的方法在处理不同性质的任务时显示出最大的好处,并且可以更广泛地探索共享参数空间。我们还表明,我们的随机分组策略允许在这些好处和计算效率之间进行权衡。
translated by 谷歌翻译
多任务学习是一个框架,可执行多个学习任务以共享知识以提高其概括能力。虽然浅做多任务学习可以学习任务关系,但它只能处理预定义的功能。现代深度多任务学习可以共同学习潜在的功能和任务共享,但任务关系却很晦涩。同样,他们预先定义哪些层和神经元应该跨任务共享,并且不能适应地学习。为了应对这些挑战,本文提出了一个新的多任务学习框架,该框架通过补充现有浅层和深层多任务学习方案的强度,共同学习潜在特征和明确的任务关系。具体而言,我们建议将任务关系建模为任务输入梯度之间的相似性,并对它们的等效性进行理论分析。此外,我们创新地提出了一个多任务学习目标,该目标可以通过新的正规机明确学习任务关系。理论分析表明,由于提出的正常化程序,概括性误差已减少。在多个多任务学习和图像分类基准上进行的广泛实验证明了所提出的方法有效性,效率以及在学习任务关系模式中的合理性。
translated by 谷歌翻译
In multi-task learning, multiple tasks are solved jointly, sharing inductive bias between them. Multi-task learning is inherently a multi-objective problem because different tasks may conflict, necessitating a trade-off. A common compromise is to optimize a proxy objective that minimizes a weighted linear combination of pertask losses. However, this workaround is only valid when the tasks do not compete, which is rarely the case. In this paper, we explicitly cast multi-task learning as multi-objective optimization, with the overall objective of finding a Pareto optimal solution. To this end, we use algorithms developed in the gradient-based multiobjective optimization literature. These algorithms are not directly applicable to large-scale learning problems since they scale poorly with the dimensionality of the gradients and the number of tasks. We therefore propose an upper bound for the multi-objective loss and show that it can be optimized efficiently. We further prove that optimizing this upper bound yields a Pareto optimal solution under realistic assumptions. We apply our method to a variety of multi-task deep learning problems including digit classification, scene understanding (joint semantic segmentation, instance segmentation, and depth estimation), and multilabel classification. Our method produces higher-performing models than recent multi-task learning formulations or per-task training.
translated by 谷歌翻译
我们提出了一个统一的查看,即通过通用表示,一个深层神经网络共同学习多个视觉任务和视觉域。同时学习多个问题涉及最大程度地减少具有不同幅度和特征的多个损失函数的加权总和,从而导致一个损失的不平衡状态,与学习每个问题的单独模型相比,一个损失的不平衡状态主导了优化和差的结果。为此,我们提出了通过小容量适配器将多个任务/特定于域网络的知识提炼到单个深神经网络中的知识。我们严格地表明,通用表示在学习NYU-V2和CityScapes中多个密集的预测问题方面实现了最新的表现,来自视觉Decathlon数据集中的不同域中的多个图像分类问题以及MetadataSet中的跨域中的几个域中学习。最后,我们还通过消融和定性研究进行多次分析。
translated by 谷歌翻译
多任务学习(MTL)通过在任务之间共享参数共同学习一组任务。这是降低存储成本的一种有希望的方法,同时提高许多计算机视觉任务的任务准确性。 MTL的有效采用面临两个主要挑战。第一个挑战是确定在任务中共享哪些参数,以优化内存效率和任务准确性。第二个挑战是在不需要耗时的手动重新实现和重要的域专业知识的情况下自动将MTL算法应用于任意CNN主链。本文通过开发第一个编程框架AutoMTL来应对挑战,该框架自动化有效的MTL模型开发为视觉任务。 AUTOMTL作为输入作为任意的骨干卷积神经网络(CNN)以及一组学习的任务,并自动生成一个多任务模型,该模型同时实现了高精度和较小的记忆足迹。在三个流行的MTL基准测试(CityScapes,NYUV2,Tiny-Taskonomy)上进行的实验证明了AutoMTL对最先进方法的有效性以及在CNN跨CNN的AutoMTL的普遍性。 AutOmtl是开源的,可在https://github.com/zhanglijun95/automtl上找到。
translated by 谷歌翻译
We propose a novel multi-task learning architecture, which allows learning of task-specific feature-level attention. Our design, the Multi-Task Attention Network (MTAN), consists of a single shared network containing a global feature pool, together with a soft-attention module for each task. These modules allow for learning of taskspecific features from the global features, whilst simultaneously allowing for features to be shared across different tasks. The architecture can be trained end-to-end and can be built upon any feed-forward neural network, is simple to implement, and is parameter efficient. We evaluate our approach on a variety of datasets, across both image-toimage predictions and image classification tasks. We show that our architecture is state-of-the-art in multi-task learning compared to existing methods, and is also less sensitive to various weighting schemes in the multi-task loss function. Code is available at https://github.com/ lorenmt/mtan.
translated by 谷歌翻译
多任务学习最近已成为对复杂场景的全面理解的有前途的解决方案。不仅具有适当设计的记忆效率,多任务模型都可以跨任务交换互补信号。在这项工作中,我们共同解决了2D语义分割,以及两个与几何相关的任务,即密集的深度,表面正常估计以及边缘估计,显示了它们对室内和室外数据集的好处。我们提出了一种新颖的多任务学习体系结构,该体系结构通过相关引导的注意力和自我注意力来利用配对的交叉任务交换,以增强所有任务的平均表示学习。我们考虑了三个多任务设置的广泛实验,与合成基准和真实基准中的竞争基准相比,我们的提案的好处。我们还将方法扩展到新型的多任务无监督域的适应设置。我们的代码可在https://github.com/cv-rits/densemtl上找到。
translated by 谷歌翻译
人搜索是多个子任务的集成任务,例如前景/背景分类,边界框回归和人员重新识别。因此,人搜索是一个典型的多任务学习问题,尤其是在以端到端方式解决时。最近,一些作品通过利用各种辅助信息,例如人关节关键点,身体部位位置,属性等,这带来了更多的任务并使人搜索模型更加复杂。每个任务的不一致的趋同率可能会损害模型优化。一个直接的解决方案是手动为不同的任务分配不同的权重,以补偿各种融合率。但是,鉴于人搜索的特殊情况,即有大量任务,手动加权任务是不切实际的。为此,我们提出了一种分组的自适应减肥方法(GALW)方法,该方法会自动和动态地调整每个任务的权重。具体而言,我们根据其收敛率对任务进行分组。同一组中的任务共享相同的可学习权重,这是通过考虑损失不确定性动态分配的。对两个典型基准(Cuhk-Sysu and Prw)的实验结果证明了我们方法的有效性。
translated by 谷歌翻译
我们提出了一种新型的动态约束不确定性加权损失,以实验处理平衡多个任务对ICML EXVO 2022挑战的贡献的问题。多任务旨在共同认识到声乐爆发中表达的情绪和人口特征。我们的策略结合了不确定性重量和平均动态重量的优势,通过用约束术语扩展权重以使学习过程更具解释。我们使用轻巧的多EXIT CNN体系结构来实施我们提出的损失方法。实验性H-均值得分(0.394)显示出比基线H均值得分的显着改善(0.335)。
translated by 谷歌翻译
通过共享编码器和解码器而不是仅共享编码器,对密集预测任务的多任务学习提供了一种有吸引力的方面,以提高准确性和计算效率。当任务相似时,共享解码器将作为额外的归纳偏见,为任务提供更多的互补信息的空间。但是,增加的共享暴露于任务干扰的更多参数,这可能会阻碍概括和稳健性。在利用共享解码器的归纳偏见的同时,遏制这种干扰的有效方法仍然是一个公开挑战。为了应对这一挑战,我们建议进行渐进解码器融合(PDF),以根据任务间表示相似性逐步组合任务解码器。我们表明,此过程导致了一个多任务网络,具有更好地概括为分配和分布数据以及对对抗性攻击的鲁棒性。此外,我们观察到,该多任务网络的不同任务的预测彼此更加一致。
translated by 谷歌翻译
最近的研究提出了一系列针对深度任务模型的专业优化算法。通常声称这些多任务优化(MTO)方法产生的解决方案优于仅通过优化任务损失的加权平均值而获得的解决方案。在本文中,我们对各种语言和视觉任务进行大规模实验,以检查这些主张的经验有效性。我们表明,尽管这些算法的设计和计算复杂性增加了,但MTO方法并未产生超出传统优化方法可实现的性能的任何改进。我们强调了替代策略,这些策略始终如一地提高性能概况,并指出可能导致次优效果的常见训练陷阱。最后,我们概述了可靠地评估MTO算法的性能并讨论潜在解决方案的挑战。
translated by 谷歌翻译
尽管最近的密集预测问题的多任务学习的进步,但大多数方法都依赖于昂贵的标记数据集。在本文中,我们介绍了一个标签有效的方法,并在部分注释的数据上关注多密集预测任务,我们称之为多任务部分监督学习。我们提出了一种多任务培训程序,该程序成功利用任务关系在数据部分注释时监督其多任务学习。特别地,我们学会将每个任务对映射到联合成对任务空间,这使得通过在任务对上的另一个网络通过另一个网络以计算有效的方式共享信息,并通过保留高级信息来避免学习琐碎的交叉任务关系关于输入图像。我们严格证明,我们的提出方法有效利用了未标记的任务的图像,并且在三个标准基准测试中优于现有的半监督学习方法和相关方法。
translated by 谷歌翻译
多任务学习是通过在任务中传输和利用共同知识来提高模型的性能。现有的MTL主要关注多个任务(MTS)之间标签集的场景通常是相同的,因此它们可以用于跨任务学习。虽然几乎罕见的作品探索了每个任务只有少量训练样本的情况,而其标签集只是部分重叠甚至不是。由于这些任务之间可用的相关信息,学习此类MTS更具挑战性。为此,我们提出了一个框架来通过共同利用来自学习的辅助大任务的大量信息,以足够多的类来涵盖所有这些任务的富力信息以及在部分重叠的任务中共享的信息。在我们实现使用所学习辅助任务的相同神经网络架构来学习各个任务的情况下,关键的想法是利用可用的标签信息来自适应地修剪辅助网络的隐藏层神经元,以构造每个任务的相应网络,同时伴随各个任务的联合学习。我们的实验结果表明其与最先进的方法相比其有效性。
translated by 谷歌翻译
尽管模型压缩和多任务学习的流行程度,但由于参数空间中任务的挑战性纠缠,如何有效地压缩多任务模型的分析程度不太彻底。在本文中,我们提出了一种简单,有效且首先的多任务修剪和稀疏培训计划。我们通过解开重要性测量值并在执行参数修剪和选择时独立考虑每个任务。我们的实验结果表明,与流行的稀疏训练和修剪方法相比,各种配置和设置的性能都出色。除了压缩的有效性外,Disparse还为多任务学习社区提供了强大的工具。令人惊讶的是,尽管迪斯特尔斯(Disparse)实现了高模型的稀疏性,但在某些情况下,我们甚至观察到比某些专用的多任务学习方法更好的性能。我们分析了用拆卸生成的修剪口罩,并在训练开始之前就观察到了每个任务都标识的非常相似的稀疏网络体系结构。我们还观察到了一个“分水岭”层的存在,该层与任务相关性急剧下降,这意味着持续参数共享没有任何好处。我们的代码和模型将在以下网址提供:https://github.com/shi-labs/disparse-multitask-model-compression。
translated by 谷歌翻译