尽管最近的密集预测问题的多任务学习的进步,但大多数方法都依赖于昂贵的标记数据集。在本文中,我们介绍了一个标签有效的方法,并在部分注释的数据上关注多密集预测任务,我们称之为多任务部分监督学习。我们提出了一种多任务培训程序,该程序成功利用任务关系在数据部分注释时监督其多任务学习。特别地,我们学会将每个任务对映射到联合成对任务空间,这使得通过在任务对上的另一个网络通过另一个网络以计算有效的方式共享信息,并通过保留高级信息来避免学习琐碎的交叉任务关系关于输入图像。我们严格证明,我们的提出方法有效利用了未标记的任务的图像,并且在三个标准基准测试中优于现有的半监督学习方法和相关方法。
translated by 谷歌翻译
我们提出了一个统一的查看,即通过通用表示,一个深层神经网络共同学习多个视觉任务和视觉域。同时学习多个问题涉及最大程度地减少具有不同幅度和特征的多个损失函数的加权总和,从而导致一个损失的不平衡状态,与学习每个问题的单独模型相比,一个损失的不平衡状态主导了优化和差的结果。为此,我们提出了通过小容量适配器将多个任务/特定于域网络的知识提炼到单个深神经网络中的知识。我们严格地表明,通用表示在学习NYU-V2和CityScapes中多个密集的预测问题方面实现了最新的表现,来自视觉Decathlon数据集中的不同域中的多个图像分类问题以及MetadataSet中的跨域中的几个域中学习。最后,我们还通过消融和定性研究进行多次分析。
translated by 谷歌翻译
多任务学习最近已成为对复杂场景的全面理解的有前途的解决方案。不仅具有适当设计的记忆效率,多任务模型都可以跨任务交换互补信号。在这项工作中,我们共同解决了2D语义分割,以及两个与几何相关的任务,即密集的深度,表面正常估计以及边缘估计,显示了它们对室内和室外数据集的好处。我们提出了一种新颖的多任务学习体系结构,该体系结构通过相关引导的注意力和自我注意力来利用配对的交叉任务交换,以增强所有任务的平均表示学习。我们考虑了三个多任务设置的广泛实验,与合成基准和真实基准中的竞争基准相比,我们的提案的好处。我们还将方法扩展到新型的多任务无监督域的适应设置。我们的代码可在https://github.com/cv-rits/densemtl上找到。
translated by 谷歌翻译
多任务学习(MTL)是深度学习中的一个活动字段,其中我们通过利用任务之间的关系来共同学习多项任务。已经证明,与独立学习每个任务时,MTL有助于该模型共享任务之间的学习功能并增强预测。我们为2任务MTL问题提出了一个新的学习框架,它使用一个任务的预测作为另一个网络的输入来预测其他任务。我们定义了由循环一致性损失和对比学习,对齐和跨任务一致性损失的两个新的损失术语。这两个损耗都旨在实施模型以对准多个任务的预测,以便模型一致地预测。理论上我们证明,两次损失都帮助模型更有效地学习,并且在与直接预测的对齐方面更好地了解跨任务一致性损失。实验结果还表明,我们的拟议模型在基准城市景观和NYU数据集上实现了显着性能。
translated by 谷歌翻译
We propose a novel multi-task learning architecture, which allows learning of task-specific feature-level attention. Our design, the Multi-Task Attention Network (MTAN), consists of a single shared network containing a global feature pool, together with a soft-attention module for each task. These modules allow for learning of taskspecific features from the global features, whilst simultaneously allowing for features to be shared across different tasks. The architecture can be trained end-to-end and can be built upon any feed-forward neural network, is simple to implement, and is parameter efficient. We evaluate our approach on a variety of datasets, across both image-toimage predictions and image classification tasks. We show that our architecture is state-of-the-art in multi-task learning compared to existing methods, and is also less sensitive to various weighting schemes in the multi-task loss function. Code is available at https://github.com/ lorenmt/mtan.
translated by 谷歌翻译
Semantic segmentation is a key problem for many computer vision tasks. While approaches based on convolutional neural networks constantly break new records on different benchmarks, generalizing well to diverse testing environments remains a major challenge. In numerous real world applications, there is indeed a large gap between data distributions in train and test domains, which results in severe performance loss at run-time. In this work, we address the task of unsupervised domain adaptation in semantic segmentation with losses based on the entropy of the pixel-wise predictions. To this end, we propose two novel, complementary methods using (i) an entropy loss and (ii) an adversarial loss respectively. We demonstrate state-of-theart performance in semantic segmentation on two challenging "synthetic-2-real" set-ups 1 and show that the approach can also be used for detection.
translated by 谷歌翻译
多任务学习(MTL)范式着重于共同学习两个或多个任务,旨在重大改进W.R.T模型的通用性,性能和培训/推理记忆足迹。对于与视觉相关的{\ bf密集}的预测任务的联合培训,上述好处是必不可少的。在这项工作中,我们解决了两个密集任务的MTL问题,即\ ie,语义细分和深度估计,并提出了一个新颖的注意模块,称为跨通道注意模块({CCAM}),可促进沿着每个频道之间的有效特征共享这两个任务,导致相互绩效增长,可训练的参数可忽略不计。然后,我们以一种真正的共生精神,使用称为{affinemix}的预测深度为语义分割任务制定新的数据增强,并使用称为{coloraug}的预测语义进行了简单的深度增强。最后,我们验证了CityScapes数据集上提出的方法的性能增益,这有助于我们基于深度和语义分割的半监督联合模型实现最新结果。
translated by 谷歌翻译
在社区中广泛调查了语义分割,其中最先进的技术基于监督模型。这些模型报告了前所未有的性能,以需要大量的高质量细分面具。为了获得这种注释是非常昂贵的并且特别是在需要像素级注释的语义分割中。在这项工作中,我们通过提出作为半监督语义细分的三级自我训练框架的整体解决方案来解决这个问题。我们技术的关键思想是提取伪掩模统计信息,以减少预测概率的不确定性,同时以多任务方式执行分段一致性。我们通过三级解决方案实现这一目标。首先,我们训练分割网络以产生粗糙的伪掩模,预测概率非常不确定。其次,我们使用一个多任务模型来减少伪掩模的不确定性,该模型强制利用数据丰富的数据统计信息。我们将采用现有方法与半监督语义分割的现有方法进行比较,并在广泛的实验中展示其最先进的性能。
translated by 谷歌翻译
这项工作认为有监督的对比度学习语义细分。我们应用对比度学习来增强语义分割网络提取的多尺度特征的判别能力。我们的关键方法论洞察力是利用从模型编码器本身的多个阶段发出的特征空间中的样本,既不需要数据增强,也不需要在线存储库来获取一组不同的样本。为了允许这样的扩展,我们引入了一个高效且有效的抽样过程,可以在多个尺度上对编码器的特征应用对比度损失。此外,通过首先将编码器的多尺度表示形式映射到一个共同的特征空间,我们通过引入跨尺度对比度学习将高分辨率局部特征与低分辨率全球特征联系起来,从而实例化了一种新颖的监督局部全球约束形式。合并,我们的多尺度和跨尺度对比度损失可提高各种模型(DeepLabv3,hrnet,ocrnet,upernet)的性能,以及CNN和Transformer骨架,当对4个不同的数据集进行评估(CityScapes,PascalContext,ADE20K)时,对4个不同的数据集进行了评估。外科(CADIS)域。我们的代码可在https://github.com/rvimla​​b/ms_cs_contrseg上找到。来自天然(CityScapes,PascalContext,ADE20K)的数据集,也是外科手术(CADIS)域。
translated by 谷歌翻译
In this paper, we present a novel cross-consistency based semi-supervised approach for semantic segmentation. Consistency training has proven to be a powerful semisupervised learning framework for leveraging unlabeled data under the cluster assumption, in which the decision boundary should lie in low density regions. In this work, we first observe that for semantic segmentation, the low density regions are more apparent within the hidden representations than within the inputs. We thus propose crossconsistency training, where an invariance of the predictions is enforced over different perturbations applied to the outputs of the encoder. Concretely, a shared encoder and a main decoder are trained in a supervised manner using the available labeled examples. To leverage the unlabeled examples, we enforce a consistency between the main decoder predictions and those of the auxiliary decoders, taking as inputs different perturbed versions of the encoder's output, and consequently, improving the encoder's representations. The proposed method is simple and can easily be extended to use additional training signal, such as image-level labels or pixel-level labels across different domains. We perform an ablation study to tease apart the effectiveness of each component, and conduct extensive experiments to demonstrate that our method achieves stateof-the-art results in several datasets.
translated by 谷歌翻译
近年来,由于许多应用中的良好性能,多任务学习(MTL)引起了很多关注。但是,许多现有的MTL模型不能保证其性能不会比每项任务的单一任务对应物更糟糕。虽然这些现象已经被一些作品经验识别,但很少的工作旨在处理所产生的问题,这在本文中正式定义为负分享。为了实现安全的多任务学习,在没有\ texit {否定共享}的情况下,我们提出了一个安全的多任务学习(SMTL)模型,它由所有任务,私人编码器,门和私有解码器共享的公共编码器组成。具体而言,每个任务都有私人编码器,门和私有解码器,其中门是学习如何将私人编码器和公共编码器组合到下游私有解码器。为了减少推理阶段期间的存储成本,提出了一种Lite版本的SMTL,以允许大门选择公共编码器或相应的私人编码器。此外,我们提出了一种SMT1的变体来放置所有任务的解码后的所有门。几个基准数据集的实验证明了所提出的方法的有效性。
translated by 谷歌翻译
This work proposes Multi-task Meta Learning (MTML), integrating two learning paradigms Multi-Task Learning (MTL) and meta learning, to bring together the best of both worlds. In particular, it focuses simultaneous learning of multiple tasks, an element of MTL and promptly adapting to new tasks with fewer data, a quality of meta learning. It is important to highlight that we focus on heterogeneous tasks, which are of distinct kind, in contrast to typically considered homogeneous tasks (e.g., if all tasks are classification or if all tasks are regression tasks). The fundamental idea is to train a multi-task model, such that when an unseen task is introduced, it can learn in fewer steps whilst offering a performance at least as good as conventional single task learning on the new task or inclusion within the MTL. By conducting various experiments, we demonstrate this paradigm on two datasets and four tasks: NYU-v2 and the taskonomy dataset for which we perform semantic segmentation, depth estimation, surface normal estimation, and edge detection. MTML achieves state-of-the-art results for most of the tasks. Although semantic segmentation suffers quantitatively, our MTML method learns to identify segmentation classes absent in the pseudo labelled ground truth of the taskonomy dataset.
translated by 谷歌翻译
我们建议在2D域中利用自我监督的技术来实现细粒度的3D形状分割任务。这是受到观察的启发:基于视图的表面表示比基于点云或体素占用率的3D对应物更有效地建模高分辨率表面细节和纹理。具体而言,给定3D形状,我们将其从多个视图中渲染,并在对比度学习框架内建立密集的对应学习任务。结果,与仅在2D或3D中使用自学的替代方案相比,学到的2D表示是视图不变和几何一致的,在对有限的标记形状进行培训时,可以更好地概括概括。对纹理(渲染peple)和未纹理(partnet)3D数据集的实验表明,我们的方法在细粒部分分割中优于最先进的替代方案。当仅一组稀疏的视图可供训练或形状纹理时,对基准的改进就会更大,这表明MVDecor受益于2D处理和3D几何推理。
translated by 谷歌翻译
Semantic segmentation is a classic computer vision problem dedicated to labeling each pixel with its corresponding category. As a basic task for advanced tasks such as industrial quality inspection, remote sensing information extraction, medical diagnostic aid, and autonomous driving, semantic segmentation has been developed for a long time in combination with deep learning, and a lot of works have been accumulated. However, neither the classic FCN-based works nor the popular Transformer-based works have attained fine-grained localization of pixel labels, which remains the main challenge in this field. Recently, with the popularity of autonomous driving, the segmentation of road scenes has received increasing attention. Based on the cross-task consistency theory, we incorporate edge priors into semantic segmentation tasks to obtain better results. The main contribution is that we provide a model-agnostic method that improves the accuracy of semantic segmentation models with zero extra inference runtime overhead, verified on the datasets of road and non-road scenes. From our experimental results, our method can effectively improve semantic segmentation accuracy.
translated by 谷歌翻译
语义分割在广泛的计算机视觉应用中起着基本作用,提供了全球对图像​​的理解的关键信息。然而,最先进的模型依赖于大量的注释样本,其比在诸如图像分类的任务中获得更昂贵的昂贵的样本。由于未标记的数据替代地获得更便宜,因此无监督的域适应达到了语义分割社区的广泛成功并不令人惊讶。本调查致力于总结这一令人难以置信的快速增长的领域的五年,这包含了语义细分本身的重要性,以及将分段模型适应新环境的关键需求。我们提出了最重要的语义分割方法;我们对语义分割的域适应技术提供了全面的调查;我们揭示了多域学习,域泛化,测试时间适应或无源域适应等较新的趋势;我们通过描述在语义细分研究中最广泛使用的数据集和基准测试来结束本调查。我们希望本调查将在学术界和工业中提供具有全面参考指导的研究人员,并有助于他们培养现场的新研究方向。
translated by 谷歌翻译
强大的语义细分面临的一个普遍挑战是昂贵的数据注释成本。现有的半监督解决方案显示出解决此问题的巨大潜力。他们的关键想法是通过未经监督的数据增加未标记的数据来构建一致性正则化,以进行模型培训。未标记数据的扰动使一致性训练损失使半监督的语义分割受益。但是,这些扰动破坏了图像上下文并引入了不自然的边界,这对语义分割是有害的。此外,广泛采用的半监督学习框架,即均值老师,遭受了绩效限制,因为学生模型最终会收敛于教师模型。在本文中,首先,我们提出了一个友好的可区分几何扭曲,以进行无监督的数据增强。其次,提出了一个新颖的对抗双重学生框架,以从以下两个方面从以下两个方面改善均等老师:(1)双重学生模型是独立学习的,除了稳定约束以鼓励利用模型多样性; (2)对对抗性训练计划适用于学生,并诉诸歧视者以区分无标记数据的可靠伪标签进行自我训练。通过对Pascal VOC2012和CityScapes进行的广泛实验来验证有效性。我们的解决方案可显着提高两个数据集的性能和最先进的结果。值得注意的是,与完全监督相比,我们的解决方案仅使用Pascal VOC2012上的12.5%注释数据获得了73.4%的可比MIOU。我们的代码和模型可在https://github.com/caocong/ads-semiseg上找到。
translated by 谷歌翻译
Optimization in multi-task learning (MTL) is more challenging than single-task learning (STL), as the gradient from different tasks can be contradictory. When tasks are related, it can be beneficial to share some parameters among them (cooperation). However, some tasks require additional parameters with expertise in a specific type of data or discrimination (specialization). To address the MTL challenge, we propose Mod-Squad, a new model that is Modularized into groups of experts (a 'Squad'). This structure allows us to formalize cooperation and specialization as the process of matching experts and tasks. We optimize this matching process during the training of a single model. Specifically, we incorporate mixture of experts (MoE) layers into a transformer model, with a new loss that incorporates the mutual dependence between tasks and experts. As a result, only a small set of experts are activated for each task. This prevents the sharing of the entire backbone model between all tasks, which strengthens the model, especially when the training set size and the number of tasks scale up. More interestingly, for each task, we can extract the small set of experts as a standalone model that maintains the same performance as the large model. Extensive experiments on the Taskonomy dataset with 13 vision tasks and the PASCAL-Context dataset with 5 vision tasks show the superiority of our approach.
translated by 谷歌翻译
多任务学习(MTL)通过在任务之间共享参数共同学习一组任务。这是降低存储成本的一种有希望的方法,同时提高许多计算机视觉任务的任务准确性。 MTL的有效采用面临两个主要挑战。第一个挑战是确定在任务中共享哪些参数,以优化内存效率和任务准确性。第二个挑战是在不需要耗时的手动重新实现和重要的域专业知识的情况下自动将MTL算法应用于任意CNN主链。本文通过开发第一个编程框架AutoMTL来应对挑战,该框架自动化有效的MTL模型开发为视觉任务。 AUTOMTL作为输入作为任意的骨干卷积神经网络(CNN)以及一组学习的任务,并自动生成一个多任务模型,该模型同时实现了高精度和较小的记忆足迹。在三个流行的MTL基准测试(CityScapes,NYUV2,Tiny-Taskonomy)上进行的实验证明了AutoMTL对最先进方法的有效性以及在CNN跨CNN的AutoMTL的普遍性。 AutOmtl是开源的,可在https://github.com/zhanglijun95/automtl上找到。
translated by 谷歌翻译
单眼深度估计和语义分割是场景理解的两个基本目标。由于任务交互的优点,许多作品研究了联合任务学习算法。但是,大多数现有方法都无法充分利用语义标签,忽略提供的上下文结构,并且仅使用它们来监督分段拆分的预测,这限制了两个任务的性能。在本文中,我们提出了一个网络注入了上下文信息(CI-Net)来解决问题。具体而言,我们在编码器中引入自我关注块以产生注意图。通过由语义标签创建的理想注意图的监督,网络嵌入了上下文信息,使得它可以更好地理解场景并利用相关特征来进行准确的预测。此外,构造了一个特征共享模块,以使任务特征深入融合,并且设计了一致性损耗,以使特征相互引导。我们在NYU-Deaft-V2和Sun-RGBD数据集上评估所提出的CI-Net。实验结果验证了我们所提出的CI-Net可以有效提高语义分割和深度估计的准确性。
translated by 谷歌翻译
半监督学习(SSL)是解决监督学习的注释瓶颈的主要方法之一。最近的SSL方法可以有效利用大量未标记数据的存储库来提高性能,同时依靠一小部分标记数据。在大多数SSL方法中,一个常见的假设是,标记和未标记的数据来自同一基础数据分布。但是,在许多实际情况下,情况并非如此,这限制了其适用性。相反,在这项工作中,我们试图解决最近提出的挑战性的开放世界SSL问题,这些问题并非如此。在开放世界的SSL问题中,目的是识别已知类别的样本,并同时检测和群集样品属于未标记数据中的新型类别。这项工作引入了OpenLDN,该OpenLDN利用成对的相似性损失来发现新颖的类别。使用双层优化规则,此成对相似性损失利用了标记的设置中可用的信息,以隐式群集新颖的类样本,同时识别来自已知类别的样本。在发现新颖的类别后,OpenLDN将Open-World SSL问题转换为标准SSL问题,以使用现有的SSL方法实现额外的性能提高。我们的广泛实验表明,OpenLDN在多个流行的分类基准上胜过当前的最新方法,同时提供了更好的准确性/培训时间权衡。
translated by 谷歌翻译