多任务学习(MTL)是深度学习中的一个活动字段,其中我们通过利用任务之间的关系来共同学习多项任务。已经证明,与独立学习每个任务时,MTL有助于该模型共享任务之间的学习功能并增强预测。我们为2任务MTL问题提出了一个新的学习框架,它使用一个任务的预测作为另一个网络的输入来预测其他任务。我们定义了由循环一致性损失和对比学习,对齐和跨任务一致性损失的两个新的损失术语。这两个损耗都旨在实施模型以对准多个任务的预测,以便模型一致地预测。理论上我们证明,两次损失都帮助模型更有效地学习,并且在与直接预测的对齐方面更好地了解跨任务一致性损失。实验结果还表明,我们的拟议模型在基准城市景观和NYU数据集上实现了显着性能。
translated by 谷歌翻译
多任务学习最近已成为对复杂场景的全面理解的有前途的解决方案。不仅具有适当设计的记忆效率,多任务模型都可以跨任务交换互补信号。在这项工作中,我们共同解决了2D语义分割,以及两个与几何相关的任务,即密集的深度,表面正常估计以及边缘估计,显示了它们对室内和室外数据集的好处。我们提出了一种新颖的多任务学习体系结构,该体系结构通过相关引导的注意力和自我注意力来利用配对的交叉任务交换,以增强所有任务的平均表示学习。我们考虑了三个多任务设置的广泛实验,与合成基准和真实基准中的竞争基准相比,我们的提案的好处。我们还将方法扩展到新型的多任务无监督域的适应设置。我们的代码可在https://github.com/cv-rits/densemtl上找到。
translated by 谷歌翻译
We propose a novel multi-task learning architecture, which allows learning of task-specific feature-level attention. Our design, the Multi-Task Attention Network (MTAN), consists of a single shared network containing a global feature pool, together with a soft-attention module for each task. These modules allow for learning of taskspecific features from the global features, whilst simultaneously allowing for features to be shared across different tasks. The architecture can be trained end-to-end and can be built upon any feed-forward neural network, is simple to implement, and is parameter efficient. We evaluate our approach on a variety of datasets, across both image-toimage predictions and image classification tasks. We show that our architecture is state-of-the-art in multi-task learning compared to existing methods, and is also less sensitive to various weighting schemes in the multi-task loss function. Code is available at https://github.com/ lorenmt/mtan.
translated by 谷歌翻译
我们提出了一个统一的查看,即通过通用表示,一个深层神经网络共同学习多个视觉任务和视觉域。同时学习多个问题涉及最大程度地减少具有不同幅度和特征的多个损失函数的加权总和,从而导致一个损失的不平衡状态,与学习每个问题的单独模型相比,一个损失的不平衡状态主导了优化和差的结果。为此,我们提出了通过小容量适配器将多个任务/特定于域网络的知识提炼到单个深神经网络中的知识。我们严格地表明,通用表示在学习NYU-V2和CityScapes中多个密集的预测问题方面实现了最新的表现,来自视觉Decathlon数据集中的不同域中的多个图像分类问题以及MetadataSet中的跨域中的几个域中学习。最后,我们还通过消融和定性研究进行多次分析。
translated by 谷歌翻译
尽管最近的密集预测问题的多任务学习的进步,但大多数方法都依赖于昂贵的标记数据集。在本文中,我们介绍了一个标签有效的方法,并在部分注释的数据上关注多密集预测任务,我们称之为多任务部分监督学习。我们提出了一种多任务培训程序,该程序成功利用任务关系在数据部分注释时监督其多任务学习。特别地,我们学会将每个任务对映射到联合成对任务空间,这使得通过在任务对上的另一个网络通过另一个网络以计算有效的方式共享信息,并通过保留高级信息来避免学习琐碎的交叉任务关系关于输入图像。我们严格证明,我们的提出方法有效利用了未标记的任务的图像,并且在三个标准基准测试中优于现有的半监督学习方法和相关方法。
translated by 谷歌翻译
多任务学习(MTL)范式着重于共同学习两个或多个任务,旨在重大改进W.R.T模型的通用性,性能和培训/推理记忆足迹。对于与视觉相关的{\ bf密集}的预测任务的联合培训,上述好处是必不可少的。在这项工作中,我们解决了两个密集任务的MTL问题,即\ ie,语义细分和深度估计,并提出了一个新颖的注意模块,称为跨通道注意模块({CCAM}),可促进沿着每个频道之间的有效特征共享这两个任务,导致相互绩效增长,可训练的参数可忽略不计。然后,我们以一种真正的共生精神,使用称为{affinemix}的预测深度为语义分割任务制定新的数据增强,并使用称为{coloraug}的预测语义进行了简单的深度增强。最后,我们验证了CityScapes数据集上提出的方法的性能增益,这有助于我们基于深度和语义分割的半监督联合模型实现最新结果。
translated by 谷歌翻译
近年来,由于许多应用中的良好性能,多任务学习(MTL)引起了很多关注。但是,许多现有的MTL模型不能保证其性能不会比每项任务的单一任务对应物更糟糕。虽然这些现象已经被一些作品经验识别,但很少的工作旨在处理所产生的问题,这在本文中正式定义为负分享。为了实现安全的多任务学习,在没有\ texit {否定共享}的情况下,我们提出了一个安全的多任务学习(SMTL)模型,它由所有任务,私人编码器,门和私有解码器共享的公共编码器组成。具体而言,每个任务都有私人编码器,门和私有解码器,其中门是学习如何将私人编码器和公共编码器组合到下游私有解码器。为了减少推理阶段期间的存储成本,提出了一种Lite版本的SMTL,以允许大门选择公共编码器或相应的私人编码器。此外,我们提出了一种SMT1的变体来放置所有任务的解码后的所有门。几个基准数据集的实验证明了所提出的方法的有效性。
translated by 谷歌翻译
尽管深度神经网络(DNNS)在环境感知任务上取得了令人印象深刻的表现,但它们对对抗性扰动的敏感性限制了它们在实际应用中的使用。在本文中,我们(i)提出了一种基于对复杂视觉任务的多任务感知(即深度估计和语义分割)的新型对抗扰动检测方案。具体而言,通过在输入图像的提取边缘,深度输出和分割输出之间的不一致之处检测到对抗性扰动。为了进一步提高这一技术,我们(ii)在所有三种方式之间发展了新颖的边缘一致性损失,从而提高了它们的初始一致性,从而支持我们的检测方案。我们通过采用各种已知攻击和图像噪声来验证检测方案的有效性。此外,我们(iii)开发了多任务对抗攻击,旨在欺骗这两个任务以及我们的检测方案。对城市景观和KITTI数据集的实验评估表明,在假设5%的假阳性率的假设下,最高100%的图像被正确检测为对抗性扰动,具体取决于扰动的强度。代码可在https://github.com/ifnspaml/advattackdet上找到。 https://youtu.be/kka6goywmh4的简短视频可提供定性结果。
translated by 谷歌翻译
Multi-task learning (MTL) models have demonstrated impressive results in computer vision, natural language processing, and recommender systems. Even though many approaches have been proposed, how well these approaches balance different tasks on each parameter still remains unclear. In this paper, we propose to measure the task dominance degree of a parameter by the total updates of each task on this parameter. Specifically, we compute the total updates by the exponentially decaying Average of the squared Updates (AU) on a parameter from the corresponding task.Based on this novel metric, we observe that many parameters in existing MTL methods, especially those in the higher shared layers, are still dominated by one or several tasks. The dominance of AU is mainly due to the dominance of accumulative gradients from one or several tasks. Motivated by this, we propose a Task-wise Adaptive learning rate approach, AdaTask in short, to separate the \emph{accumulative gradients} and hence the learning rate of each task for each parameter in adaptive learning rate approaches (e.g., AdaGrad, RMSProp, and Adam). Comprehensive experiments on computer vision and recommender system MTL datasets demonstrate that AdaTask significantly improves the performance of dominated tasks, resulting SOTA average task-wise performance. Analysis on both synthetic and real-world datasets shows AdaTask balance parameters in every shared layer well.
translated by 谷歌翻译
多任务密集的场景理解是一个蓬勃发展的研究领域,需要同时对与像素预测的一系列相关任务进行推理。由于卷积操作的大量利用,大多数现有作品都会遇到当地建模的严重限制,而在全球空间位置和多任务背景中学习相互作用和推断对于此问题至关重要。在本文中,我们提出了一种新颖的端到端倒立金字塔多任务变压器(Invpt),以在统一框架中对空间位置和多个任务进行同时建模。据我们所知,这是探索设计变压器结构的第一项工作,以用于多任务密集的预测以进行场景理解。此外,人们广泛证明,较高的空间分辨率对密集的预测非常有益,而对于现有的变压器来说,由于对大空间大小的巨大复杂性,现有变形金刚更深入地采用更高的分辨率。 Invpt提出了一个有效的上移动器块,以逐渐增加分辨率学习多任务特征交互,这还结合了有效的自我发言消息传递和多规模特征聚合,以高分辨率产生特定于任务的预测。我们的方法分别在NYUD-V2和PASCAL-CONTEXT数据集上实现了卓越的多任务性能,并且显着优于先前的最先前。该代码可在https://github.com/prismformore/invpt上获得
translated by 谷歌翻译
Semantic segmentation is a classic computer vision problem dedicated to labeling each pixel with its corresponding category. As a basic task for advanced tasks such as industrial quality inspection, remote sensing information extraction, medical diagnostic aid, and autonomous driving, semantic segmentation has been developed for a long time in combination with deep learning, and a lot of works have been accumulated. However, neither the classic FCN-based works nor the popular Transformer-based works have attained fine-grained localization of pixel labels, which remains the main challenge in this field. Recently, with the popularity of autonomous driving, the segmentation of road scenes has received increasing attention. Based on the cross-task consistency theory, we incorporate edge priors into semantic segmentation tasks to obtain better results. The main contribution is that we provide a model-agnostic method that improves the accuracy of semantic segmentation models with zero extra inference runtime overhead, verified on the datasets of road and non-road scenes. From our experimental results, our method can effectively improve semantic segmentation accuracy.
translated by 谷歌翻译
我们提出了自我监督单眼深度估计(SDE)的通用多任务培训框架。深入培训的深度模型,具有在标准单任务SDE框架中培训的相同型号。通过将额外的自蒸馏任务引入标准的SDE训练框架,低置训练深度网络,不仅可以预测图像重建任务的深度图,而且还用于从培训的教师网络蒸馏出具有未标记数据的知识。为了利用这种多任务设置,我们为每个任务提出了同性恋的不确定性配方,以惩罚可能受教师网络噪声影响的区域,或违反SDE假设。我们对Kitti提供了广泛的评估,以展示使用拟议框架培训一系列现有网络实现的改进,我们在此任务上实现了最先进的表现。此外,子深度使模型能够估计深度输出的不确定性。
translated by 谷歌翻译
单眼深度估计和语义分割是场景理解的两个基本目标。由于任务交互的优点,许多作品研究了联合任务学习算法。但是,大多数现有方法都无法充分利用语义标签,忽略提供的上下文结构,并且仅使用它们来监督分段拆分的预测,这限制了两个任务的性能。在本文中,我们提出了一个网络注入了上下文信息(CI-Net)来解决问题。具体而言,我们在编码器中引入自我关注块以产生注意图。通过由语义标签创建的理想注意图的监督,网络嵌入了上下文信息,使得它可以更好地理解场景并利用相关特征来进行准确的预测。此外,构造了一个特征共享模块,以使任务特征深入融合,并且设计了一致性损耗,以使特征相互引导。我们在NYU-Deaft-V2和Sun-RGBD数据集上评估所提出的CI-Net。实验结果验证了我们所提出的CI-Net可以有效提高语义分割和深度估计的准确性。
translated by 谷歌翻译
多任务学习(MTL)在各种领域取得了巨大的成功,但是如何平衡不同的任务以避免负面影响仍然是一个关键问题。为实现任务平衡,存在许多有效的工作来平衡任务丢失或渐变。在本文中,我们统一了八个代表性的任务平衡方法,从损失加权的角度统一,并提供一致的实验比较。此外,我们令人惊讶地发现,培训具有从分配中采样的随机重量的MTL模型可以实现与最先进的基线相比的性能。基于此发现,我们提出了一种称为随机损失加权(RLW)的简单且有效的加权策略,其可以仅在现有工作中仅​​在一个附加的代码中实现。从理论上讲,我们分析了RLW的融合,并揭示了RLW的概率比具有固定任务权重的现有模型逃脱局部最小值,从而产生更好的概括能力。经验上,我们在六个图像数据集中广泛评估了所提出的RLW方法,以及来自Xtreme基准测试的四个多语言任务,以显示与最先进的策略相比所提出的RLW战略的有效性。
translated by 谷歌翻译
卷积神经网络在寻址像素级预测任务中的主要进展,例如语义分割,深度估计,表面正常预测等,从他们的强大功能中受益于视觉表现学习。通常,本领域模型的状态集成了对改进的深度特征表示的关注机制。最近,一些作品已经证明了学习的重要性,并结合了深度特征细化的空间和通道介绍。在本文中,WEAIM在有效地提升之前的方法和提出统一的深度框架,以便以原则的方式共同学习空间注意图和信道注意矢量,以便构建由此两种类型的注意力之间的引起的张量和模型相互作用。具体地,我们将估计和相互作用集成了概率表示学习框架内的关注,导致变分结构注意网络(Vista-net)。我们在神经网络内实现推理规则,从而允许概率的端到端学习和CNN前端参数。正如我们对六个大型数据集的大量实证评估所证明的致密视觉预测,Vista-Net在多个连续和离散预测任务中优于最先进的,从而确认在联合结构空间中提出的方法的益处 - 深度代表学习的关注估计。该代码可在https://github.com/ygjwd12345/vista-ner上获得。
translated by 谷歌翻译
Numerous deep learning applications benefit from multitask learning with multiple regression and classification objectives. In this paper we make the observation that the performance of such systems is strongly dependent on the relative weighting between each task's loss. Tuning these weights by hand is a difficult and expensive process, making multi-task learning prohibitive in practice. We propose a principled approach to multi-task deep learning which weighs multiple loss functions by considering the homoscedastic uncertainty of each task. This allows us to simultaneously learn various quantities with different units or scales in both classification and regression settings. We demonstrate our model learning per-pixel depth regression, semantic and instance segmentation from a monocular input image. Perhaps surprisingly, we show our model can learn multi-task weightings and outperform separate models trained individually on each task.
translated by 谷歌翻译
我们介绍了MGNET,这是一个多任务框架,用于单眼几何场景。我们将单眼几何场景的理解定义为两个已知任务的组合:全景分割和自我监管的单眼深度估计。全景分段不仅在语义上,而且在实例的基础上捕获完整场景。自我监督的单眼深度估计使用摄像机测量模型得出的几何约束,以便从单眼视频序列中测量深度。据我们所知,我们是第一个在一个模型中提出这两个任务的组合的人。我们的模型专注于低潜伏期,以实时在单个消费级GPU上实时提供快速推断。在部署过程中,我们的模型将产生密集的3D点云,其中具有来自单个高分辨率摄像头图像的实例意识到语义标签。我们对两个流行的自动驾驶基准(即CityScapes and Kitti)评估了模型,并在其他能够实时的方法中表现出竞争性能。源代码可从https://github.com/markusschoen/mgnet获得。
translated by 谷歌翻译
在接受高质量的地面真相(如LiDAR数据)培训时,监督的学习深度估计方法可以实现良好的性能。但是,LIDAR只能生成稀疏的3D地图,从而导致信息丢失。每个像素获得高质量的地面深度数据很难获取。为了克服这一限制,我们提出了一种新颖的方法,将有前途的平面和视差几何管道与深度信息与U-NET监督学习网络相结合的结构信息结合在一起,与现有的基于流行的学习方法相比,这会导致定量和定性的改进。特别是,该模型在两个大规模且具有挑战性的数据集上进行了评估:Kitti Vision Benchmark和CityScapes数据集,并在相对错误方面取得了最佳性能。与纯深度监督模型相比,我们的模型在薄物体和边缘的深度预测上具有令人印象深刻的性能,并且与结构预测基线相比,我们的模型的性能更加强大。
translated by 谷歌翻译
深度是自治车辆以感知障碍的重要信息。由于价格相对较低,单目一体相机的小尺寸,从单个RGB图像的深度估计引起了对研究界的兴趣。近年来,深神经网络(DNN)的应用已经显着提高了单眼深度估计(MDE)的准确性。最先进的方法通常设计在复杂和极其深的网络架构之上,需要更多的计算资源,而不使用高端GPU实时运行。虽然一些研究人员试图加速运行速度,但深度估计的准确性降低,因为压缩模型不代表图像。另外,现有方法使用的特征提取器的固有特性导致产生的特征图中的严重空间信息丢失,这也损害了小型图像的深度估计的精度。在本研究中,我们有动力设计一种新颖且有效的卷积神经网络(CNN),其连续地组装两个浅编码器解码器样式子网,以解决这些问题。特别是,我们强调MDE准确性和速度之间的权衡。已经在NYU深度V2,Kitti,Make3D和虚幻数据集上进行了广泛的实验。与拥有极其深层和复杂的架构的最先进的方法相比,所提出的网络不仅可以实现可比性的性能,而且在单个不那么强大的GPU上以更快的速度运行。
translated by 谷歌翻译
自我监督的单眼深度估计是一种有吸引力的解决方案,不需要难以供应的深度标签进行训练。卷积神经网络(CNN)最近在这项任务中取得了巨大成功。但是,他们的受欢迎的领域有限地限制了现有的网络体系结构,以便在本地进行推理,从而抑制了自我监督范式的有效性。鉴于Vision Transformers(VIT)最近取得的成功,我们提出了Monovit,这是一个崭新的框架,结合了VIT模型支持的全球推理以及自我监督的单眼深度估计的灵活性。通过将普通的卷积与变压器块相结合,我们的模型可以在本地和全球范围内推理,从而在较高的细节和准确性上产生深度预测,从而使MonoVit可以在已建立的Kitti数据集中实现最先进的性能。此外,Monovit证明了其在其他数据集(例如Make3D和Drivingstereo)上的出色概括能力。
translated by 谷歌翻译