事件相机感测每个像素强度更改,并产生具有高动态范围和运动模糊的异步事件流,显示出与传统相机的优势。训练基于事件的模型的障碍是缺乏大规模标记的数据。现有作品学习结束任务主要依赖于从有源像素传感器(APS)帧获得的标记或伪标记的数据集;然而,这种数据集的质量远远远非基于规范图像的那些。在本文中,我们提出了一种新颖的方法,称为\ textbf {evdistill},通过来自培训的教师网络的知识蒸馏(KD)来学习未标记和未配对的事件数据(目标模型)的学生网络图像数据(源码模式)。为了使KD跨越未配对的模态,我们首先提出了双向模型重建(BMR)模块来桥接两种方式,并同时利用它们通过制造的对蒸馏到知识,从而导致推断不额外计算。 BMR通过端到端的端到端的终端任务和KD损耗得到改善。其次,我们利用两种方式的结构相似之处,并通过匹配其分布来调整知识。此外,由于大多数先前的特征KD方法是单态的,而且对我们的问题不太适用,我们建议利用亲和力图KD损失来提高蒸馏。我们对语义分割和对象识别的广泛实验表明,Evdistill达到了比现有的作品和仅具有事件和APS帧的效果更好的结果。
translated by 谷歌翻译
事件摄像机是一种新型传感器,可感知每个像素强度变化,并输出具有高动态范围和运动模糊的异步事件流。已经证明,仅基于编码器解码器类似网络,单独的事件可以用于最终任务学习,例如语义分割。然而,由于事件稀疏并且大多数反映边缘信息,因此难以仅依赖于解码器恢复原始细节。此外,大多数方法对像素 - 明智的损失单独进行监督,这可能不足以完全利用稀疏事件的视觉细节,从而导致更少的性能。在本文中,我们提出了一个名为双传输学习(DTL)的简单且灵活的双流框架,以有效地增强了最终任务的性能,而无需增加额外推理成本。所提出的方法包括三个部分:事件到结束任务学习(EEL)分支,事件到图像转换(EIT)分支,以及传输学习(TL)模块,同时探讨特征级亲和信息和像素级知识EIT分支改善鳗鱼分公司。这种简单的新颖的方法导致了从事件中学习的强烈表示,并且通过最终任务(如语义分割和深度估计)的显着性能提升证明。
translated by 谷歌翻译
由于严重的图像降解,在挑战性高动态范围(HDR)和高速条件下检索准确的语义信息仍然是基于图像的算法的开放挑战。事件摄像机有望应对这些挑战,因为它们具有更高的动态范围,并且对运动模糊具有弹性。尽管如此,事件摄像机的语义细分仍处于起步阶段,这主要是由于缺乏高质量的标记数据集所致。在这项工作中,我们介绍了ESS(基于事件的语义细分),该工作通过将语义分割任务直接从现有标记的图像数据集传输到无标记的事件来解决此问题。与现有的UDA方法相比,我们的方法与图像嵌入的经常性运动不变事件嵌入对齐。因此,我们的方法既不需要视频数据,也不需要图像和事件之间的每个像素对齐,也不需要从静止图像中幻觉运动。此外,我们介绍了DSEC-Semantic,这是第一个带有细粒标签的基于大规模事件的数据集。我们表明,单独使用图像标签,ESS优于现有的UDA方法,并且与事件标签结合使用,它甚至超过了DDD17和DSEC-Semantic上最先进的监督方法。最后,ESS是通用的,它可以解锁大量现有标记的图像数据集,并为事件摄像机无法访问的新领域的新领域中的新和令人兴奋的研究方向铺平了道路。
translated by 谷歌翻译
当标签稀缺时,域的适应性是使学习能够学习的重要任务。尽管大多数作品仅着眼于图像模式,但有许多重要的多模式数据集。为了利用多模式的域适应性,我们提出了跨模式学习,在这种学习中,我们通过相互模仿在两种模式的预测之间执行一致性。我们限制了我们的网络,以对未标记的目标域数据进行正确预测,并在标记的数据和跨模式的一致预测中进行预测。在无监督和半监督的域适应设置中进行的实验证明了这种新型域适应策略的有效性。具体而言,我们评估了从2D图像,3D点云或两者都从3D语义分割的任务进行评估。我们利用最近的驾驶数据集生产各种域名适应场景,包括场景布局,照明,传感器设置和天气以及合成到现实的设置的变化。我们的方法在所有适应方案上都显着改善了以前的单模式适应基线。我们的代码可在https://github.com/valeoai/xmuda_journal上公开获取
translated by 谷歌翻译
神经形态尖峰摄像机以生物启发的方式生成具有高时间分辨率的数据流,该方式在自动驾驶等现实世界应用中具有巨大的潜力。与RGB流相反,Spike流具有克服运动模糊的固有优势,从而导致对高速对象的更准确的深度估计。但是,几乎不可能以监督的方式培训尖峰深度估计网络,因为获得时间密集的尖峰流的配对深度标签非常费力和挑战。在本文中,我们没有构建带有完整深度标签的Spike流数据集,而是以不受监督的方式从开源RGB数据集(例如Kitti)和估算峰值深度转移知识。此类问题的关键挑战在于RGB和SPIKE模式之间的模态差距,以及标记的源RGB和未标记的目标尖峰域之间的域间隙。为了克服这些挑战,我们引入了无监督的尖峰深度估计的跨模式跨域(BICROSS)框架。我们的方法通过引入中介模拟的源尖峰域来缩小源RGB和目标尖峰之间的巨大差距。要具体而言,对于跨模式阶段,我们提出了一种新颖的粗到精细知识蒸馏(CFKD),将图像和像素级知识从源RGB转移到源尖峰。这种设计分别利用了RGB和SPIKE模式的大量语义和密集的时间信息。对于跨域阶段,我们引入了不确定性引导的均值老师(UGMT),以生成具有不确定性估计的可靠伪标签,从而减轻了源尖峰和目标尖峰域之间的变化。此外,我们提出了一种全局级特征对齐方法(GLFA),以对齐两个域之间的特征并生成更可靠的伪标签。
translated by 谷歌翻译
交通场景边缘壳体的语义分割的鲁棒性是智能运输安全的重要因素。然而,交通事故的大多数关键场景都是非常动态和以前看不见的,这严重损害了语义分割方法的性能。另外,在高速驾驶期间传统相机的延迟将进一步降低时间尺寸中的上下文信息。因此,我们建议从基于事件的数据提取动态上下文,以更高的时间分辨率来增强静态RGB图像,即使对于来自运动模糊,碰撞,变形,翻转等的流量事故而言,此外,为评估分割交通事故中的性能,我们提供了一个像素 - 明智的注释事故数据集,即Dada-Seg,其中包含来自交通事故的各种临界情景。我们的实验表明,基于事件的数据可以通过在事故中保留快速移动的前景(碰撞物体)的微粒运动来提供互补信息以在不利条件下稳定语义分割。我们的方法在拟议的事故数据集中实现了+ 8.2%的性能增益,超过了20多种最先进的语义细分方法。已经证明该提案对于在多个源数据库中学到的模型,包括CityScapes,Kitti-360,BDD和Apolloscape的模型始终如一。
translated by 谷歌翻译
高动态范围(HDR)成像是一种允许广泛的动态曝光范围的技术,这在图像处理,计算机图形和计算机视觉中很重要。近年来,使用深度学习(DL),HDR成像有重大进展。本研究对深层HDR成像方法的最新发展进行了综合和富有洞察力的调查和分析。在分层和结构上,将现有的深层HDR成像方法基于(1)输入曝光的数量/域,(2)学习任务数,(3)新传感器数据,(4)新的学习策略,(5)应用程序。重要的是,我们对关于其潜在和挑战的每个类别提供建设性的讨论。此外,我们审查了深度HDR成像的一些关键方面,例如数据集和评估指标。最后,我们突出了一些打开的问题,并指出了未来的研究方向。
translated by 谷歌翻译
In this paper, we investigate the knowledge distillation strategy for training small semantic segmentation networks by making use of large networks. We start from the straightforward scheme, pixel-wise distillation, which applies the distillation scheme adopted for image classification and performs knowledge distillation for each pixel separately. We further propose to distill the structured knowledge from large networks to small networks, which is motivated by that semantic segmentation is a structured prediction problem. We study two structured distillation schemes: (i) pair-wise distillation that distills the pairwise similarities, and (ii) holistic distillation that uses GAN to distill holistic knowledge. The effectiveness of our knowledge distillation approaches is demonstrated by extensive experiments on three scene parsing datasets: Cityscapes, Camvid and ADE20K.
translated by 谷歌翻译
大型预训练的变压器是现代语义分割基准的顶部,但具有高计算成本和冗长的培训。为了提高这种约束,我们从综合知识蒸馏的角度来研究有效的语义分割,并考虑弥合多源知识提取和特定于变压器特定的斑块嵌入之间的差距。我们提出了基于变压器的知识蒸馏(TransKD)框架,该框架通过蒸馏出大型教师变压器的特征地图和补丁嵌入来学习紧凑的学生变形金刚,绕过长期的预训练过程并将FLOPS降低> 85.0%。具体而言,我们提出了两个基本和两个优化模块:(1)交叉选择性融合(CSF)可以通过通道注意和层次变压器内的特征图蒸馏之间的知识转移; (2)嵌入对齐(PEA)在斑块过程中执行尺寸转换,以促进贴片嵌入蒸馏; (3)全局本地上下文混合器(GL-MIXER)提取了代表性嵌入的全局和局部信息; (4)嵌入助手(EA)是一种嵌入方法,可以无缝地桥接老师和学生模型,并具有老师的渠道数量。关于CityScapes,ACDC和NYUV2数据集的实验表明,TransKD的表现优于最先进的蒸馏框架,并竞争了耗时的预训练方法。代码可在https://github.com/ruipingl/transkd上找到。
translated by 谷歌翻译
语义分割在广泛的计算机视觉应用中起着基本作用,提供了全球对图像​​的理解的关键信息。然而,最先进的模型依赖于大量的注释样本,其比在诸如图像分类的任务中获得更昂贵的昂贵的样本。由于未标记的数据替代地获得更便宜,因此无监督的域适应达到了语义分割社区的广泛成功并不令人惊讶。本调查致力于总结这一令人难以置信的快速增长的领域的五年,这包含了语义细分本身的重要性,以及将分段模型适应新环境的关键需求。我们提出了最重要的语义分割方法;我们对语义分割的域适应技术提供了全面的调查;我们揭示了多域学习,域泛化,测试时间适应或无源域适应等较新的趋势;我们通过描述在语义细分研究中最广泛使用的数据集和基准测试来结束本调查。我们希望本调查将在学术界和工业中提供具有全面参考指导的研究人员,并有助于他们培养现场的新研究方向。
translated by 谷歌翻译
确保所有交通参与者的安全性是将智能车辆更接近实际应用的先决条件。援助系统不仅应在正常条件下实现高精度,而是获得对极端情况的强大感知。然而,在大多数训练集中涉及对象碰撞,变形,翻转等的交通事故,但是看不见的,在很大程度上损害了现有语义分段模型的性能。为了解决这个问题,我们在意外场景中的语义细分,以及事故DADASET DADA-SEG,我们展示了一个很少有关的任务。它包含313个不同的事故序列,每个事故序列有40帧,其中时间窗口位于交通事故之前和期间。每11个帧都是手动注释,用于基准测试分割性能。此外,我们提出了一种新的基于事件的多模态分段架构励志。我们的实验表明,基于事件的数据可以通过在事故中保留快速移动的前景(碰撞物体)的微粒运动来提供互补信息以在不利条件下稳定语义分割。我们的方法达到+ 8.2%的Miou性能收益,拟议的评估集,超过了10多种最先进的细分方法。拟议的Issafe架构被证明对于在多个源数据库上学到的模型,包括CityScapes,Kitti-360,BDD和Apolloscape的模型始终如一。
translated by 谷歌翻译
学习估计对象姿势通常需要地面真理(GT)标签,例如CAD模型和绝对级对象姿势,这在现实世界中获得昂贵且费力。为了解决这个问题,我们为类别级对象姿势估计提出了一个无监督的域适应(UDA),称为\ textbf {uda-cope}。受到最近的多模态UDA技术的启发,所提出的方法利用教师学生自我监督的学习方案来训练姿势估计网络而不使用目标域标签。我们还在预测归一化对象坐标空间(NOCS)地图和观察点云之间引入了双向滤波方法,不仅使我们的教师网络更加强大地对目标域,而且为学生网络培训提供更可靠的伪标签。广泛的实验结果表明了我们所提出的方法的有效性,可以定量和定性。值得注意的是,在不利用目标域GT标签的情况下,我们所提出的方法可以实现与依赖于GT标签的现有方法相当或有时优越的性能。
translated by 谷歌翻译
随着相机和激光雷达传感器捕获用于自主驾驶的互补信息,已经做出了巨大的努力,通过多模式数据融合来开发语义分割算法。但是,基于融合的方法需要配对的数据,即具有严格的点对像素映射的激光点云和相机图像,因为培训和推理的输入都严重阻碍了在实际情况下的应用。因此,在这项工作中,我们建议通过充分利用具有丰富外观的2D图像来提高对点云上的代表性学习的2D先验辅助语义分割(2DPass),以增强对点云的表示。实际上,通过利用辅助模态融合和多尺度融合到单个知识蒸馏(MSFSKD),2DAPS从多模式数据中获取更丰富的语义和结构信息,然后在线蒸馏到纯3D网络。结果,配备了2DAPS,我们的基线仅使用点云输入显示出显着的改进。具体而言,它在两个大规模的基准(即Semantickitti和Nuscenes)上实现了最先进的方法,其中包括TOP-1的semantickitti的单扫描和多次扫描竞赛。
translated by 谷歌翻译
强大的语义细分面临的一个普遍挑战是昂贵的数据注释成本。现有的半监督解决方案显示出解决此问题的巨大潜力。他们的关键想法是通过未经监督的数据增加未标记的数据来构建一致性正则化,以进行模型培训。未标记数据的扰动使一致性训练损失使半监督的语义分割受益。但是,这些扰动破坏了图像上下文并引入了不自然的边界,这对语义分割是有害的。此外,广泛采用的半监督学习框架,即均值老师,遭受了绩效限制,因为学生模型最终会收敛于教师模型。在本文中,首先,我们提出了一个友好的可区分几何扭曲,以进行无监督的数据增强。其次,提出了一个新颖的对抗双重学生框架,以从以下两个方面从以下两个方面改善均等老师:(1)双重学生模型是独立学习的,除了稳定约束以鼓励利用模型多样性; (2)对对抗性训练计划适用于学生,并诉诸歧视者以区分无标记数据的可靠伪标签进行自我训练。通过对Pascal VOC2012和CityScapes进行的广泛实验来验证有效性。我们的解决方案可显着提高两个数据集的性能和最先进的结果。值得注意的是,与完全监督相比,我们的解决方案仅使用Pascal VOC2012上的12.5%注释数据获得了73.4%的可比MIOU。我们的代码和模型可在https://github.com/caocong/ads-semiseg上找到。
translated by 谷歌翻译
多模式知识蒸馏(KD)将传统知识蒸馏扩展到多模式学习的领域。一种常见的做法是采用良好的多式联运网络作为老师,希望它可以将其全部知识转移到单形学生以提高绩效。在本文中,我们研究了多模式KD的功效。我们首先提供了两个失败情况,并证明KD不是多模式知识转移中的普遍治疗方法。我们介绍了维恩图的模态,以了解模态关系和焦点的假设,从而揭示了多模式KD功效的决定性因素。6个多模式数据集的实验结果有助于证明我们的假设,诊断失败情况和点方向以提高蒸馏性能。
translated by 谷歌翻译
在语义分段中广泛采用知识蒸馏以降低计算成本。先前的知识蒸馏方法的语义分割方法的重点是像素的特征特征对齐和阶级内特征变化蒸馏,从特征空间,这对于语义分割很重要。为了解决此问题,我们提出了一种类间距离蒸馏(IDD)方法,以将特征空间中的类间距离从教师网络转移到学生网络。此外,语义分割是一项依赖位置的任务,因此我们利用位置信息蒸馏模块来帮助学生网络编码更多的位置信息。在三个受欢迎的数据集上进行了广泛的实验:CityScapes,Pascal VOC和ADE20K表明,我们的方法有助于提高语义细分模型的准确性并实现最先进的性能。例如。它在CityScapes数据集上的准确性将基准模型(“ PSPNET+RESNET18”)提高了7.50%。
translated by 谷歌翻译
半监督语义分割的流行方法主要采用了使用卷积神经网络(CNN)(CNN)的统一网络模型,并在应用于输入或模型的小型扰动上实施模型预测的一致性。但是,这种学习范式受到a)基于CNN模型的学习能力有限; b)学习未标记数据的判别特征的能力有限; c)从整个图像中对全球和本地信息的学习有限。在本文中,我们提出了一种新型的半监督学习方法,称为Transformer-CNN队列(TCC),该方法由两个基于视觉变压器(VIT)的学生组成,另一种是基于CNN的学生。我们的方法巧妙地通过伪标记来纳入预测和异质特征空间上的多级一致性正则化,用于未标记的数据。首先,由于VIT学生的输入是图像贴片,因此特征地图提取了编码至关重要的类统计。为此,我们建议首先利用每个学生作为伪标签并生成类吸引功能(CF)映射的班级感知功能一致性蒸馏(CFCD)。然后,它通过学生之间的CF地图传输知识。其次,随着VIT学生对所有层具有更统一的表示,我们提出一致性感知的交叉蒸馏以在类像素方面的预测之间转移知识。我们在CityScapes和Pascal VOC 2012数据集上验证了TCC框架,该数据集大大优于现有的半监督方法。
translated by 谷歌翻译
由于缺乏大规模标记的3D数据集,大多数3D神经网络都是从划痕训练。在本文中,我们通过利用来自丰富的2D数据集学习的2D网络来介绍一种新的3D预预测方法。我们提出了通过将像素级和点级别特征映射到同一嵌入空间中的对比度的像素到点知识转移来有效地利用2D信息。由于2D和3D网络之间的异构性质,我们介绍了后投影功能以对准2D和3D之间的功能以使转移成为可能。此外,我们设计了一个上采样功能投影层,以增加高级2D特征图的空间分辨率,这使得能够学习细粒度的3D表示。利用普雷累染的2D网络,所提出的预介绍过程不需要额外的2D或3D标记数据,进一步缓解了昂贵的3D数据注释成本。据我们所知,我们是第一个利用现有的2D培训的权重,以预先rain 3D深度神经网络。我们的密集实验表明,使用2D知识预订的3D模型可以通过各种真实世界3D下游任务进行3D网络的性能。
translated by 谷歌翻译
在过去的十年中,许多深入学习模型都受到了良好的培训,并在各种机器智能领域取得了巨大成功,特别是对于计算机视觉和自然语言处理。为了更好地利用这些训练有素的模型在域内或跨域转移学习情况下,提出了知识蒸馏(KD)和域适应(DA)并成为研究亮点。他们旨在通过原始培训数据从训练有素的模型转移有用的信息。但是,由于隐私,版权或机密性,原始数据并不总是可用的。最近,无数据知识转移范式吸引了吸引人的关注,因为它涉及从训练有素的模型中蒸馏宝贵的知识,而无需访问培训数据。特别是,它主要包括无数据知识蒸馏(DFKD)和源无数据域适应(SFDA)。一方面,DFKD旨在将域名域内知识从一个麻烦的教师网络转移到一个紧凑的学生网络,以进行模型压缩和有效推论。另一方面,SFDA的目标是重用存储在训练有素的源模型中的跨域知识并将其调整为目标域。在本文中,我们对知识蒸馏和无监督域适应的视角提供了全面的数据知识转移,以帮助读者更好地了解目前的研究状况和想法。分别简要审查了这两个领域的应用和挑战。此外,我们对未来研究的主题提供了一些见解。
translated by 谷歌翻译
本文提出FogAdapt,一种用于密集有雾场景的语义细分域的新方法。虽然已经针对显着的研究来减少语义分割中的域移位,但对具有恶劣天气条件的场景的适应仍然是一个开放的问题。由于天气状况,如雾,烟雾和雾度,加剧了域移位的场景的可见性,从而使得在这种情况下进行了无监督的适应性。我们提出了一种自熵和多尺度信息增强的自我监督域适应方法(FOGADAPT),以最大限度地减少有雾场景分割的域移位。由经验证据支持,雾密度的增加导致分割概率的高自熵性,我们引入了基于自熵的损耗功能来引导适应方法。此外,在不同的图像尺度上获得的推论由不确定性组合并加权,以生成目标域的尺度不变伪标签。这些规模不变的伪标签对可见性和比例变化具有鲁棒性。我们在真正的雾景场景中评估了真正的清晰天气场景模型,适应和综合非雾图像到真正的雾场景适应情景。我们的实验表明,FogAdapt在有雾图像的语义分割中的目前最先进的情况下显着优异。具体而言,通过考虑标准设置与最先进的(SOTA)方法相比,FogaDATK在Foggy苏黎世上获得3.8%,有雾的驾驶密集为6.0%,而在Miou的雾化驾驶的3.6%,在Miou,在MiOOP中改编为有雾的苏黎世。
translated by 谷歌翻译