强大的海上障碍物检测对于完全自动的无人体表面车辆(USV)至关重要。目前广泛采用的基于细分的障碍检测方法容易分类对象反射和阳光作为障碍,从而产生许多假阳性检测,从而有效地使USV导航的方法不切实际。但是,对物体反射的水扰动引起的时间外观变化与真实物体的外观动力学非常独特。我们利用这一属性来设计wasr-t,这是一个新型的海上障碍检测网络,从最近的一系列框架中提取时间上下文,以减少歧义。通过学习水面上对象反射的局部时间特征,WASR-T可以在存在反射和闪光的情况下显着提高障碍物检测精度。与现有的单帧方法相比,WASR-T将假阳性检测的数量降低了41%,在船的危险区域内将超过53%的人降低了53%,同时保留了很高在具有挑战性的MODS海上障碍物检测基准上的艺术表现。代码,预处理的模型和扩展数据集可在https://github.com/lojzezust/wasr-t上获得
translated by 谷歌翻译
强大的海上障碍物检测对于安全导航自动船和及时避免碰撞至关重要。当前的最新技术基于在大型数据集上训练的深度分割网络。但是,此类数据集的每个像素地面真相标签是劳动密集型且昂贵的。我们提出了一个新的脚手架学习制度(SLR),该制度利用薄弱的注释,包括水边缘,地平线和障碍物边界框来训练基于细分的障碍物检测网络,从而将所需的地面真相标记工作减少了21倍。 SLR从弱注释中训练初始模型,然后在重新估计分割伪标签和改进网络参数之间交替。实验表明,在弱标签上使用SLR训练的海上障碍分割网络不仅匹配,而且优于接受密集地面真相标签的相同网络,这是一个了不起的结果。除了提高精度外,SLR还增加了域的概括,可用于较低的手动注释负载,用于域的适应性。代码和预培训模型可在https://github.com/lojzezust/slr上找到。
translated by 谷歌翻译
The 1$^{\text{st}}$ Workshop on Maritime Computer Vision (MaCVi) 2023 focused on maritime computer vision for Unmanned Aerial Vehicles (UAV) and Unmanned Surface Vehicle (USV), and organized several subchallenges in this domain: (i) UAV-based Maritime Object Detection, (ii) UAV-based Maritime Object Tracking, (iii) USV-based Maritime Obstacle Segmentation and (iv) USV-based Maritime Obstacle Detection. The subchallenges were based on the SeaDronesSee and MODS benchmarks. This report summarizes the main findings of the individual subchallenges and introduces a new benchmark, called SeaDronesSee Object Detection v2, which extends the previous benchmark by including more classes and footage. We provide statistical and qualitative analyses, and assess trends in the best-performing methodologies of over 130 submissions. The methods are summarized in the appendix. The datasets, evaluation code and the leaderboard are publicly available at https://seadronessee.cs.uni-tuebingen.de/macvi.
translated by 谷歌翻译
宽阔的区域运动图像(瓦米)产生具有大量极小物体的高分辨率图像。目标物体在连续帧中具有大的空间位移。令人讨厌的图像的这种性质使对象跟踪和检测具有挑战性。在本文中,我们介绍了我们基于深度神经网络的组合对象检测和跟踪模型,即热图网络(HM-Net)。 HM-Net明显快于最先进的帧差异和基于背景减法的方法,而不会影响检测和跟踪性能。 HM-Net遵循基于对象的联合检测和跟踪范式。简单的热图的预测支持无限数量的同时检测。所提出的方法使用来自前一帧的两个连续帧和物体检测热图作为输入,这有助于帧之间的HM-Net监视器时空变化并跟踪先前预测的对象。尽管重复使用先前的物体检测热图作为基于生命的反馈的存储器元件,但它可能导致假阳性检测的意外浪涌。为了增加对误报和消除低置信度检测的方法的稳健性,HM-Net采用新的反馈滤波器和高级数据增强。 HM-Net优于最先进的WAMI移动对象检测和跟踪WPAFB数据集的跟踪方法,其96.2%F1和94.4%地图检测分数,同时在同一数据集上实现61.8%的地图跟踪分数。这种性能对应于F1,6.1%的地图分数的增长率为2.1%,而在追踪最先进的地图分数的地图分数为9.5%。
translated by 谷歌翻译
每年,AEDESAEGYPTI蚊子都感染了数百万人,如登录,ZIKA,Chikungunya和城市黄热病等疾病。战斗这些疾病的主要形式是通过寻找和消除潜在的蚊虫养殖场来避免蚊子繁殖。在这项工作中,我们介绍了一个全面的空中视频数据集,获得了无人驾驶飞行器,含有可能的蚊帐。使用识别所有感兴趣对象的边界框手动注释视频数据集的所有帧。该数据集被用于开发基于深度卷积网络的这些对象的自动检测系统。我们提出了通过在可以注册检测到的对象的时空检测管道的对象检测流水线中的融合来利用视频中包含的时间信息,这些时间是可以注册检测到的对象的,最大限度地减少最伪正和假阴性的出现。此外,我们通过实验表明使用视频比仅使用框架对马赛克组成马赛克更有利。使用Reset-50-FPN作为骨干,我们可以分别实现0.65和0.77的F $ _1 $ -70分别对“轮胎”和“水箱”的对象级别检测,说明了正确定位潜在蚊子的系统能力育种对象。
translated by 谷歌翻译
准确的移动对象细分是自动驾驶的重要任务。它可以为许多下游任务提供有效的信息,例如避免碰撞,路径计划和静态地图构建。如何有效利用时空信息是3D激光雷达移动对象分割(LIDAR-MOS)的关键问题。在这项工作中,我们提出了一个新型的深神经网络,利用了时空信息和不同的LiDAR扫描表示方式,以提高LIDAR-MOS性能。具体而言,我们首先使用基于图像图像的双分支结构来分别处理可以从顺序的LiDAR扫描获得的空间和时间信息,然后使用运动引导的注意模块组合它们。我们还通过3D稀疏卷积使用点完善模块来融合LIDAR范围图像和点云表示的信息,并减少对象边界上的伪像。我们验证了我们提出的方法对Semantickitti的LiDAR-MOS基准的有效性。我们的方法在LiDar-Mos IOU方面大大优于最先进的方法。从设计的粗到精细体系结构中受益,我们的方法以传感器框架速率在线运行。我们方法的实现可作为开源可用:https://github.com/haomo-ai/motionseg3d。
translated by 谷歌翻译
行人检测是自主驱动系统中最关键的模块。虽然相机通常用于此目的,但其质量严重降低了低光夜间驾驶场景。另一方面,热摄像机图像的质量在类似条件下保持不受影响。本文采用RGB和热图像提出了一种用于行人检测的端到端多峰融合模型。其新颖的时空深度网络架构能够有效利用多模式输入。它由两个不同的可变形ResNext-50编码器组成,用于来自两个方式的特征提取。这两个编码特征的融合发生在由几个图形关注网络和特征融合单元组成的多模式特征嵌入模块(MUFEM)内部。随后将MUFEM的最后一个特征融合单元的输出传递给两个CRF的空间细化。通过在四个不同方向横穿四个RNN的帮助下,通过应用渠道明智的关注和提取上下文信息来实现特征的进一步提高。最后,单级解码器使用这些特征映射来生成每个行人和分数图的边界框。我们在三个公开可用的多模式行人检测基准数据集,即Kaist,CVC-14和Utokyo上进行了广泛的框架实验。每个每个结果都改善了各种最先进的性能。在https://youtu.be/fdjdsifuucs,可以看到一个简短的视频以及其定性结果的概述。我们的源代码将在发布论文时发布。
translated by 谷歌翻译
这项工作为卫星视频中的车辆检测提供了一种深度学习方法。由于车辆的微小(4-10像素)及其与背景的相似性,因此在单个EO卫星图像中可能不可能进行车辆检测。取而代之的是,我们考虑卫星视频,该视频克服了由于车辆运动的时间一致性而缺乏空间信息。提出了一种紧凑型$ 3 $ 3 $卷积的神经网络的新时空模型,该模型忽略了合并层并使用泄漏的保留。然后,我们使用输出热图的重新制定,包括最终分割的非最大抑制(NMS)。两个新的带注释的卫星视频的经验结果重新确认该方法用于车辆检测的适用性。他们更重要的是表明,对WAMI数据进行预训练,然后在几个带注释的视频帧上进行微调以进行新视频就足够了。在我们的实验中,只有五个带注释的图像在新视频中产生的$ F_1 $得分为0.81,显示出比拉斯维加斯视频更复杂的流量模式。我们对拉斯维加斯的最佳结果是$ F_1 $得分为0.87,这使得拟议的方法成为该基准的领先方法。
translated by 谷歌翻译
为有效语义分割和特别是视频语义分割构建模型的主要障碍是缺乏大型和良好的注释数据集。这种瓶颈在高度专业化的和监管领域特别禁止,例如医学和手术,视频语义细分可能具有重要应用,但数据和专家注释是稀缺的。在这些设置中,可以在培训期间利用时间线索和解剖结构来提高性能。在这里,我们呈现时间限制的神经网络(TCNN),是用于外科视频的视频语义分割的半监督框架。在这项工作中,我们表明AutoEncoder网络可用于有效地提供空间和时间监控信号来培训深度学习模型。我们在新推出的腹腔镜胆囊切除术文程序,内测序和对CADIS,CADIS的公共数据集的适应时测试我们的方法。我们证明,可以利用预测面罩的较低尺寸表示,以在稀疏标记的数据集中提供一致的改进,这些数据集在推理时间不具有额外的计算成本。此外,TCNN框架是模型无关的,可以与其他模型设计选择结合使用,具有最小的额外复杂性。
translated by 谷歌翻译
当前的半监督视频对象分割(VOS)方法通常利用一个框架的整个功能来预测对象掩码和更新内存。这引入了重要的冗余计算。为了减少冗余,我们提出了一种区域意识到的视频对象细分(RAVOS)方法,该方法可预测感兴趣的区域(ROI),以进行有效的对象细分和内存存储。 Ravos包括一个快速对象运动跟踪器,可以在下一个帧中预测其ROI。为了有效的分割,根据ROI提取对象特征,并且对象解码器设计用于对象级分割。为了有效的内存存储,我们建议运动路径内存来通过记住两个帧之间对象的运动路径中的特征来滤除冗余上下文。除了Ravos,我们还提出了一个称为OVO的大型数据集,以基准在遮挡下基准VOS模型的性能。对戴维斯和YouTube-VOS基准和我们的新OVOS数据集的评估表明,我们的方法以更快的推理时间来实现最先进的性能,例如,戴维斯的42 fps的86.1 J&F在YouTube-in YouTube-in YouTube-in YouTube-in YouTube-23 fps上达到42 fps- VOS。
translated by 谷歌翻译
基于模板的鉴别性跟踪器是目前主导的跟踪范例由于其稳健性,但不限于边界框跟踪和有限的转换模型,这降低了它们的本地化准确性。我们提出了一个判别的单次分割跟踪器 - D3S2,其缩小了视觉对象跟踪和视频对象分段之间的差距。单次网络应用两个具有互补的几何属性的目标模型,一个不变的变换,包括非刚性变形,另一个假设刚性对象同时实现强大的在线目标分段。通过解耦对象和特征比例估计,进一步提高了整体跟踪可靠性。没有每数据集FineTuning,并且仅用于分段作为主要输出,D3S2胜过最近的短期跟踪基准Vot2020上的所有已发布的跟踪器,并非常接近GOT-10K上的最先进的跟踪器, TrackingNet,OTB100和Lasot。 D3S2优于视频对象分段基准上的前导分割跟踪器SIAMMASK,并与顶部视频对象分段算法进行操作。
translated by 谷歌翻译
深度学习技术的最新进展引发了地面车辆的自主权的根本性进步。定期用于监视,监视和其他常规任务的海洋沿海自动级别的表面车辆(ASV)可以从这种自治中受益。长期的深海运输活动是额外的机会。这两个用例的地形非常不同 - 第一个是沿海水域 - 具有许多障碍,结构和人类的存在,而后者大多没有这样的障碍。环境条件的变化都是两种地形的共同点。绘制此类地形的强大标记数据集对于提高可以推动自主权的情境意识至关重要。但是,只有此类海事数据集有限,这些数据集主要由光学图像组成。虽然,长浪红外(LWIR)是对极端光条件下有助于的光谱的强烈补充,但目前尚不存在带有LWIR图像的标记的公共数据集。在本文中,我们通过在不同条件下呈现在沿海海上环境中捕获的2,900多个LWIR分段图像的标签数据集来填补这一空白。这些图像使用实例分割标记,并分为七个类别 - 天空,水,障碍物,生活障碍,桥梁,自我和背景。我们还评估了三个深度学习体系结构(UNET,PSPNET,DEEPLABV3)的数据集,并对其功效提供了详细的分析。尽管数据集专注于沿海地形,但可以同样有助于深海用例。这种地形的流量将较小,在混乱环境中训练的分类器将能够有效地处理稀疏场景。我们与研究界分享此数据集,希望它刺激新的场景理解海上环境中的能力。
translated by 谷歌翻译
异常检测和定位是具有多种应用的重要视觉问题。各种不同表面上异常区域的有效和通用的语义分割,在各种不同的表面上,大多数异常区域没有任何明显的模式,仍处于积极研究。在广大基础设施中检测是一种重要的基础设施的定期健康监测和故障(异常)是一种重要的安全相关任务,是基于视觉的异常分割的一个这样的应用领域。然而,由于表面故障的大变化,纹理的结构材料/背景,照明条件等,任务是非常具有挑战性的。裂缝是临界和频繁的表面缺陷,表现为极端曲折形状的薄,细长区域。它们是在深入学习的最难检测的故障之一中。在这项工作中,我们解决了自动裂缝分割问题的一个开放方面,通过模拟问题来概括和提高各种场景的分割性能。我们仔细研究和抽象涉及的子问题,并在更广泛的背景下解决它们,使我们的解决方案通用。在各种与不同基础设施监视相关的数据集上,在不同的条件下,我们的模型在没有任何铃声和口哨的情况下始终如一地优于最先进的算法。这种性能优势在我们模型的两个部署中轻松携带,针对行业提供的数据集进行测试。更进一步的是,我们也可以为两个制造质量检查场景建立我们的模型的表现,其中缺陷类型不仅仅是裂缝等价物,而且更加不同。因此,我们希望我们的模型确实是一个真正的通用缺陷分段模型。
translated by 谷歌翻译
视频中的实时和在线行动本地化是一个关键但极具挑战性的问题。准确的行动定位需要利用时间和空间信息。最近的尝试通过使用计算密集的3D CNN架构或高度冗余的双流架构来实现这一目标,使它们既不适用于实时在线应用程序。为了在高度挑战的实时约束下完成活动本地化,我们提出利用基于快速高效的关键点的边界框预测到空间本地化动作。然后,我们介绍一种管链接算法,其在闭塞存在下在时间上保持动作管的连续性。此外,我们通过将时间和空间信息与级联输入组合到单个网络的级联输入来消除对双流架构的需要,允许网络从两种类型的信息中学习。使用结构相似索引图有效地提取了时间信息,而不是计算密集的光学流量。尽管我们的方法简单,我们的轻质端到端架构在挑战的UCF101-24数据集上实现了最先进的框架地图,达到了74.7%,展示了以前最好的在线方法的性能增益为6.4% 。与在线和离线方法两者相比,我们还实现了最先进的视频地图结果。此外,我们的模型实现了41.8 FPS的帧速率,这是对当代实时方法的10.7%。
translated by 谷歌翻译
多个对象跟踪和分段需要检测,跟踪和分割属于一组给定类的对象。大多数方法仅利用时间维度来解决关联问题,同时依赖于分段掩码本身的单帧预测。我们提出了原型的横向网络(PCAN),能够利用在线多个对象跟踪和分段的丰富的时空信息。 PCAN首先将时空内存蒸馏成一组原型,然后用横向从过去的框架中检索丰富的信息。要分段每个对象,PCAN采用原型外观模块来学习一组对比的前景和背景原型,然后随着时间的推移传播。广泛的实验表明,PCAN优于YouTube-VIS和BDD100K数据集的当前视频实例跟踪和分段竞争获奖者,并为单阶段和两级分割框架表示有效性。代码和视频资源有关http://vis.xyz/pub/pcan可用。
translated by 谷歌翻译
最先进的语义或实例分割深度神经网络(DNN)通常在封闭的语义类上培训。因此,它们的装备不适用于处理以前的未持续的对象。然而,检测和定位这些物体对于安全关键应用至关重要,例如对自动驾驶的感知,特别是如果它们出现在前方的道路上。虽然某些方法已经解决了异常或分发的对象分割的任务,但由于缺乏固体基准,在很大程度上存在进展仍然缓慢;现有数据集由合成数据组成,或遭受标签不一致。在本文中,我们通过介绍“SegmentMeifyOUCAN”基准来弥合这个差距。我们的基准解决了两个任务:异常对象分割,这将考虑任何以前的未持续的对象类别;和道路障碍分割,它侧重于道路上的任何物体,可能是已知的或未知的。我们将两个相应的数据集与执行深入方法分析的测试套件一起提供,考虑到已建立的像素 - 明智的性能度量和最近的组件 - 明智的,这对对象尺寸不敏感。我们凭经验评估了多种最先进的基线方法,包括使用我们的测试套件在我们的数据集和公共数据上专门为异常/障碍分割而设计的多种型号。异常和障碍分割结果表明,我们的数据集有助于数据景观的多样性和难度。
translated by 谷歌翻译
近年来,美国西部野蛮火灾的大小和频率显着增加。在高火灾日,小火点火可以迅速增长并失控。早期检测初始烟雾的火点火可以帮助响应在难以管理之前对这种火灾进行响应。过去的野火烟雾检测的深入学习方法遭受了小型或不可靠的数据集,使得难以将性能推断为现实世界的情景。在这项工作中,我们展示了火点火图书馆(Figlib),这是一个近25,000个标记的野火烟雾图像的公共数据集,从南加州部署的固定视图相机看。我们还介绍了Smokeynet,一种新的深度学习架构,使用相机图像的时空信息,用于实时野火烟雾检测。在迪拉布数据集上培训时,SmokeyNet优于相当的基线和竞争对手的人类性能。我们希望Figlib数据集和Smokynet架构的可用性将激励进一步研究野火烟雾检测的深度学习方法,导致自动化通知系统,减少野火响应的时间。
translated by 谷歌翻译
Graph neural networks have shown to learn effective node representations, enabling node-, link-, and graph-level inference. Conventional graph networks assume static relations between nodes, while relations between entities in a video often evolve over time, with nodes entering and exiting dynamically. In such temporally-dynamic graphs, a core problem is inferring the future state of spatio-temporal edges, which can constitute multiple types of relations. To address this problem, we propose MTD-GNN, a graph network for predicting temporally-dynamic edges for multiple types of relations. We propose a factorized spatio-temporal graph attention layer to learn dynamic node representations and present a multi-task edge prediction loss that models multiple relations simultaneously. The proposed architecture operates on top of scene graphs that we obtain from videos through object detection and spatio-temporal linking. Experimental evaluations on ActionGenome and CLEVRER show that modeling multiple relations in our temporally-dynamic graph network can be mutually beneficial, outperforming existing static and spatio-temporal graph neural networks, as well as state-of-the-art predicate classification methods.
translated by 谷歌翻译
Single-frame InfraRed Small Target (SIRST) detection has been a challenging task due to a lack of inherent characteristics, imprecise bounding box regression, a scarcity of real-world datasets, and sensitive localization evaluation. In this paper, we propose a comprehensive solution to these challenges. First, we find that the existing anchor-free label assignment method is prone to mislabeling small targets as background, leading to their omission by detectors. To overcome this issue, we propose an all-scale pseudo-box-based label assignment scheme that relaxes the constraints on scale and decouples the spatial assignment from the size of the ground-truth target. Second, motivated by the structured prior of feature pyramids, we introduce the one-stage cascade refinement network (OSCAR), which uses the high-level head as soft proposals for the low-level refinement head. This allows OSCAR to process the same target in a cascade coarse-to-fine manner. Finally, we present a new research benchmark for infrared small target detection, consisting of the SIRST-V2 dataset of real-world, high-resolution single-frame targets, the normalized contrast evaluation metric, and the DeepInfrared toolkit for detection. We conduct extensive ablation studies to evaluate the components of OSCAR and compare its performance to state-of-the-art model-driven and data-driven methods on the SIRST-V2 benchmark. Our results demonstrate that a top-down cascade refinement framework can improve the accuracy of infrared small target detection without sacrificing efficiency. The DeepInfrared toolkit, dataset, and trained models are available at https://github.com/YimianDai/open-deepinfrared to advance further research in this field.
translated by 谷歌翻译
视频人群本地化是一项至关重要但又具有挑战性的任务,旨在估算给定拥挤视频中人头的确切位置。为了模拟人类活动性的时空依赖性,我们提出了多焦点高斯邻里注意力(GNA),可以有效利用远程对应关系,同时保持输入视频的空间拓扑结构。特别是,我们的GNA还可以使用配备的多聚焦机制良好地捕获人头的尺度变化。基于多聚焦GNA,我们开发了一个名为GNANET的统一神经网络,以通过场景建模模块和上下文交叉意见模块充分聚合时空信息来准确地定位视频片段中的头部中心。此外,为了促进该领域的未来研究,我们介绍了一个名为VScrowd的大规模人群视频基准,该视频由60k+框架组成,这些框架在各种监视场景和2M+头部注释中捕获。最后,我们在包括我们的SenseCrowd在内的三个数据集上进行了广泛的实验,实验结果表明,所提出的方法能够实现视频人群本地化和计数的最新性能。
translated by 谷歌翻译