由于捕获的图像中的严重噪音,弱光下的场景推断是一个具有挑战性的问题。减少噪音的一种方法是在捕获过程中使用更长的曝光。但是,在有运动(场景或相机运动)的存在下,较长的暴露会导致运动模糊,从而导致图像信息的丢失。这在这两种图像降解之间创造了权衡取舍:运动模糊(由于长期暴露)与噪声(由于曝光短),也称为本文中的双图像损坏对。随着摄像机的兴起,能够同时捕获同一场景的多次暴露,因此可以克服这一权衡。我们的主要观察结果是,尽管这些不同图像捕获的降解的数量和性质各不相同,但在所有图像中,语义内容保持不变。为此,我们提出了一种方法,以利用这些多曝光捕获在弱光和运动下的鲁棒推理。我们的方法建立在功能一致性损失的基础上,以鼓励这些单个捕获的类似结果,并利用其最终预测的合奏来实现强大的视觉识别。我们证明了方法对模拟图像的有效性以及具有多个暴露的真实捕获,以及对象检测和图像分类的任务。
translated by 谷歌翻译
本文对实例分割模型进行了全面评估,这些模型与现实世界图像损坏以及室外图像集合,例如与培训数据集不同的设置捕获的图像。室外图像评估显示了模型的概括能力,现实世界应用的一个基本方面以及广泛研究的域适应性主题。当设计用于现实世界应用程序的实例分割模型并选择现成的预期模型以直接用于手头的任务时,这些提出的鲁棒性和泛化评估很重要。具体而言,这项基准研究包括最先进的网络架构,网络骨架,标准化层,从头开始训练的模型,从头开始与预处理的网络以及多任务培训对稳健性和概括的影响。通过这项研究,我们获得了一些见解。例如,我们发现组归一化增强了跨损坏的网络的鲁棒性,其中图像内容保持不变,但损坏却添加在顶部。另一方面,分批归一化改善了图像特征统计信息在不同数据集上的概括。我们还发现,单阶段探测器比其训练大小不太概括到更大的图像分辨率。另一方面,多阶段探测器可以轻松地用于不同尺寸的图像上。我们希望我们的全面研究能够激发更强大和可靠的实例细分模型的发展。
translated by 谷歌翻译
深神网络的对象探测器正在不断发展,并用于多种应用程序,每个应用程序都有自己的要求集。尽管关键安全应用需要高准确性和可靠性,但低延迟任务需要资源和节能网络。不断提出了实时探测器,在高影响现实世界中是必需的,但是它们过分强调了准确性和速度的提高,而其他功能(例如多功能性,鲁棒性,资源和能源效率)则被省略。现有网络的参考基准不存在,设计新网络的标准评估指南也不存在,从而导致比较模棱两可和不一致的比较。因此,我们对广泛的数据集进行了多个实时探测器(基于锚点,关键器和变压器)的全面研究,并报告了一系列广泛指标的结果。我们还研究了变量,例如图像大小,锚固尺寸,置信阈值和架构层对整体性能的影响。我们分析了检测网络的鲁棒性,以防止分配变化,自然腐败和对抗性攻击。此外,我们提供了校准分析来评估预测的可靠性。最后,为了强调现实世界的影响,我们对自动驾驶和医疗保健应用进行了两个独特的案例研究。为了进一步衡量关键实时应用程序中网络的能力,我们报告了在Edge设备上部署检测网络后的性能。我们广泛的实证研究可以作为工业界对现有网络做出明智选择的指南。我们还希望激发研究社区的设计和评估网络的新方向,该网络着重于更大而整体的概述,以实现深远的影响。
translated by 谷歌翻译
使用致动万向节的机械图像稳定使得能够捕获长曝光镜头而不会因相机运动而遭受模糊。然而,这些装置通常是物理上繁琐和昂贵的,限制了他们广泛的使用。在这项工作中,我们建议通过输入快速未稳定的相机的输入来数字化地模拟机械稳定的系统。在短曝光的长曝光和低SNR处开发运动模糊之间的折衷,我们通过聚集由未知运动相关的嘈杂短曝光框架来培训估计尖锐的高SNR图像的CNN。我们进一步建议以端到端的方式学习突发的曝光时间,从而平衡噪声和模糊穿过框架。我们展示了这种方法,通过传统的去掩盖单个图像或在合成和实际数据上去除固定曝光突发的传统方法的优势。
translated by 谷歌翻译
The 1$^{\text{st}}$ Workshop on Maritime Computer Vision (MaCVi) 2023 focused on maritime computer vision for Unmanned Aerial Vehicles (UAV) and Unmanned Surface Vehicle (USV), and organized several subchallenges in this domain: (i) UAV-based Maritime Object Detection, (ii) UAV-based Maritime Object Tracking, (iii) USV-based Maritime Obstacle Segmentation and (iv) USV-based Maritime Obstacle Detection. The subchallenges were based on the SeaDronesSee and MODS benchmarks. This report summarizes the main findings of the individual subchallenges and introduces a new benchmark, called SeaDronesSee Object Detection v2, which extends the previous benchmark by including more classes and footage. We provide statistical and qualitative analyses, and assess trends in the best-performing methodologies of over 130 submissions. The methods are summarized in the appendix. The datasets, evaluation code and the leaderboard are publicly available at https://seadronessee.cs.uni-tuebingen.de/macvi.
translated by 谷歌翻译
通过流行和通用的计算机视觉挑战来判断,如想象成或帕斯卡VOC,神经网络已经证明是在识别任务中特别准确。然而,最先进的准确性通常以高计算价格出现,需要硬件加速来实现实时性能,而使用案例(例如智能城市)需要实时分析固定摄像机的图像。由于网络带宽的数量,这些流将生成,我们不能依赖于卸载计算到集中云。因此,预期分布式边缘云将在本地处理图像。但是,边缘是由性质资源约束的,这给了可以执行的计算复杂性限制。然而,需要边缘与准确的实时视频分析之间的会面点。专用轻量级型号在每相机基础上可能有所帮助,但由于相机的数量增长,除非该过程是自动的,否则它很快就会变得不可行。在本文中,我们展示并评估COVA(上下文优化的视频分析),这是一个框架,可以帮助在边缘相机中自动专用模型专业化。 COVA通过专业化自动提高轻质模型的准确性。此外,我们讨论和审查过程中涉及的每个步骤,以了解每个人所带来的不同权衡。此外,我们展示了静态相机的唯一假设如何使我们能够制定一系列考虑因素,这大大简化了问题的范围。最后,实验表明,最先进的模型,即能够概括到看不见的环境,可以有效地用作教师以以恒定的计算成本提高较小网络的教师,提高精度。结果表明,我们的COVA可以平均提高预先训练的型号的准确性,平均为21%。
translated by 谷歌翻译
自治车辆和机器人需要越来越多的鲁棒性和可靠性,以满足现代任务的需求。这些要求特别适用于相机,因为它们是获取环境和支持行动的信息的主要传感器。相机必须保持适当的功能,并在必要时采取自动对策。但是,几乎没有作品,审查了相机的一般情况监测方法的实际应用,并在设想的高级别应用程序中设计对策。我们为基于数据和物理接地模型的相机提出了一种通用和可解释的自我保健框架。为此,我们通过比较传统和血液的机器学习的方法,确定一种可靠的两种可靠,实时的估计,用于诸如难以释放的情况(Defocus Blur,运动模糊,不同噪声现象和最常见的噪声现象和最常见的组合)的典型图像效果广泛的实验。此外,我们展示了如何根据实验(非线性和非单调)输入 - 输出性能曲线来调整相机参数(例如,曝光时间和ISO增益)以实现最佳的全系统能力,使用对象检测,运动模糊和传感器噪声作为示例。我们的框架不仅提供了一种实用的即用的解决方案,可以评估和维护摄像机的健康,但也可以作为扩展来解决更复杂的问题的基础,以凭经验组合附加的数据源(例如,传感器或环境参数或环境参数)为了获得完全可靠和强大的机器。
translated by 谷歌翻译
由智能手机和中端相机捕获的照片的空间分辨率和动态范围有限,在饱和区域中未充满刺激的区域和颜色人工制品中的嘈杂响应。本文介绍了第一种方法(据我们所知),以重建高分辨率,高动态范围的颜色图像,这些颜色来自带有曝光括号的手持相机捕获的原始照相爆发。该方法使用图像形成的物理精确模型来结合迭代优化算法,用于求解相应的逆问题和学习的图像表示,以进行健壮的比对,并以前的自然图像。所提出的算法很快,与基于最新的学习图像恢复方法相比,内存需求较低,并且从合成但逼真的数据终止学习的特征。广泛的实验证明了其出色的性能,具有最多$ \ times 4 $的超分辨率因子在野外拍摄的带有手持相机的真实照片,以及对低光条件,噪音,摄像机摇动和中等物体运动的高度鲁棒性。
translated by 谷歌翻译
高动态范围(HDR)成像是一种允许广泛的动态曝光范围的技术,这在图像处理,计算机图形和计算机视觉中很重要。近年来,使用深度学习(DL),HDR成像有重大进展。本研究对深层HDR成像方法的最新发展进行了综合和富有洞察力的调查和分析。在分层和结构上,将现有的深层HDR成像方法基于(1)输入曝光的数量/域,(2)学习任务数,(3)新传感器数据,(4)新的学习策略,(5)应用程序。重要的是,我们对关于其潜在和挑战的每个类别提供建设性的讨论。此外,我们审查了深度HDR成像的一些关键方面,例如数据集和评估指标。最后,我们突出了一些打开的问题,并指出了未来的研究方向。
translated by 谷歌翻译
然而,近年来在许多基准上看到了视觉认可的令人印象深刻的进展,但是,在配送方面的现实世界的概括仍然是一个重大挑战。用于强大的可视识别的最先进的方法是模型集合。然而,最近显示,通过使用多输入多输出架构(MIMO),可以以更小的成本实现同样的竞争结果。在这项工作中,使用普通用途R-CNN模型将MIMO方法的概括应用于物体检测的任务。结果表明,使用MIMO框架允许构建强特征表示,并在使用两个输入/输出对时获得非常竞争的准确性。此外,与标准更快的R-CNN相比,它增加了0.5 \%的额外模型参数,并将推理时间提高15.9 \%。它还可以在模型精度,在使用相同数量的预测时,在模型精度,鲁棒性与分发范围内的鲁棒性以及不确定性校准方面相当于或胜过深度集成方法。这项工作开辟了用于在其他高级任务中应用MIMO方法的途径,例如语义分割和深度估计。
translated by 谷歌翻译
快速移动受试者的运动模糊是摄影中的一个长期问题,由于收集效率有限,尤其是在弱光条件下,在手机上非常常见。尽管近年来我们目睹了图像脱毛的巨大进展,但大多数方法都需要显着的计算能力,并且在处理高分辨率照片的情况下具有严重的局部动作。为此,我们根据手机的双摄像头融合技术开发了一种新颖的面部脱毛系统。该系统检测到主题运动以动态启用参考摄像头,例如,最近在高级手机上通常可用的Ultrawide Angle摄像机,并捕获带有更快快门设置的辅助照片。虽然主镜头是低噪音但模糊的,但参考镜头却很锋利,但嘈杂。我们学习ML模型,以对齐和融合这两张镜头,并在没有运动模糊的情况下输出清晰的照片。我们的算法在Google Pixel 6上有效运行,每次拍摄需要463毫秒的开销。我们的实验证明了系统对替代单片,多帧,面部特异性和视频脱张算法以及商业产品的优势和鲁棒性。据我们所知,我们的工作是第一个用于面部运动脱毛的移动解决方案,在各种运动和照明条件下,在数千个图像中可靠地工作。
translated by 谷歌翻译
在本文中,我们描述了如何利用明亮的调制光源(例如,廉价,离心激光器)来利用CMOS图像传感器中的电子滚动快门。我们展示了七种不同CMOS相机的攻击,从IoT廉价到半专业监控摄像机,以突出滚动快门攻击的广泛适用性。我们模拟了影响不受控制的设置中滚动快门攻击的基本因素。然后,我们对对象检测任务的攻击作用进行了详尽的评估,研究了攻击参数的效果。我们验证了我们对两个独立相机收集的经验数据的模型,表明通过简单地使用来自相机数据表的信息,对手可以准确地预测注入的失真大小并相应地优化它们的攻击。我们发现,通过选择适当的攻击参数,对手可以通过最先进的探测器隐藏高达75%的物体。我们还调查了与NA \“{i} vers致盲攻击相比攻击的隐秘,表明常见的图像失真度量无法检测到攻击存在。因此,我们向骨干展示了一种新的,准确和轻巧的增强对象检测器的网络识别滚动快门攻击。总体而言,我们的结果表明,滚动快门攻击可以大大降低基于视觉智能系统的性能和可靠性。
translated by 谷歌翻译
成功培训端到端的深网进行真实运动去缩合,需要尖锐/模糊的图像对数据集,这些数据集现实且多样化,足以实现概括以实现真实的图像。获得此类数据集仍然是一项具有挑战性的任务。在本文中,我们首先回顾了现有的Deblurring基准数据集的局限性,从泛化到野外模糊图像的角度。其次,我们提出了一种有效的程序方法,以基于一个简单而有效的图像形成模型来生成清晰/模糊的图像对。这允许生成几乎无限的现实和多样化的培训对。我们通过在模拟对上训练现有的DeBlurring架构,并在四个真实模糊图像的标准数据集中对其进行评估,从而证明了所提出的数据集的有效性。我们观察到使用建议方法训练时动态场景的真实运动毛线照片的最终任务的出色概括性能。
translated by 谷歌翻译
地理定位的概念是指确定地球上的某些“实体”的位置的过程,通常使用全球定位系统(GPS)坐标。感兴趣的实体可以是图像,图像序列,视频,卫星图像,甚至图像中可见的物体。由于GPS标记媒体的大规模数据集由于智能手机和互联网而迅速变得可用,而深入学习已经上升以提高机器学习模型的性能能力,因此由于其显着影响而出现了视觉和对象地理定位的领域广泛的应用,如增强现实,机器人,自驾驶车辆,道路维护和3D重建。本文提供了对涉及图像的地理定位的全面调查,其涉及从捕获图像(图像地理定位)或图像内的地理定位对象(对象地理定位)的地理定位的综合调查。我们将提供深入的研究,包括流行算法的摘要,对所提出的数据集的描述以及性能结果的分析来说明每个字段的当前状态。
translated by 谷歌翻译
在极低光线条件下捕获图像会对标准相机管道带来重大挑战。图像变得太黑了,太吵了,这使得传统的增强技术几乎不可能申请。最近,基于学习的方法已经为此任务显示了非常有希望的结果,因为它们具有更大的表现力能力来允许提高质量。这些研究中的激励,在本文中,我们的目标是利用爆破摄影来提高性能,并从极端暗的原始图像获得更加锐利和更准确的RGB图像。我们提出的框架的骨干是一种新颖的粗良好网络架构,逐步产生高质量的输出。粗略网络预测了低分辨率,去噪的原始图像,然后将其馈送到精细网络以恢复微尺的细节和逼真的纹理。为了进一步降低噪声水平并提高颜色精度,我们将该网络扩展到置换不变结构,使得它作为输入突发为低光图像,并在特征级别地合并来自多个图像的信息。我们的实验表明,我们的方法通过生产更详细和相当更高的质量的图像来引起比最先进的方法更令人愉悦的结果。
translated by 谷歌翻译
交通场景边缘壳体的语义分割的鲁棒性是智能运输安全的重要因素。然而,交通事故的大多数关键场景都是非常动态和以前看不见的,这严重损害了语义分割方法的性能。另外,在高速驾驶期间传统相机的延迟将进一步降低时间尺寸中的上下文信息。因此,我们建议从基于事件的数据提取动态上下文,以更高的时间分辨率来增强静态RGB图像,即使对于来自运动模糊,碰撞,变形,翻转等的流量事故而言,此外,为评估分割交通事故中的性能,我们提供了一个像素 - 明智的注释事故数据集,即Dada-Seg,其中包含来自交通事故的各种临界情景。我们的实验表明,基于事件的数据可以通过在事故中保留快速移动的前景(碰撞物体)的微粒运动来提供互补信息以在不利条件下稳定语义分割。我们的方法在拟议的事故数据集中实现了+ 8.2%的性能增益,超过了20多种最先进的语义细分方法。已经证明该提案对于在多个源数据库中学到的模型,包括CityScapes,Kitti-360,BDD和Apolloscape的模型始终如一。
translated by 谷歌翻译
随着已安装的摄像机的数量,需要处理和分析这些摄像机捕获的所有图像所需的计算资源。视频分析使新用例(例如智能城市)或自动驾驶等开放。与此同时,它敦促服务提供商安装额外的计算资源以应对需求,而严格的延迟要求推动到网络末尾的计算,形成了地理分布式和异构的计算位置集,共享和资源受限。这种景观(共享和分布式位置)迫使我们设计可以在所有可用位置之间优化和分发工作的新技术,并且理想情况下,使得计算要求在安装的相机的数量方面增长。在本文中,我们展示了FOMO(专注于移动物体)。该方法通过预处理场景,过滤空区输出并将来自多个摄像机的感兴趣区域组成为用于预先训练的对象检测模型的输入的单个图像来有效地优化多摄像机部署。结果表明,整体系统性能可以提高8倍,而精度可提高40%作为方法的副产物,所有这些都是使用储物预训练模型,没有额外的训练或微调。
translated by 谷歌翻译
视频分析的图像分割在不同的研究领域起着重要作用,例如智能城市,医疗保健,计算机视觉和地球科学以及遥感应用。在这方面,最近致力于发展新的细分策略;最新的杰出成就之一是Panoptic细分。后者是由语义和实例分割的融合引起的。明确地,目前正在研究Panoptic细分,以帮助获得更多对视频监控,人群计数,自主驾驶,医学图像分析的图像场景的更细致的知识,以及一般对场景更深入的了解。为此,我们介绍了本文的首次全面审查现有的Panoptic分段方法,以获得作者的知识。因此,基于所采用的算法,应用场景和主要目标的性质,执行现有的Panoptic技术的明确定义分类。此外,讨论了使用伪标签注释新数据集的Panoptic分割。继续前进,进行消融研究,以了解不同观点的Panoptic方法。此外,讨论了适合于Panoptic分割的评估度量,并提供了现有解决方案性能的比较,以告知最先进的并识别其局限性和优势。最后,目前对主题技术面临的挑战和吸引不久的将来吸引相当兴趣的未来趋势,可以成为即将到来的研究研究的起点。提供代码的文件可用于:https://github.com/elharroussomar/awesome-panoptic-egation
translated by 谷歌翻译
随着深度卷积神经网络的兴起,对象检测在过去几年中取得了突出的进步。但是,这种繁荣无法掩盖小物体检测(SOD)的不令人满意的情况,这是计算机视觉中臭名昭著的挑战性任务之一,这是由于视觉外观不佳和由小目标的内在结构引起的嘈杂表示。此外,用于基准小对象检测方法基准测试的大规模数据集仍然是瓶颈。在本文中,我们首先对小物体检测进行了详尽的审查。然后,为了催化SOD的发展,我们分别构建了两个大规模的小物体检测数据集(SODA),SODA-D和SODA-A,分别集中在驾驶和空中场景上。 SODA-D包括24704个高质量的交通图像和277596个9个类别的实例。对于苏打水,我们收集2510个高分辨率航空图像,并在9个类别上注释800203实例。众所周知,拟议的数据集是有史以来首次尝试使用针对多类SOD量身定制的大量注释实例进行大规模基准测试。最后,我们评估主流方法在苏打水上的性能。我们预计发布的基准可以促进SOD的发展,并产生该领域的更多突破。数据集和代码将很快在:\ url {https://shaunyuan22.github.io/soda}上。
translated by 谷歌翻译
自治机器人目前是最受欢迎的人工智能问题之一,在过去十年中,从自动驾驶汽车和人形系统到交付机器人和无人机,这是一项最受欢迎的智能问题。部分问题是获得一个机器人,以模仿人类的感知,我们的视觉感,用诸如神经网络等数学模型用相机和大脑的眼睛替换眼睛。开发一个能够在没有人为干预的情况下驾驶汽车的AI和一个小型机器人在城市中递送包裹可能看起来像不同的问题,因此来自感知和视觉的观点来看,这两个问题都有几种相似之处。我们目前的主要解决方案通过使用计算机视觉技术,机器学习和各种算法来实现对环境感知的关注,使机器人理解环境或场景,移动,调整其轨迹并执行其任务(维护,探索,等。)无需人为干预。在这项工作中,我们从头开始开发一个小型自动车辆,能够仅使用视觉信息理解场景,通过工业环境导航,检测人员和障碍,或执行简单的维护任务。我们审查了基本问题的最先进问题,并证明了小规模采用的许多方法类似于来自特斯拉或Lyft等公司的真正自动驾驶汽车中使用的方法。最后,我们讨论了当前的机器人和自主驾驶状态以及我们在这一领域找到的技术和道德限制。
translated by 谷歌翻译