自治车辆和机器人需要越来越多的鲁棒性和可靠性,以满足现代任务的需求。这些要求特别适用于相机,因为它们是获取环境和支持行动的信息的主要传感器。相机必须保持适当的功能,并在必要时采取自动对策。但是,几乎没有作品,审查了相机的一般情况监测方法的实际应用,并在设想的高级别应用程序中设计对策。我们为基于数据和物理接地模型的相机提出了一种通用和可解释的自我保健框架。为此,我们通过比较传统和血液的机器学习的方法,确定一种可靠的两种可靠,实时的估计,用于诸如难以释放的情况(Defocus Blur,运动模糊,不同噪声现象和最常见的噪声现象和最常见的组合)的典型图像效果广泛的实验。此外,我们展示了如何根据实验(非线性和非单调)输入 - 输出性能曲线来调整相机参数(例如,曝光时间和ISO增益)以实现最佳的全系统能力,使用对象检测,运动模糊和传感器噪声作为示例。我们的框架不仅提供了一种实用的即用的解决方案,可以评估和维护摄像机的健康,但也可以作为扩展来解决更复杂的问题的基础,以凭经验组合附加的数据源(例如,传感器或环境参数或环境参数)为了获得完全可靠和强大的机器。
translated by 谷歌翻译
使用致动万向节的机械图像稳定使得能够捕获长曝光镜头而不会因相机运动而遭受模糊。然而,这些装置通常是物理上繁琐和昂贵的,限制了他们广泛的使用。在这项工作中,我们建议通过输入快速未稳定的相机的输入来数字化地模拟机械稳定的系统。在短曝光的长曝光和低SNR处开发运动模糊之间的折衷,我们通过聚集由未知运动相关的嘈杂短曝光框架来培训估计尖锐的高SNR图像的CNN。我们进一步建议以端到端的方式学习突发的曝光时间,从而平衡噪声和模糊穿过框架。我们展示了这种方法,通过传统的去掩盖单个图像或在合成和实际数据上去除固定曝光突发的传统方法的优势。
translated by 谷歌翻译
由于捕获的图像中的严重噪音,弱光下的场景推断是一个具有挑战性的问题。减少噪音的一种方法是在捕获过程中使用更长的曝光。但是,在有运动(场景或相机运动)的存在下,较长的暴露会导致运动模糊,从而导致图像信息的丢失。这在这两种图像降解之间创造了权衡取舍:运动模糊(由于长期暴露)与噪声(由于曝光短),也称为本文中的双图像损坏对。随着摄像机的兴起,能够同时捕获同一场景的多次暴露,因此可以克服这一权衡。我们的主要观察结果是,尽管这些不同图像捕获的降解的数量和性质各不相同,但在所有图像中,语义内容保持不变。为此,我们提出了一种方法,以利用这些多曝光捕获在弱光和运动下的鲁棒推理。我们的方法建立在功能一致性损失的基础上,以鼓励这些单个捕获的类似结果,并利用其最终预测的合奏来实现强大的视觉识别。我们证明了方法对模拟图像的有效性以及具有多个暴露的真实捕获,以及对象检测和图像分类的任务。
translated by 谷歌翻译
在本文中,我们描述了如何利用明亮的调制光源(例如,廉价,离心激光器)来利用CMOS图像传感器中的电子滚动快门。我们展示了七种不同CMOS相机的攻击,从IoT廉价到半专业监控摄像机,以突出滚动快门攻击的广泛适用性。我们模拟了影响不受控制的设置中滚动快门攻击的基本因素。然后,我们对对象检测任务的攻击作用进行了详尽的评估,研究了攻击参数的效果。我们验证了我们对两个独立相机收集的经验数据的模型,表明通过简单地使用来自相机数据表的信息,对手可以准确地预测注入的失真大小并相应地优化它们的攻击。我们发现,通过选择适当的攻击参数,对手可以通过最先进的探测器隐藏高达75%的物体。我们还调查了与NA \“{i} vers致盲攻击相比攻击的隐秘,表明常见的图像失真度量无法检测到攻击存在。因此,我们向骨干展示了一种新的,准确和轻巧的增强对象检测器的网络识别滚动快门攻击。总体而言,我们的结果表明,滚动快门攻击可以大大降低基于视觉智能系统的性能和可靠性。
translated by 谷歌翻译
在弱光环境下,手持式摄影在长时间的曝光设置下遭受了严重的相机震动。尽管现有的Deblurry算法在暴露良好的模糊图像上表现出了令人鼓舞的性能,但它们仍然无法应对低光快照。在实用的低光脱毛中,复杂的噪声和饱和区是两个主导挑战。在这项工作中,我们提出了一种称为图像的新型非盲脱毛方法,并具有特征空间Wiener Deonervolution网络(Infwide),以系统地解决这些问题。在算法设计方面,Infwide提出了一个两分支的架构,该体系结构明确消除了噪声并幻觉,使图像空间中的饱和区域抑制了特征空间中的响起文物,并将两个互补输出与一个微妙的多尺度融合网络集成在一起高质量的夜间照片浮雕。为了进行有效的网络培训,我们设计了一组损失功能,集成了前向成像模型和向后重建,以形成近环的正则化,以确保深神经网络的良好收敛性。此外,为了优化Infwide在实际弱光条件下的适用性,采用基于物理过程的低光噪声模型来合成现实的嘈杂夜间照片进行模型训练。利用传统的Wiener Deonervolution算法的身体驱动的特征并引起了深层神经网络的表示能力,Infwide可以恢复细节,同时抑制在脱毛期间的不愉快的人工制品。关于合成数据和实际数据的广泛实验证明了所提出的方法的出色性能。
translated by 谷歌翻译
本文介绍了一种来自单个离焦图像的边缘散焦模糊估计方法。我们首先将位于深度不连续(称为深度边缘的边缘)的边缘区分从近似恒定的深度区域(称为模糊估计的被称为模糊估计的图案边缘)的边缘中的深度不连续性(含义模糊估计是模糊的)。然后,我们仅估计图案边缘的散焦模糊量,并探索基于引导滤波器的内插方案,该导向滤波器防止检测到的深度边缘的数据传播,以获得具有明确定义的对象边界的密集模糊图。两个任务(边缘分类和模糊估计)由深度卷积神经网络(CNNS)执行,该网络(CNN)共享权重以从边缘位置为中心的多尺度补丁学习有意义的本地特征。在自然散焦的图像上的实验表明,该方法提出了优异的最先进(SOTA)方法的定性和定量结果,在运行时间和准确度之间具有良好的折衷。
translated by 谷歌翻译
自动化驾驶系统(广告)开辟了汽车行业的新领域,为未来的运输提供了更高的效率和舒适体验的新可能性。然而,在恶劣天气条件下的自主驾驶已经存在,使自动车辆(AVS)长时间保持自主车辆(AVS)或更高的自主权。本文评估了天气在分析和统计方式中为广告传感器带来的影响和挑战,并对恶劣天气条件进行了解决方案。彻底报道了关于对每种天气的感知增强的最先进技术。外部辅助解决方案如V2X技术,当前可用的数据集,模拟器和天气腔室的实验设施中的天气条件覆盖范围明显。通过指出各种主要天气问题,自主驾驶场目前正在面临,近年来审查硬件和计算机科学解决方案,这项调查概述了在不利的天气驾驶条件方面的障碍和方向的障碍和方向。
translated by 谷歌翻译
信号处理是几乎任何传感器系统的基本组件,具有不同科学学科的广泛应用。时间序列数据,图像和视频序列包括可以增强和分析信息提取和量化的代表性形式的信号。人工智能和机器学习的最近进步正在转向智能,数据驱动,信号处理的研究。该路线图呈现了最先进的方法和应用程序的关键概述,旨在突出未来的挑战和对下一代测量系统的研究机会。它涵盖了广泛的主题,从基础到工业研究,以简明的主题部分组织,反映了每个研究领域的当前和未来发展的趋势和影响。此外,它为研究人员和资助机构提供了识别新前景的指导。
translated by 谷歌翻译
传统摄像机测量图像强度。相比之下,事件相机以异步测量每像素的时间强度变化。恢复事件的强度是一个流行的研究主题,因为重建的图像继承了高动态范围(HDR)和事件的高速属性;因此,它们可以在许多机器人视觉应用中使用并生成慢动作HDR视频。然而,最先进的方法通过训练映射到图像经常性神经网络(RNN)来解决这个问题,这缺乏可解释性并且难以调整。在这项工作中,我们首次展示运动和强度估计的联合问题导致我们以模拟基于事件的图像重建作为可以解决的线性逆问题,而无需训练图像重建RNN。相反,基于古典和学习的图像前导者可以用于解决问题并从重建的图像中删除伪影。实验表明,尽管仅使用来自短时间间隔(即,没有复发连接),但是,尽管只使用来自短时间间隔的数据,所提出的方法会产生视觉质量的图像。我们的方法还可用于提高首先估计图像Laplacian的方法重建的图像的质量;在这里,我们的方法可以被解释为由图像前提引导的泊松重建。
translated by 谷歌翻译
相机万向节系统在各种空气或水系统中非常重要,用于导航,目标跟踪,安全性和监视等应用。由于在短时间内可以重新讨论给定的视野(FOV),因此对于实时应用,对于实时应用,优选用于实时应用的更高的转向速率(旋转角度)。然而,由于Gimbal和场景之间的相对运动在曝光时间期间,捕获的视频帧可能遭受运动模糊。由于大多数后捕获后应用需要模糊图像,因此实时运动脱棕色是重要的需求。尽管存在盲的去欺诈方法,其旨在从模糊输入中检索潜像,因此它们受到非常高维优化的约束,从而产生大的执行时间。另一方面,对于运动去掩盖的深度学习方法,虽然快速,但不令人满意地概括到不同的域(例如,空气,水等)。在这项工作中,我们解决了基于Gimbal的系统捕获的红外线(IR)图像中实时运动去纹的问题。我们揭示了模糊 - 内核的先验知识如何结合非盲去欺诈方法来实现实时性能。重要的是,我们的数学模型可以利用,以创建具有现实万向动动运动模糊的大型数据集。这种数据集是一种罕见的数据集可以是当代深度学习方法的有价值资产。我们表明,与去纹理中的最先进技术相比,我们的方法更适合实用的基于Gimbal的成像系统。
translated by 谷歌翻译
在计算机视觉和邻近字段中,已广泛研究了盲图片脱毛(BID)。投标的现代方法可以分为两类:使用统计推断和数值优化处理单个实例的单个实体方法,以及数据驱动的方法,这些方法可以直接训练深度学习模型来直接删除未来实例。数据驱动的方法可以摆脱得出准确的模型模型的困难,但从根本上受到培训数据的多样性和质量的限制 - 收集足够表达和现实的培训数据是一个坚定的挑战。在本文中,我们专注于保持竞争力和必不可少的单一稳定方法。但是,大多数此类方法没有规定如何处理未知内核大小和实质性噪音,从而排除了实际部署。实际上,我们表明,当核大小被明确指定时,几种最新的(SOTA)单位方法是不稳定的,并且/或噪声水平很高。从积极的一面来看,我们提出了一种实用的出价方法,该方法对这两者都是稳定的,这是同类的。我们的方法建立在最新的思想,即通过整合物理模型和结构深度神经网络而没有额外的培训数据来解决反问题。我们引入了几种关键修改以实现所需的稳定性。与SOTA单位结构以及数据驱动的方法相比,对标准合成数据集以及现实世界中的NTIRE2020和REALBLUR数据集进行了广泛的经验测试。我们方法的代码可在:\ url {https://github.com/sun-unm/blind-image-deblurring}中获得。
translated by 谷歌翻译
Event-based vision has been rapidly growing in recent years justified by the unique characteristics it presents such as its high temporal resolutions (~1us), high dynamic range (>120dB), and output latency of only a few microseconds. This work further explores a hybrid, multi-modal, approach for object detection and tracking that leverages state-of-the-art frame-based detectors complemented by hand-crafted event-based methods to improve the overall tracking performance with minimal computational overhead. The methods presented include event-based bounding box (BB) refinement that improves the precision of the resulting BBs, as well as a continuous event-based object detection method, to recover missed detections and generate inter-frame detections that enable a high-temporal-resolution tracking output. The advantages of these methods are quantitatively verified by an ablation study using the higher order tracking accuracy (HOTA) metric. Results show significant performance gains resembled by an improvement in the HOTA from 56.6%, using only frames, to 64.1% and 64.9%, for the event and edge-based mask configurations combined with the two methods proposed, at the baseline framerate of 24Hz. Likewise, incorporating these methods with the same configurations has improved HOTA from 52.5% to 63.1%, and from 51.3% to 60.2% at the high-temporal-resolution tracking rate of 384Hz. Finally, a validation experiment is conducted to analyze the real-world single-object tracking performance using high-speed LiDAR. Empirical evidence shows that our approaches provide significant advantages compared to using frame-based object detectors at the baseline framerate of 24Hz and higher tracking rates of up to 500Hz.
translated by 谷歌翻译
任何相机的光学元件都会降低照片的清晰度,这是关键的视觉质量标准。该降解的特征是点传播函数(PSF),该函数取决于光的波长,并且在整个成像场中都是可变的。在本文中,我们提出了一个两步方案,以纠正单个RAW或JPEG图像中的光学畸变,即没有相机或镜头上任何事先信息。首先,我们估计当地的高斯模糊内核,以重叠斑块,并通过非盲脱毛技术锐化它们。基于数十个透镜的PSF的测量值,这些模糊内核被建模为由七个参数定义的RGB高斯人。其次,我们使用卷积神经网络去除其余的侧向色差(第一步中未考虑),该网络被训练,可将红色/绿色和蓝色/绿色残留图像最小化。关于合成图像和真实图像的实验表明,这两个阶段的组合产生了一种快速的最新盲目畸变补偿技术,该技术与商业非盲算法竞争。
translated by 谷歌翻译
$ \ Texit {Fermi} $数据中的银河系中多余(GCE)的两个领先假设是一个未解决的微弱毫秒脉冲条件(MSP)和暗物质(DM)湮灭。这些解释之间的二分法通常通过将它们建模为两个单独的发射组分来反映。然而,诸如MSP的点源(PSS)在超微弱的极限中具有统计变质的泊松发射(正式的位置,预期每个来源平均贡献远低于一个光子),导致可能提出问题的歧义如排放是否是PS样或性质中的泊松人。我们提出了一种概念上的新方法,以统一的方式描述PS和泊松发射,并且刚刚从此获得的结果中获得了对泊松组件的约束。为了实现这种方法,我们利用深度学习技术,围绕基于神经网络的方法,用于直方图回归,其表达量数量的不确定性。我们证明我们的方法对许多困扰先前接近的系统,特别是DM / PS误操作来稳健。在$ \ texit {fermi} $数据中,我们发现由$ \ sim4 \ times 10 ^ {-11} \ \ text {counts} \ {counts} \ text {counts} \ text {counts} \ \ text {cm} ^ { - 2} \ \ text {s} ^ { - 1} $(对应于$ \ sim3 - 4 $每pL期望计数),这需要$ n \ sim \ mathcal {o}( 10 ^ 4)$源来解释整个过剩(中位数价值$ n = \文本{29,300} $横跨天空)。虽然微弱,但这种SCD允许我们获得95%信心的Poissonian比赛的约束$ \ eta_p \ leq 66 \%$。这表明大量的GCE通量是由于PSS 。
translated by 谷歌翻译
The last decade has seen an astronomical shift from imaging with DSLR and point-and-shoot cameras to imaging with smartphone cameras. Due to the small aperture and sensor size, smartphone images have notably more noise than their DSLR counterparts. While denoising for smartphone images is an active research area, the research community currently lacks a denoising image dataset representative of real noisy images from smartphone cameras with high-quality ground truth. We address this issue in this paper with the following contributions. We propose a systematic procedure for estimating ground truth for noisy images that can be used to benchmark denoising performance for smartphone cameras. Using this procedure, we have captured a dataset -the Smartphone Image Denoising Dataset (SIDD) -of ~30,000 noisy images from 10 scenes under different lighting conditions using five representative smartphone cameras and generated their ground truth images. We used this dataset to benchmark a number of denoising algorithms. We show that CNN-based methods perform better when trained on our high-quality dataset than when trained using alternative strategies, such as low-ISO images used as a proxy for ground truth data.
translated by 谷歌翻译
由少量镜头组成的全景环形镜头(PAL)在全景周围具有巨大潜力,该镜头围绕着移动和可穿戴设备的传感任务,因为其尺寸很小,并且视野很大(FOV)。然而,由于缺乏畸变校正的镜头,小体积PAL的图像质量仅限于光学极限。在本文中,我们提出了一个环形计算成像(ACI)框架,以打破轻质PAL设计的光学限制。为了促进基于学习的图像恢复,我们引入了基于波浪的模拟管道,用于全景成像,并通过多个数据分布来应对合成间隙。提出的管道可以轻松地适应具有设计参数的任何PAL,并且适用于宽松的设计。此外,我们考虑了全景成像和物理知识学习的物理先验,我们设计了物理知情的图像恢复网络(PI2RNET)。在数据集级别,我们创建了Divpano数据集,其广泛的实验表明,我们提出的网络在空间变化的降级下在全景图像恢复中设置了新的最新技术。此外,对只有3个球形镜头的简单PAL上提议的ACI的评估揭示了高质量全景成像与紧凑设计之间的微妙平衡。据我们所知,我们是第一个探索PAL中计算成像(CI)的人。代码和数据集将在https://github.com/zju-jiangqi/aci-pi2rnet上公开提供。
translated by 谷歌翻译
成功培训端到端的深网进行真实运动去缩合,需要尖锐/模糊的图像对数据集,这些数据集现实且多样化,足以实现概括以实现真实的图像。获得此类数据集仍然是一项具有挑战性的任务。在本文中,我们首先回顾了现有的Deblurring基准数据集的局限性,从泛化到野外模糊图像的角度。其次,我们提出了一种有效的程序方法,以基于一个简单而有效的图像形成模型来生成清晰/模糊的图像对。这允许生成几乎无限的现实和多样化的培训对。我们通过在模拟对上训练现有的DeBlurring架构,并在四个真实模糊图像的标准数据集中对其进行评估,从而证明了所提出的数据集的有效性。我们观察到使用建议方法训练时动态场景的真实运动毛线照片的最终任务的出色概括性能。
translated by 谷歌翻译
深度信息在许多图像处理应用程序中是有用的。然而,由于拍摄图像是在2D成像传感器上投射3D场景的过程,因此深度信息嵌入图像中。从图像中提取深度信息是一个具有挑战性的任务。引导原理是由于散焦引起的蓝色水平与物体和焦平面之间的距离有关。基于该原理和广泛使用的假设,即高斯模糊是散焦模糊的良好模型,我们制定了作为高斯模糊分类问题的空间变化散焦模糊的问题。我们通过培训深度神经网络来解决图像补丁中的20级蓝色蓝色之一来解决问题。我们创建了一个超过500000美元的尺寸为32 \ times32 $的数据集,用于培训和测试几种知名网络模型。我们发现MobileNetv2由于其较低的内存要求和高精度而适用于此应用。训练模型用于确定通过施加迭代加权引导滤波器来改进的贴剂模糊。结果是散焦图,其携带每个像素的模糊度的信息。我们将提出的方法与最先进的技术进行比较,我们展示了其在自适应图像增强,散焦倍率和多聚焦图像融合中的成功应用。
translated by 谷歌翻译
尽管对安全机器学习的重要性,但神经网络的不确定性量化远未解决。估计神经不确定性的最先进方法通常是混合的,将参数模型与显式或隐式(基于辍学的)合并结合。我们采取另一种途径,提出一种新颖的回归任务的不确定量化方法,纯粹是非参数的。从技术上讲,它通过基于辍学的子网分布来捕获梯级不确定性。这是通过一个新目标来实现的,这使得标签分布与模型分布之间的Wasserstein距离最小化。广泛的经验分析表明,在生产更准确和稳定的不确定度估计方面,Wasserstein丢失在香草测试数据以及在分类转移的情况下表现出最先进的方法。
translated by 谷歌翻译
低成本毫米波(MMWAVE)通信和雷达设备的商业可用性开始提高消费市场中这种技术的渗透,为第五代(5G)的大规模和致密的部署铺平了道路(5G) - 而且以及6G网络。同时,普遍存在MMWAVE访问将使设备定位和无设备的感测,以前所未有的精度,特别是对于Sub-6 GHz商业级设备。本文使用MMWAVE通信和雷达设备在基于设备的定位和无设备感应中进行了现有技术的调查,重点是室内部署。我们首先概述关于MMWAVE信号传播和系统设计的关键概念。然后,我们提供了MMWaves启用的本地化和感应方法和算法的详细说明。我们考虑了在我们的分析中的几个方面,包括每个工作的主要目标,技术和性能,每个研究是否达到了一定程度的实现,并且该硬件平台用于此目的。我们通过讨论消费者级设备的更好算法,密集部署的数据融合方法以及机器学习方法的受过教育应用是有前途,相关和及时的研究方向的结论。
translated by 谷歌翻译