Capturing large fields of view with only one camera is an important aspect in surveillance and automotive applications, but the wide-angle fisheye imagery thus obtained exhibits very special characteristics that may not be very well suited for typical image and video processing methods such as motion estimation. This paper introduces a motion estimation method that adapts to the typical radial characteristics of fisheye video sequences by making use of an equisolid re-projection after moving part of the motion vector search into the perspective domain via a corresponding back-projection. By combining this approach with conventional translational motion estimation and compensation, average gains in luminance PSNR of up to 1.14 dB are achieved for synthetic fish-eye sequences and up to 0.96 dB for real-world data. Maximum gains for selected frame pairs amount to 2.40 dB and 1.39 dB for synthetic and real-world data, respectively.
translated by 谷歌翻译
In video surveillance as well as automotive applications, so-called fisheye cameras are often employed to capture a very wide angle of view. As such cameras depend on projections quite different from the classical perspective projection, the resulting fisheye image and video data correspondingly exhibits non-rectilinear image characteristics. Typical image and video processing algorithms, however, are not designed for these fisheye characteristics. To be able to develop and evaluate algorithms specifically adapted to fisheye images and videos, a corresponding test data set is therefore introduced in this paper. The first of those sequences were generated during the authors' own work on motion estimation for fish-eye videos and further sequences have gradually been added to create a more extensive collection. The data set now comprises synthetically generated fisheye sequences, ranging from simple patterns to more complex scenes, as well as fisheye video sequences captured with an actual fisheye camera. For the synthetic sequences, exact information on the lens employed is available, thus facilitating both verification and evaluation of any adapted algorithms. For the real-world sequences, we provide calibration data as well as the settings used during acquisition. The sequences are freely available via www.lms.lnt.de/fisheyedataset/.
translated by 谷歌翻译
相互预测是实现现代视频编码标准高压效率的关键技术之一。在编码之前,需要将360度视频映射到2D图像平面,以便使用现有的视频编码标准进行压缩。但是,当将球形数据映射到2D图像平面上时不可避免地发生扭曲,但是,损害了经典的中间预测技术的性能。在本文中,我们为360度视频提出了一种运动平面自适应相互预测技术(MPA),该视频考虑了360度视频的球形特征。基于视频的已知投影格式,MPA允许对3D空间中的不同运动平面执行相互预测,而不必在理论上任意映射 - 2D图像表示。我们进一步推导了运动平面自适应运动矢量预测技术(MPA-MVP),该技术允许在不同的运动平面和运动模型之间转换运动信息。我们建议将MPA与MPA-MVP一起集成到最新的H.266/VVC视频编码标准中,根据PSNR,Bjontegaard Delta速率节省了1.72%,峰值为3.97%,为1.56%,峰值为3.97%。基于WS-PSNR的峰值为3.40%,而VTM-14.2平均水平为基础。
translated by 谷歌翻译
包含丰富信息的元素图像和视频需要大量的数据存储和高传输成本。虽然对元素图像编码进行了很多研究,但对元素视频编码的研究非常有限。我们通过查看射线空间域中的问题而不是在常规像素域中的问题来研究元素视频编码的运动补偿。在这里,我们在射线空间运动的两个子轴上,即整数射线空间运动和分数射线空间运动,为Lenslet视频开发了一种新颖的运动补偿方案。拟议的新方案设计了光场运动补偿预测,使其可以轻松地集成到众所周知的视频编码技术中,例如HEVC。与现有方法相比,实验结果显示出显着的压缩效率,平均增益为19.63%,峰值增长率为29.1%。
translated by 谷歌翻译
Block based motion estimation is integral to inter prediction processes performed in hybrid video codecs. Prevalent block matching based methods that are used to compute block motion vectors (MVs) rely on computationally intensive search procedures. They also suffer from the aperture problem, which can worsen as the block size is reduced. Moreover, the block matching criteria used in typical codecs do not account for the resulting levels of perceptual quality of the motion compensated pictures that are created upon decoding. Towards achieving the elusive goal of perceptually optimized motion estimation, we propose a search-free block motion estimation framework using a multi-stage convolutional neural network, which is able to conduct motion estimation on multiple block sizes simultaneously, using a triplet of frames as input. This composite block translation network (CBT-Net) is trained in a self-supervised manner on a large database that we created from publicly available uncompressed video content. We deploy the multi-scale structural similarity (MS-SSIM) loss function to optimize the perceptual quality of the motion compensated predicted frames. Our experimental results highlight the computational efficiency of our proposed model relative to conventional block matching based motion estimation algorithms, for comparable prediction errors. Further, when used to perform inter prediction in AV1, the MV predictions of the perceptually optimized model result in average Bjontegaard-delta rate (BD-rate) improvements of -1.70% and -1.52% with respect to the MS-SSIM and Video Multi-Method Assessment Fusion (VMAF) quality metrics, respectively as compared to the block matching based motion estimation system employed in the SVT-AV1 encoder.
translated by 谷歌翻译
具有基于块体系结构的运动建模已被广泛用于视频编码中,其中框架分为固定尺寸的块,这些块是独立补偿的。这通常会导致编码效率低下,因为固定尺寸的块几乎与对象边界不符。尽管已经引入了层次结构分区来解决这一问题,但运动矢量的增加限制了收益。最近,与立方体分配的图像的近似分割已经普及。可变大小的矩形片段(立方体)不仅容易适应基于块的图像/视频编码技术,而且还可以很好地与对象边界保持一致。这是因为立方分区基于同质性约束,从而最大程度地减少了平方误差的总和(SSE)。在本文中,我们研究了针对可扩展视频编码中使用的固定尺寸块的运动模型的潜力。具体而言,我们使用图片组(GOP)中的锚框的立方分区信息构建了运动补偿帧。然后,预测的当前帧已用作基础层,同时使用可扩展的HEVC编码器编码当前帧作为增强层。实验结果确认4K视频序列上节省了6.71%-10.90%的比特率。
translated by 谷歌翻译
相机万向节系统在各种空气或水系统中非常重要,用于导航,目标跟踪,安全性和监视等应用。由于在短时间内可以重新讨论给定的视野(FOV),因此对于实时应用,对于实时应用,优选用于实时应用的更高的转向速率(旋转角度)。然而,由于Gimbal和场景之间的相对运动在曝光时间期间,捕获的视频帧可能遭受运动模糊。由于大多数后捕获后应用需要模糊图像,因此实时运动脱棕色是重要的需求。尽管存在盲的去欺诈方法,其旨在从模糊输入中检索潜像,因此它们受到非常高维优化的约束,从而产生大的执行时间。另一方面,对于运动去掩盖的深度学习方法,虽然快速,但不令人满意地概括到不同的域(例如,空气,水等)。在这项工作中,我们解决了基于Gimbal的系统捕获的红外线(IR)图像中实时运动去纹的问题。我们揭示了模糊 - 内核的先验知识如何结合非盲去欺诈方法来实现实时性能。重要的是,我们的数学模型可以利用,以创建具有现实万向动动运动模糊的大型数据集。这种数据集是一种罕见的数据集可以是当代深度学习方法的有价值资产。我们表明,与去纹理中的最先进技术相比,我们的方法更适合实用的基于Gimbal的成像系统。
translated by 谷歌翻译
我们提出了Neuricam,这是一种基于钥匙帧的视频超分辨率和着色系统,可从双模式IoT摄像机获得低功耗视频捕获。我们的想法是设计一个双模式摄像机系统,其中第一个模式是低功率(1.1〜MW),但仅输出灰度,低分辨率和嘈杂的视频,第二种模式会消耗更高的功率(100〜MW),但输出会输出。颜色和更高分辨率的图像。为了减少总能源消耗,我们在高功率模式下高功率模式仅输出图像每秒一次。然后将来自该相机系统的数据无线流传输到附近的插入网关,在那里我们运行实时神经网络解码器,以重建更高的分辨率颜色视频。为了实现这一目标,我们基于每个空间位置的特征映射和输入框架的内容之间的相关性,引入了一种注意力特征滤波器机制,该机制将不同的权重分配给不同的特征。我们使用现成的摄像机设计无线硬件原型,并解决包括数据包丢失和透视不匹配在内的实用问题。我们的评估表明,我们的双摄像机硬件可减少相机的能耗,同时在先前的视频超级分辨率方法中获得平均的灰度PSNR增益为3.7〜db,而在现有的颜色传播方法上,我们的灰度尺度PSNR增益为3.7 〜db。开源代码:https://github.com/vb000/neuricam。
translated by 谷歌翻译
The vast majority of Shape-from-Polarization (SfP) methods work under the oversimplified assumption of using orthographic cameras. Indeed, it is still not well understood how to project the Stokes vectors when the incoming rays are not orthogonal to the image plane. We try to answer this question presenting a geometric model describing how a general projective camera captures the light polarization state. Based on the optical properties of a tilted polarizer, our model is implemented as a pre-processing operation acting on raw images, followed by a per-pixel rotation of the reconstructed normal field. In this way, all the existing SfP methods assuming orthographic cameras can behave like they were designed for projective ones. Moreover, our model is consistent with state-of-the-art forward and inverse renderers (like Mitsuba3 and ART), intrinsically enforces physical constraints among the captured channels, and handles demosaicing of DoFP sensors. Experiments on existing and new datasets demonstrate the accuracy of the model when applied to commercially available polarimetric cameras.
translated by 谷歌翻译
捕获比窄FOV相机的宽视野(FOV)相机,其捕获更大的场景区域,用于许多应用,包括3D重建,自动驾驶和视频监控。然而,广角图像包含违反针孔摄像机模型底层的假设的扭曲,导致对象失真,估计场景距离,面积和方向困难,以及防止在未造成的图像上使用现成的深层模型。下游计算机视觉任务。图像整流,旨在纠正这些扭曲,可以解决这些问题。本文从转换模型到整流方法的广角图像整流的全面调查进展。具体地,我们首先介绍了不同方法中使用的相机模型的详细描述和讨论。然后,我们总结了几种失真模型,包括径向失真和投影失真。接下来,我们审查了传统的基于几何图像整流方法和基于深度学习的方法,其中前者将失真参数估计作为优化问题,并且后者通过利用深神经网络的力量来将其作为回归问题。我们评估在公共数据集上最先进的方法的性能,并显示虽然两种方法都可以实现良好的结果,但这些方法仅适用于特定的相机型号和失真类型。我们还提供了强大的基线模型,并对合成数据集和真实世界广角图像进行了对不同失真模型的实证研究。最后,我们讨论了几个潜在的研究方向,预计将来进一步推进这一领域。
translated by 谷歌翻译
由于他们越来越多的可负担性,可移植性和360 {\ DEG}视野,全向360 {\ DEG}图像在计算机视觉,机器人和其他领域找到了许多有希望和激动人心的应用。用于存储,处理和可视化360 {\ DEG}图像的最常用格式是互连的投影(ERP)。然而,由360 {\ DEG}图像引入的非线性映射引入到ERP图像的失真仍然是一种屏障,其容纳作为传统透视图像的易于用作易用的屏障。当估计360 {\ DEG}光流时,这尤其相关,因为需要适当地减去失真。在本文中,我们提出了一种基于切线图像的360 {\ DEG}光学流量。我们的方法利用GNOMONIC投影将ERP图像局部转换为透视图像,并且通过投影将ERP图像均匀地对准CUBEMAP和常规ICOSAHEDRON顶点来逐步地进行逐步改进估计的360 {\ DEG}流场。我们的实验表明了我们所提出的方法的益处,这些方法都是定量和定性的。
translated by 谷歌翻译
可靠地定量自然和人为气体释放(例如,从海底进入海洋的自然和人为气体释放(例如,Co $ _2 $,甲烷),最终是大气,是一个具有挑战性的任务。虽然船舶的回声探测器允许在水中检测水中的自由气,但是即使从较大的距离中,精确量化需要诸如未获得的升高速度和气泡尺寸分布的参数。光学方法的意义上是互补的,即它们可以提供从近距离的单个气泡或气泡流的高时和空间分辨率。在这一贡献中,我们介绍了一种完整的仪器和评估方法,用于光学气泡流特征。专用仪器采用高速深海立体声摄像机系统,可在部署在渗透网站以进行以后的自动分析时录制泡泡图像的Tbleabytes。对于几分钟的短序列可以获得泡特性,然后将仪器迁移到其他位置,或者以自主间隔模式迁移到几天内,以捕获由于电流和压力变化和潮汐循环引起的变化。除了报告泡沫特征的步骤旁边,我们仔细评估了可达准确性并提出了一种新颖的校准程序,因为由于缺乏点对应,仅使用气泡的剪影。该系统已成功运营,在太平洋高达1000万水深,以评估甲烷通量。除了样品结果外,我们还会报告在开发期间汲取的故障案例和经验教训。
translated by 谷歌翻译
光流估计是自动驾驶和机器人系统系统中的一项基本任务,它可以在时间上解释流量场景。自动驾驶汽车显然受益于360 {\ deg}全景传感器提供的超宽视野(FOV)。但是,由于全景相机的独特成像过程,专为针孔图像设计的模型不会令人满意地概括为360 {\ deg}全景图像。在本文中,我们提出了一个新颖的网络框架 - panoflow,以学习全景图像的光流。为了克服全景转化中等应角投影引起的扭曲,我们设计了一种流动失真增强(FDA)方法,其中包含径向流量失真(FDA-R)或等骨流量失真(FDA-E)。我们进一步研究了全景视频的环状光流的定义和特性,并通过利用球形图像的环状来推断360 {\ deg}光流并将大型位移转换为相对小的位移,从而提出了环状流量估计(CFE)方法移位。 Panoflow适用于任何现有的流量估计方法,并从狭窄的FOL流量估计的进度中受益。此外,我们创建并释放基于CARLA的合成全景数据集Flow360,以促进训练和定量分析。 Panoflow在公共Omniflownet和已建立的Flow360基准中实现了最先进的表现。我们提出的方法将Flow360上的端点误差(EPE)降低了27.3%。在Omniflownet上,Panoflow获得了3.17像素的EPE,从最佳发布的结果中降低了55.5%的误差。我们还通过收集工具和公共现实世界中的全球数据集对我们的方法进行定性验证我们的方法,这表明对现实世界导航应用程序的强大潜力和稳健性。代码和数据集可在https://github.com/masterhow/panoflow上公开获取。
translated by 谷歌翻译
运动分析的视频处理解决方案是许多计算机视觉应用中的关键任务,从人为活动识别到对象检测。特别地,速度估计算法可以在街道监测和环境监测等上下文中相关。在大多数现实场景中,帧感兴趣的对象对象平面的投影可能受到与透视变换或周期性行为相关的动态变化的影响。因此,先进的速度估计技术需要依赖于能够处理潜在几何修改的对象检测的鲁棒算法。该方法由一系列预处理操作组成,其旨在减少或忽视影响感兴趣对象的持久性效果,然后基于最大可能性(ml)原理,其中前景对象的速度估计。 ML估计方法代表,实际上,可以被利用以获得可靠的结果来获得可靠的统计工具。所提出的算法的性能在一组真实视频录制上进行评估,并与块匹配的运动估计算法进行比较。所获得的结果表明该方法表现出良好且稳健的性能。
translated by 谷歌翻译
近年来,由于SR数据集的开发和相应的实际SR方法,真实的图像超分辨率(SR)已取得了令人鼓舞的结果。相比之下,真实视频SR领域落后,尤其是对于真实的原始视频。考虑到原始图像SR优于SRGB图像SR,我们构建了一个真实世界的原始视频SR(Real-Rawvsr)数据集,并提出了相应的SR方法。我们利用两个DSLR摄像机和一个梁切口来同时捕获具有2倍,3倍和4倍大型的高分辨率(LR)和高分辨率(HR)原始视频。我们的数据集中有450对视频对,场景从室内到室外各不相同,包括相机和对象运动在内的动作。据我们所知,这是第一个现实世界的RAW VSR数据集。由于原始视频的特征是拜耳模式,因此我们提出了一个两分支网络,该网络既涉及包装的RGGB序列和原始的拜耳模式序列,又涉及两个分支,并且两个分支相互互补。经过提出的共对象,相互作用,融合和重建模块后,我们生成了相应的HR SRGB序列。实验结果表明,所提出的方法优于原始或SRGB输入的基准实体和合成视频SR方法。我们的代码和数据集可在https://github.com/zmzhang1998/real-rawvsr上找到。
translated by 谷歌翻译
当前的极化3D重建方法,包括具有偏振文献的良好形状的方法,均在正交投影假设下开发。但是,在较大的视野中,此假设不存在,并且可能导致对此假设的方法发生重大的重建错误。为了解决此问题,我们介绍适用于透视摄像机的透视相位角(PPA)模型。与拼字法模型相比,提出的PPA模型准确地描述了在透视投影下极化相位角与表面正常之间的关系。此外,PPA模型使得仅从一个单视相位映射估算表面正态,并且不遭受所谓的{\ pi} - ambiguity问题。实际数据上的实验表明,PPA模型对于具有透视摄像机的表面正常估计比拼字法模型更准确。
translated by 谷歌翻译
在许多计算机视觉域中,输入图像必须与针孔相机型号符合,其中现实世界中的直线被投影为图像中的直线。在实时运动广播上执行计算机愿景任务识别算法要求的挑战要求,其中算法不能依赖于特定的校准模式,必须能够应对未知和未校准的相机,源自复杂电视镜头的径向失真,很少有视觉线索以补偿失真,并通过实时绩效的必要性。我们提出了一种基于深度卷积神经网络的单图像自动镜头失真补偿的新方法,能够使用运动广播域的应用领域的多项式变形模型的两个最高阶系数的实时性能和精度。关键词:深卷积神经网络,径向失真,单幅图像整流
translated by 谷歌翻译
全向视频中的光流估计面临两个重要问题:缺乏基准数据集以及调整基于视频的方法以适应全向性质的挑战。本文提出了第一个具有360度视野Flow360的感知上天然合成的全向基准数据集,其中有40个不同的视频和4,000个视频帧。我们在数据集和现有的光流数据集之间进行了全面的特征分析和比较,这些数据集表现出感知现实主义,独特性和多样性。为了适应全向性质,我们提出了一个新颖的暹罗表示学习框架(SLOF)。我们以对比度的方式训练我们的网络,并结合了对比度损失和光流损失的混合损失函数。广泛的实验验证了所提出的框架的有效性,并在最新方法中显示出40%的性能提高。我们的Flow360数据集和代码可在https://siamlof.github.io/上找到。
translated by 谷歌翻译
来自单个运动模糊图像的视频重建是一个具有挑战性的问题,可以增强现有的相机的能力。最近,几种作品使用传统的成像和深度学习解决了这项任务。然而,由于方向模糊和噪声灵敏度,这种纯粹 - 数字方法本质上是有限的。一些作品提出使用非传统图像传感器解决这些限制,然而,这种传感器非常罕见和昂贵。为了使这些限制具有更简单的方法,我们提出了一种用于视频重建的混合光学 - 数字方法,其仅需要对现有光学系统的简单修改。在图像采集期间,在镜头孔径中使用学习的动态相位编码以对运动轨迹进行编码,该运动轨迹用作视频重建过程的先前信息。使用图像到视频卷积神经网络,所提出的计算相机以各种编码运动模糊图像的各种帧速率产生锐帧帧突发。与现有方法相比,我们使用模拟和现实世界的相机原型表现了优势和改进的性能。
translated by 谷歌翻译
传统的视频压缩(VC)方法基于运动补偿变换编码,并且由于端到端优化问题的组合性质,运动估计,模式和量化参数选择的步骤和熵编码是单独优化的。学习VC允许同时对端到端速率失真(R-D)优化非线性变换,运动和熵模型的优化训练。大多数工作都在学习VC基于R-D损耗对连续帧的对考虑连续视频编解码器的端到端优化。它在传统的VC中众所周知的是,双向编码优于顺序压缩,因为它能够使用过去和未来的参考帧。本文提出了一种学习的分层双向视频编解码器(LHBDC),其结合了分层运动补偿预测和端到端优化的益处。实验结果表明,我们达到了迄今为​​止在PSNR和MS-SSIM中的学习VC方案报告的最佳R-D结果。与传统的视频编解码器相比,我们的端到端优化编解码器的RD性能优于PSNR和MS-SSIM中的X265和SVT-HEVC编码器(“非常流”预设)以及MS-中的HM 16.23参考软件。 SSIM。我们提出了由于所提出的新颖工具,例如学习屏蔽,流场附带和时间流量矢量预测等新颖工具,展示了表现出性能提升。重现我们结果的模型和说明可以在https://github.com/makinyilmaz/lhbdc/中找到
translated by 谷歌翻译