包含丰富信息的元素图像和视频需要大量的数据存储和高传输成本。虽然对元素图像编码进行了很多研究,但对元素视频编码的研究非常有限。我们通过查看射线空间域中的问题而不是在常规像素域中的问题来研究元素视频编码的运动补偿。在这里,我们在射线空间运动的两个子轴上,即整数射线空间运动和分数射线空间运动,为Lenslet视频开发了一种新颖的运动补偿方案。拟议的新方案设计了光场运动补偿预测,使其可以轻松地集成到众所周知的视频编码技术中,例如HEVC。与现有方法相比,实验结果显示出显着的压缩效率,平均增益为19.63%,峰值增长率为29.1%。
translated by 谷歌翻译
相互预测是实现现代视频编码标准高压效率的关键技术之一。在编码之前,需要将360度视频映射到2D图像平面,以便使用现有的视频编码标准进行压缩。但是,当将球形数据映射到2D图像平面上时不可避免地发生扭曲,但是,损害了经典的中间预测技术的性能。在本文中,我们为360度视频提出了一种运动平面自适应相互预测技术(MPA),该视频考虑了360度视频的球形特征。基于视频的已知投影格式,MPA允许对3D空间中的不同运动平面执行相互预测,而不必在理论上任意映射 - 2D图像表示。我们进一步推导了运动平面自适应运动矢量预测技术(MPA-MVP),该技术允许在不同的运动平面和运动模型之间转换运动信息。我们建议将MPA与MPA-MVP一起集成到最新的H.266/VVC视频编码标准中,根据PSNR,Bjontegaard Delta速率节省了1.72%,峰值为3.97%,为1.56%,峰值为3.97%。基于WS-PSNR的峰值为3.40%,而VTM-14.2平均水平为基础。
translated by 谷歌翻译
在光场压缩中,基于图的编码功能强大,可以利用沿着不规则形状的信号冗余并获得良好的能量压实。然而,除了高度复杂性到处理高维图外,它们的图形构造方法对观点之间的差异信息的准确性非常敏感。在计算机软件生成的现实世界光场或合成光场中,由于渐晕效果和两种类型的光场视图之间的视图之间的巨大差异,将视差信息用于超射线投影可能会遭受不准确性。本文介绍了两种新型投影方案,导致差异信息的错误较小,其中一个投影方案还可以显着降低编码器和解码器的时间计算。实验结果表明,与原始投影方案和基于HEVC或基于JPEG PLENO的编码方法相比,使用这些建议可以大大增强超级像素的投影质量,以及率延伸性能。
translated by 谷歌翻译
本文提出了一种新型电镀摄像机的校准算法,尤其是多焦距配置,其中使用了几种类型的微透镜,仅使用原始图像。电流校准方法依赖于简化投影模型,使用重建图像的功能,或者需要每种类型的微透镜进行分离的校准。在多聚焦配置中,根据微透镜焦距,场景的相同部分将展示不同量的模糊。通常,使用具有最小模糊量的微图像。为了利用所有可用的数据,我们建议在新推出的模糊的模糊(BAP)功能的帮助下,在新的相机模型中明确地模拟Defocus模糊。首先,它用于检索初始相机参数的预校准步骤,而第二步骤,以表达在我们的单个优化过程中最小化的新成本函数。第三,利用它来校准微图像之间的相对模糊。它将几何模糊,即模糊圈链接到物理模糊,即点传播函数。最后,我们使用产生的模糊概况来表征相机的景深。实际数据对受控环境的定量评估展示了我们校准的有效性。
translated by 谷歌翻译
Block based motion estimation is integral to inter prediction processes performed in hybrid video codecs. Prevalent block matching based methods that are used to compute block motion vectors (MVs) rely on computationally intensive search procedures. They also suffer from the aperture problem, which can worsen as the block size is reduced. Moreover, the block matching criteria used in typical codecs do not account for the resulting levels of perceptual quality of the motion compensated pictures that are created upon decoding. Towards achieving the elusive goal of perceptually optimized motion estimation, we propose a search-free block motion estimation framework using a multi-stage convolutional neural network, which is able to conduct motion estimation on multiple block sizes simultaneously, using a triplet of frames as input. This composite block translation network (CBT-Net) is trained in a self-supervised manner on a large database that we created from publicly available uncompressed video content. We deploy the multi-scale structural similarity (MS-SSIM) loss function to optimize the perceptual quality of the motion compensated predicted frames. Our experimental results highlight the computational efficiency of our proposed model relative to conventional block matching based motion estimation algorithms, for comparable prediction errors. Further, when used to perform inter prediction in AV1, the MV predictions of the perceptually optimized model result in average Bjontegaard-delta rate (BD-rate) improvements of -1.70% and -1.52% with respect to the MS-SSIM and Video Multi-Method Assessment Fusion (VMAF) quality metrics, respectively as compared to the block matching based motion estimation system employed in the SVT-AV1 encoder.
translated by 谷歌翻译
Capturing large fields of view with only one camera is an important aspect in surveillance and automotive applications, but the wide-angle fisheye imagery thus obtained exhibits very special characteristics that may not be very well suited for typical image and video processing methods such as motion estimation. This paper introduces a motion estimation method that adapts to the typical radial characteristics of fisheye video sequences by making use of an equisolid re-projection after moving part of the motion vector search into the perspective domain via a corresponding back-projection. By combining this approach with conventional translational motion estimation and compensation, average gains in luminance PSNR of up to 1.14 dB are achieved for synthetic fish-eye sequences and up to 0.96 dB for real-world data. Maximum gains for selected frame pairs amount to 2.40 dB and 1.39 dB for synthetic and real-world data, respectively.
translated by 谷歌翻译
The vast majority of Shape-from-Polarization (SfP) methods work under the oversimplified assumption of using orthographic cameras. Indeed, it is still not well understood how to project the Stokes vectors when the incoming rays are not orthogonal to the image plane. We try to answer this question presenting a geometric model describing how a general projective camera captures the light polarization state. Based on the optical properties of a tilted polarizer, our model is implemented as a pre-processing operation acting on raw images, followed by a per-pixel rotation of the reconstructed normal field. In this way, all the existing SfP methods assuming orthographic cameras can behave like they were designed for projective ones. Moreover, our model is consistent with state-of-the-art forward and inverse renderers (like Mitsuba3 and ART), intrinsically enforces physical constraints among the captured channels, and handles demosaicing of DoFP sensors. Experiments on existing and new datasets demonstrate the accuracy of the model when applied to commercially available polarimetric cameras.
translated by 谷歌翻译
光场的传统表示形式可以分为两种类型:显式表示和隐式表示。与将光字段表示为基于子孔图像(SAI)的阵列或微图像(MIS)的透镜图像的明确表示不同,隐式表示将光场视为神经网络,与离散的显式表示相反,这是固有的连续表示。但是,目前,光场的几乎所有隐式表示都利用SAI来训练MLP,以学习从4D空间角坐标到像素颜色的像素映射,这既不紧凑,也不是较低的复杂性。取而代之的是,在本文中,我们提出了Minl,这是一种新型的MI-Wise隐式神经表示,用于训练MLP + CNN,以学习从2D MI坐标到MI颜色的映射。考虑到微图像的坐标,MINL输出相应的微图像的RGB值。 MINL中编码的光场只是训练一个神经网络以回归微图像,而解码过程是一个简单的前馈操作。与普通像素的隐式表示相比,MINL更加紧凑,更高效,具有更快的解码速度(\ textbf {$ \ times $ 80 $ \ sim $ 180}加速)以及更好的视觉质量(\ textbf {1 $ \ \ \ \ \ \ \ \ \ \ \ \ \ \ SIM $ 4DB} PSNR平均改进)。
translated by 谷歌翻译
现代计算机视觉已超越了互联网照片集的领域,并进入了物理世界,通过非结构化的环境引导配备摄像头的机器人和自动驾驶汽车。为了使这些体现的代理与现实世界对象相互作用,相机越来越多地用作深度传感器,重建了各种下游推理任务的环境。机器学习辅助的深度感知或深度估计会预测图像中每个像素的距离。尽管已经在深入估算中取得了令人印象深刻的进步,但仍然存在重大挑战:(1)地面真相深度标签很难大规模收集,(2)通常认为相机信息是已知的,但通常是不可靠的,并且(3)限制性摄像机假设很常见,即使在实践中使用了各种各样的相机类型和镜头。在本论文中,我们专注于放松这些假设,并描述将相机变成真正通用深度传感器的最终目标的贡献。
translated by 谷歌翻译
This paper introduces a learned hierarchical B-frame coding scheme in response to the Grand Challenge on Neural Network-based Video Coding at ISCAS 2023. We address specifically three issues, including (1) B-frame coding, (2) YUV 4:2:0 coding, and (3) content-adaptive variable-rate coding with only one single model. Most learned video codecs operate internally in the RGB domain for P-frame coding. B-frame coding for YUV 4:2:0 content is largely under-explored. In addition, while there have been prior works on variable-rate coding with conditional convolution, most of them fail to consider the content information. We build our scheme on conditional augmented normalized flows (CANF). It features conditional motion and inter-frame codecs for efficient B-frame coding. To cope with YUV 4:2:0 content, two conditional inter-frame codecs are used to process the Y and UV components separately, with the coding of the UV components conditioned additionally on the Y component. Moreover, we introduce adaptive feature modulation in every convolutional layer, taking into account both the content information and the coding levels of B-frames to achieve content-adaptive variable-rate coding. Experimental results show that our model outperforms x265 and the winner of last year's challenge on commonly used datasets in terms of PSNR-YUV.
translated by 谷歌翻译
综合照片 - 现实图像和视频是计算机图形的核心,并且是几十年的研究焦点。传统上,使用渲染算法(如光栅化或射线跟踪)生成场景的合成图像,其将几何形状和材料属性的表示为输入。统称,这些输入定义了实际场景和呈现的内容,并且被称为场景表示(其中场景由一个或多个对象组成)。示例场景表示是具有附带纹理的三角形网格(例如,由艺术家创建),点云(例如,来自深度传感器),体积网格(例如,来自CT扫描)或隐式曲面函数(例如,截短的符号距离)字段)。使用可分辨率渲染损耗的观察结果的这种场景表示的重建被称为逆图形或反向渲染。神经渲染密切相关,并将思想与经典计算机图形和机器学习中的思想相结合,以创建用于合成来自真实观察图像的图像的算法。神经渲染是朝向合成照片现实图像和视频内容的目标的跨越。近年来,我们通过数百个出版物显示了这一领域的巨大进展,这些出版物显示了将被动组件注入渲染管道的不同方式。这种最先进的神经渲染进步的报告侧重于将经典渲染原则与学习的3D场景表示结合的方法,通常现在被称为神经场景表示。这些方法的一个关键优势在于它们是通过设计的3D-一致,使诸如新颖的视点合成捕获场景的应用。除了处理静态场景的方法外,我们还涵盖了用于建模非刚性变形对象的神经场景表示...
translated by 谷歌翻译
传感器是将物理参数或环境特征(例如温度,距离,速度等)转换为可以通过数字测量和处理以执行特定任务的信号的设备。移动机器人需要传感器来测量其环境的属性,从而允许安全导航,复杂的感知和相应的动作以及与填充环境的其他代理的有效相互作用。移动机器人使用的传感器范围从简单的触觉传感器(例如保险杠)到复杂的基于视觉的传感器,例如结构化灯相机。所有这些都提供了可以由机器人计算机处理的数字输出(例如,字符串,一组值,矩阵等)。通常通过使用传感器中包含的数字转换器(ADC)的类似物来离散一个或多个模拟电信号来获得此类输出。在本章中,我们介绍了移动机器人技术中最常见的传感器,并提供了其分类法,基本特征和规格的介绍。对功能和应用程序类型的描述遵循一种自下而上的方法:在描述现实世界传感器之前,介绍了传感器所基于的基本原理和组件,这些传感器通常基于多种技术和基本设备。
translated by 谷歌翻译
传统的视频压缩(VC)方法基于运动补偿变换编码,并且由于端到端优化问题的组合性质,运动估计,模式和量化参数选择的步骤和熵编码是单独优化的。学习VC允许同时对端到端速率失真(R-D)优化非线性变换,运动和熵模型的优化训练。大多数工作都在学习VC基于R-D损耗对连续帧的对考虑连续视频编解码器的端到端优化。它在传统的VC中众所周知的是,双向编码优于顺序压缩,因为它能够使用过去和未来的参考帧。本文提出了一种学习的分层双向视频编解码器(LHBDC),其结合了分层运动补偿预测和端到端优化的益处。实验结果表明,我们达到了迄今为​​止在PSNR和MS-SSIM中的学习VC方案报告的最佳R-D结果。与传统的视频编解码器相比,我们的端到端优化编解码器的RD性能优于PSNR和MS-SSIM中的X265和SVT-HEVC编码器(“非常流”预设)以及MS-中的HM 16.23参考软件。 SSIM。我们提出了由于所提出的新颖工具,例如学习屏蔽,流场附带和时间流量矢量预测等新颖工具,展示了表现出性能提升。重现我们结果的模型和说明可以在https://github.com/makinyilmaz/lhbdc/中找到
translated by 谷歌翻译
神经辐射场(NERFS)产生最先进的视图合成结果。然而,它们慢渲染,需要每像素数百个网络评估,以近似卷渲染积分。将nerfs烘烤到明确的数据结构中实现了有效的渲染,但导致内存占地面积的大幅增加,并且在许多情况下,质量降低。在本文中,我们提出了一种新的神经光场表示,相反,相反,紧凑,直接预测沿线的集成光线。我们的方法支持使用每个像素的单个网络评估,用于小基线光场数据集,也可以应用于每个像素的几个评估的较大基线。在我们的方法的核心,是一个光线空间嵌入网络,将4D射线空间歧管映射到中间可间可动子的潜在空间中。我们的方法在诸如斯坦福光场数据集等密集的前置数据集中实现了最先进的质量。此外,对于带有稀疏输入的面对面的场景,我们可以在质量方面实现对基于NERF的方法具有竞争力的结果,同时提供更好的速度/质量/内存权衡,网络评估较少。
translated by 谷歌翻译
在这项工作中,我们呈现了DCC(更深层兼容的压缩),用于实时无人机的辅助边缘辅助视频分析的一个启用技术,内置于现有编解码器之上。DCC解决了一个重要的技术问题,以将流动的视频从无人机压缩到边缘,而不会严格地在边缘执行的视频分析任务的准确性和及时性。DCC通过流式视频中的每一位对视频分析同样有价值,这是对视频分析的同样有价值,这在传统的分析透视技术编解码器技术上打开了新的压缩室。我们利用特定的无人机的上下文和中级提示,从物体检测中追求保留分析质量所需的自适应保真度。我们在一个展示车辆检测应用中有原型DCC,并验证了其代表方案的效率。DCC通过基线方法减少9.5倍,在最先进的检测精度上,19-683%的速度减少了9.5倍。
translated by 谷歌翻译
在本文中,我们提出了一种基于量化的蒸馏式低级神经辐射场(QDLR-NERF)表示的新型光场压缩方法。当现有的压缩方法编码光场子孔径图像集时,我们提出的方法以神经辐射场(NERF)的形式学习了隐式场景表示,这也可以使视图合成。为了降低其大小,该模型首先是在低级(LR)约束下使用张量列(TT)分解以交替的乘数(ADMM)优化框架进行的。为了进一步降低模型尺寸,需要量化张量列车分解的组件。但是,通过同时考虑低等级约束并考虑到速率受限的权重量化来实现NERF模型的优化是具有挑战性的。为了解决这个困难,我们引入了一个网络蒸馏操作,该操作将低级近似值和网络训练中的权重量化分开。根据LR-NERF的TT分解,将初始LR约束NERF(LR-NERF)的信息提炼为较小尺寸(DLR-NERF)的模型。然后,学会了优化的全局代码簿来量化所有TT组件,从而产生最终的QDLRNERF。实验结果表明,与最先进的方法相比,我们所提出的方法具有更好的压缩效率,并且还具有允许允许具有高质量的任何光场视图的合成。
translated by 谷歌翻译
Lensless cameras are a class of imaging devices that shrink the physical dimensions to the very close vicinity of the image sensor by replacing conventional compound lenses with integrated flat optics and computational algorithms. Here we report a diffractive lensless camera with spatially-coded Voronoi-Fresnel phase to achieve superior image quality. We propose a design principle of maximizing the acquired information in optics to facilitate the computational reconstruction. By introducing an easy-to-optimize Fourier domain metric, Modulation Transfer Function volume (MTFv), which is related to the Strehl ratio, we devise an optimization framework to guide the optimization of the diffractive optical element. The resulting Voronoi-Fresnel phase features an irregular array of quasi-Centroidal Voronoi cells containing a base first-order Fresnel phase function. We demonstrate and verify the imaging performance for photography applications with a prototype Voronoi-Fresnel lensless camera on a 1.6-megapixel image sensor in various illumination conditions. Results show that the proposed design outperforms existing lensless cameras, and could benefit the development of compact imaging systems that work in extreme physical conditions.
translated by 谷歌翻译
低成本毫米波(MMWAVE)通信和雷达设备的商业可用性开始提高消费市场中这种技术的渗透,为第五代(5G)的大规模和致密的部署铺平了道路(5G) - 而且以及6G网络。同时,普遍存在MMWAVE访问将使设备定位和无设备的感测,以前所未有的精度,特别是对于Sub-6 GHz商业级设备。本文使用MMWAVE通信和雷达设备在基于设备的定位和无设备感应中进行了现有技术的调查,重点是室内部署。我们首先概述关于MMWAVE信号传播和系统设计的关键概念。然后,我们提供了MMWaves启用的本地化和感应方法和算法的详细说明。我们考虑了在我们的分析中的几个方面,包括每个工作的主要目标,技术和性能,每个研究是否达到了一定程度的实现,并且该硬件平台用于此目的。我们通过讨论消费者级设备的更好算法,密集部署的数据融合方法以及机器学习方法的受过教育应用是有前途,相关和及时的研究方向的结论。
translated by 谷歌翻译
具有基于块体系结构的运动建模已被广泛用于视频编码中,其中框架分为固定尺寸的块,这些块是独立补偿的。这通常会导致编码效率低下,因为固定尺寸的块几乎与对象边界不符。尽管已经引入了层次结构分区来解决这一问题,但运动矢量的增加限制了收益。最近,与立方体分配的图像的近似分割已经普及。可变大小的矩形片段(立方体)不仅容易适应基于块的图像/视频编码技术,而且还可以很好地与对象边界保持一致。这是因为立方分区基于同质性约束,从而最大程度地减少了平方误差的总和(SSE)。在本文中,我们研究了针对可扩展视频编码中使用的固定尺寸块的运动模型的潜力。具体而言,我们使用图片组(GOP)中的锚框的立方分区信息构建了运动补偿帧。然后,预测的当前帧已用作基础层,同时使用可扩展的HEVC编码器编码当前帧作为增强层。实验结果确认4K视频序列上节省了6.71%-10.90%的比特率。
translated by 谷歌翻译
近年来,Imbersive显示器(例如VR耳机,AR眼镜,多视图显示器,自由点电视)已成为一种新的展示技术,与传统显示相比,提供了更好的视觉体验和观众的参与度。随着3D视频和展示技术的发展,高动态范围(HDR)摄像机和显示器的消费市场迅速增长。缺乏适当的实验数据是3D HDR视频技术领域的主要研究工作的关键障碍。同样,足够的现实世界多曝光实验数据集的不可用是用于HDR成像研究的主要瓶颈,从而限制了观众的体验质量(QOE)。在本文中,我们介绍了在印度理工学院马德拉斯校园内捕获的多元化立体曝光数据集,该数据集是多元化的动植物的所在地。该数据集使用ZED立体相机捕获,并提供户外位置的复杂场景,例如花园,路边景观,节日场地,建筑物和室内地区,例如学术和居住区。提出的数据集可容纳宽深度范围,复杂的深度结构,使物体运动复杂化,照明变化,丰富的色彩动态,纹理差异,除了通过移动摄像机和背景运动引入的显着随机性。拟议的数据集可公开向研究界公开使用。此外,详细描述了捕获,对齐和校准多曝光立体视频和图像的过程。最后,我们讨论了有关HDR成像,深度估计,一致的音调映射和3D HDR编码的进度,挑战,潜在用例和未来研究机会。
translated by 谷歌翻译