源自建筑环境的规律性的线性透视图可用于在线重新校准内在和外在的摄像机参数,但是由于场景中的不规则性,线段估计和背景混乱中的不确定性,这些估计值可能是不可靠的。在这里,我们通过四个计划来应对这一挑战。首先,我们使用PanoContext全景图数据集[27]来策划一个新颖而逼真的平面投影数据集,这些数据集在广泛的场景,焦距和相机姿势上。其次,我们使用这个新颖的数据集和YorkurbandB [4]来系统地评估文献中经常发现的线性透视偏差度量,并表明偏差度量和可能性模型的选择对可靠性具有巨大的影响。第三,我们使用这些发现来创建一个用于在线摄像机校准的新型系统,我们称之为fr,并表明它的表现优于先前的最新状态,从而大大减少了估计的摄像机旋转和焦距的错误。我们的第四个贡献是一种新颖有效的方法来估计不确定性,可以通过战略性地选择用于重新校准的哪种框架来大大提高对性能至关重要的应用程序的在线可靠性。
translated by 谷歌翻译
从数字艺术到AR和VR体验,图像编辑和合成已经变得无处不在。为了生产精美的复合材料,需要对相机进行几何校准,这可能很乏味,需要进行物理校准目标。代替传统的多图像校准过程,我们建议使用深层卷积神经网络直接从单个图像中直接从单个图像中推断摄像机校准参数,例如音高,滚动,视场和镜头失真。我们使用大规模全景数据集中自动生成样品训练该网络,从而在标准L2误差方面产生了竞争精度。但是,我们认为将这种标准误差指标最小化可能不是许多应用程序的最佳选择。在这项工作中,我们研究了人类对几何相机校准中不准确性的敏感性。为此,我们进行了一项大规模的人类感知研究,我们要求参与者以正确和有偏见的摄像机校准参数判断3D对象的现实主义。基于这项研究,我们为摄像机校准开发了一种新的感知度量,并证明我们的深校准网络在标准指标以及这一新型感知度量方面都优于先前基于单像的校准方法。最后,我们演示了将校准网络用于多种应用程序,包括虚拟对象插入,图像检索和合成。可以在https://lvsn.github.io/deepcalib上获得我们方法的演示。
translated by 谷歌翻译
Geometric camera calibration is often required for applications that understand the perspective of the image. We propose perspective fields as a representation that models the local perspective properties of an image. Perspective Fields contain per-pixel information about the camera view, parameterized as an up vector and a latitude value. This representation has a number of advantages as it makes minimal assumptions about the camera model and is invariant or equivariant to common image editing operations like cropping, warping, and rotation. It is also more interpretable and aligned with human perception. We train a neural network to predict Perspective Fields and the predicted Perspective Fields can be converted to calibration parameters easily. We demonstrate the robustness of our approach under various scenarios compared with camera calibration-based methods and show example applications in image compositing.
translated by 谷歌翻译
捕获比窄FOV相机的宽视野(FOV)相机,其捕获更大的场景区域,用于许多应用,包括3D重建,自动驾驶和视频监控。然而,广角图像包含违反针孔摄像机模型底层的假设的扭曲,导致对象失真,估计场景距离,面积和方向困难,以及防止在未造成的图像上使用现成的深层模型。下游计算机视觉任务。图像整流,旨在纠正这些扭曲,可以解决这些问题。本文从转换模型到整流方法的广角图像整流的全面调查进展。具体地,我们首先介绍了不同方法中使用的相机模型的详细描述和讨论。然后,我们总结了几种失真模型,包括径向失真和投影失真。接下来,我们审查了传统的基于几何图像整流方法和基于深度学习的方法,其中前者将失真参数估计作为优化问题,并且后者通过利用深神经网络的力量来将其作为回归问题。我们评估在公共数据集上最先进的方法的性能,并显示虽然两种方法都可以实现良好的结果,但这些方法仅适用于特定的相机型号和失真类型。我们还提供了强大的基线模型,并对合成数据集和真实世界广角图像进行了对不同失真模型的实证研究。最后,我们讨论了几个潜在的研究方向,预计将来进一步推进这一领域。
translated by 谷歌翻译
现代计算机视觉已超越了互联网照片集的领域,并进入了物理世界,通过非结构化的环境引导配备摄像头的机器人和自动驾驶汽车。为了使这些体现的代理与现实世界对象相互作用,相机越来越多地用作深度传感器,重建了各种下游推理任务的环境。机器学习辅助的深度感知或深度估计会预测图像中每个像素的距离。尽管已经在深入估算中取得了令人印象深刻的进步,但仍然存在重大挑战:(1)地面真相深度标签很难大规模收集,(2)通常认为相机信息是已知的,但通常是不可靠的,并且(3)限制性摄像机假设很常见,即使在实践中使用了各种各样的相机类型和镜头。在本论文中,我们专注于放松这些假设,并描述将相机变成真正通用深度传感器的最终目标的贡献。
translated by 谷歌翻译
For a number of tasks, such as 3D reconstruction, robotic interface, autonomous driving, etc., camera calibration is essential. In this study, we present a unique method for predicting intrinsic (principal point offset and focal length) and extrinsic (baseline, pitch, and translation) properties from a pair of images. We suggested a novel method where camera model equations are represented as a neural network in a multi-task learning framework, in contrast to existing methods, which build a comprehensive solution. By reconstructing the 3D points using a camera model neural network and then using the loss in reconstruction to obtain the camera specifications, this innovative camera projection loss (CPL) method allows us that the desired parameters should be estimated. As far as we are aware, our approach is the first one that uses an approach to multi-task learning that includes mathematical formulas in a framework for learning to estimate camera parameters to predict both the extrinsic and intrinsic parameters jointly. Additionally, we provided a new dataset named as CVGL Camera Calibration Dataset [1] which has been collected using the CARLA Simulator [2]. Actually, we show that our suggested strategy out performs both conventional methods and methods based on deep learning on 8 out of 10 parameters that were assessed using both real and synthetic data. Our code and generated dataset are available at https://github.com/thanif/Camera-Calibration-through-Camera-Projection-Loss.
translated by 谷歌翻译
广播视频中的运动场注册通常被解释为同型估算的任务,该任务在平面场和图像的相应可见区域之间提供了映射。与以前的方法相反,我们将任务视为摄像机校准问题。首先,我们引入了一个可区分的目标函数,该功能能够根据已知校准对象的片段,即运动领域的片段,从段对应(例如,线,点云)中学习相机姿势和焦距。 。校准模块迭代地最小化了由估计的摄像机参数引起的段重新投影误差。其次,我们提出了一种从广播足球图像中进行3D运动场注册的新方法。校准模块不需要任何训练数据,并且与典型的解决方案进行了比较,该解决方案随后完善了初始估计,我们的解决方案在一个步骤中进行。评估了所提出的方法在两个数据集上进行运动现场注册,并与两种最先进的方法相比,取得了优越的结果。
translated by 谷歌翻译
在19日期大流行期间,大伦敦政府机构的政策制定者,英国伦敦地区治理机构,依赖于迅速而准确的数据来源。有时很难获得整个城市的大量明确定义的异质活动组成,但是为了学习“忙碌”并因此做出安全的政策决定是必要的。在这个领域,我们项目的一个组成部分是利用现有的基础架构来估计公众的社会距离依从性。我们的方法可以通过现场交通摄像头饲料即可立即采样和伦敦街道上的活动和物理距离的背景化。我们介绍了一个检查和改进现有方法的框架,同时还描述了其在900多个实时提要上的主动部署。
translated by 谷歌翻译
Although recent deep learning-based calibration methods can predict extrinsic and intrinsic camera parameters from a single image, their generalization remains limited by the number and distribution of training data samples. The huge computational and space requirement prevents convolutional neural networks (CNNs) from being implemented in resource-constrained environments. This challenge motivated us to learn a CNN gradually, by training new data while maintaining performance on previously learned data. Our approach builds upon a CNN architecture to automatically estimate camera parameters (focal length, pitch, and roll) using different incremental learning strategies to preserve knowledge when updating the network for new data distributions. Precisely, we adapt four common incremental learning, namely: LwF , iCaRL, LU CIR, and BiC by modifying their loss functions to our regression problem. We evaluate on two datasets containing 299008 indoor and outdoor images. Experiment results were significant and indicated which method was better for the camera calibration estimation.
translated by 谷歌翻译
The vast majority of Shape-from-Polarization (SfP) methods work under the oversimplified assumption of using orthographic cameras. Indeed, it is still not well understood how to project the Stokes vectors when the incoming rays are not orthogonal to the image plane. We try to answer this question presenting a geometric model describing how a general projective camera captures the light polarization state. Based on the optical properties of a tilted polarizer, our model is implemented as a pre-processing operation acting on raw images, followed by a per-pixel rotation of the reconstructed normal field. In this way, all the existing SfP methods assuming orthographic cameras can behave like they were designed for projective ones. Moreover, our model is consistent with state-of-the-art forward and inverse renderers (like Mitsuba3 and ART), intrinsically enforces physical constraints among the captured channels, and handles demosaicing of DoFP sensors. Experiments on existing and new datasets demonstrate the accuracy of the model when applied to commercially available polarimetric cameras.
translated by 谷歌翻译
Line segments are ubiquitous in our human-made world and are increasingly used in vision tasks. They are complementary to feature points thanks to their spatial extent and the structural information they provide. Traditional line detectors based on the image gradient are extremely fast and accurate, but lack robustness in noisy images and challenging conditions. Their learned counterparts are more repeatable and can handle challenging images, but at the cost of a lower accuracy and a bias towards wireframe lines. We propose to combine traditional and learned approaches to get the best of both worlds: an accurate and robust line detector that can be trained in the wild without ground truth lines. Our new line segment detector, DeepLSD, processes images with a deep network to generate a line attraction field, before converting it to a surrogate image gradient magnitude and angle, which is then fed to any existing handcrafted line detector. Additionally, we propose a new optimization tool to refine line segments based on the attraction field and vanishing points. This refinement improves the accuracy of current deep detectors by a large margin. We demonstrate the performance of our method on low-level line detection metrics, as well as on several downstream tasks using multiple challenging datasets. The source code and models are available at https://github.com/cvg/DeepLSD.
translated by 谷歌翻译
在本文中,我们介绍了一种新的方法来估计从一小组头关键点开始的单个图像中的人们的头部姿势。为此目的,我们提出了一种回归模型,其利用2D姿势估计算法自动计算的关键点,并输出由偏航,间距和滚动表示的头部姿势。我们的模型很容易实现和更高效地相对于最先进的最新技术 - 在记忆占用方面的推动和更小的速度更快 - 具有可比的准确性。我们的方法还通过适当设计的损耗功能提供与三个角度相关的异源间不确定性的量度;我们在误差和不确定值之间显示了相关性,因此可以在后续计算步骤中使用这种额外的信息来源。作为示例申请,我们解决了图像中的社交交互分析:我们提出了一种算法,以定量估计人们之间的互动水平,从他们的头部姿势和推理在其相互阵地上。代码可在https://github.com/cantarinigiorgio/hhp-net中获得。
translated by 谷歌翻译
在单个全景图像对3D房间布局的估计中,全局线框可以通过全局线框进行紧密描述。基于此观察,我们提出了一种替代方法,通过对可学习的霍夫变换块中的远程几何模式进行建模,以估算3D空间中的壁。我们将图像特征从库emap瓷砖转换为曼哈顿世界的霍夫空间,并将该功能直接映射到几何输出。卷积层不仅学习了局部梯度式的线特征,而且还利用全局信息成功预测具有简单网络结构的遮挡墙。与以前的大多数工作不同,预测是在每个Cubemap瓷砖上单独执行的,然后组装以获取布局估计。实验结果表明,我们在预测准确性和性能方面获得了可比的结果。代码可在https://github.com/starrah/dmh-net上找到。
translated by 谷歌翻译
相机校准与机器人和计算机视觉算法是一体的,用于从可视输入流中推断场景的几何属性。在实践中,校准是一种艰苦的程序,需要专门的数据收集和仔细调整。每当相机变化的参数时,必须重复该过程,这可能是移动机器人和自主车辆的频繁发生。相反,自我监督的深度和自我运动估计方法可以通过推断优化视图综合目标的每个帧投影模型来绕过明确的校准。在本文中,我们扩展了这种方法,以明确校准野外Raw视频的各种相机。我们提出了一种学习算法,使用高效的一般相机模型来回归每序列校准参数。我们的程序通过子像素再分注意误差实现自校准结果,优于基于其他学习的方法。我们在各种相机几何形状上验证了我们的方法,包括透视,鱼眼和昏迷。最后,我们表明我们的方法导致深度估计下游任务的改进,在EUROC数据集中实现了最先进的计算效率,而不是当代方法。
translated by 谷歌翻译
尽管在过去几年中取得了重大进展,但使用单眼图像进行深度估计仍然存在挑战。首先,训练度量深度预测模型的训练是不算气的,该预测模型可以很好地推广到主要由于训练数据有限的不同场景。因此,研究人员建立了大规模的相对深度数据集,这些数据集更容易收集。但是,由于使用相对深度数据训练引起的深度转移,现有的相对深度估计模型通常无法恢复准确的3D场景形状。我们在此处解决此问题,并尝试通过对大规模相对深度数据进行训练并估算深度转移来估计现场形状。为此,我们提出了一个两阶段的框架,该框架首先将深度预测到未知量表并从单眼图像转移,然后利用3D点云数据来预测深度​​移位和相机的焦距,使我们能够恢复恢复3D场景形状。由于两个模块是单独训练的,因此我们不需要严格配对的培训数据。此外,我们提出了图像级的归一化回归损失和基于正常的几何损失,以通过相对深度注释来改善训练。我们在九个看不见的数据集上测试我们的深度模型,并在零拍摄评估上实现最先进的性能。代码可用:https://git.io/depth
translated by 谷歌翻译
从单个图像中识别3D中的场景和对象是计算机视觉的长期目标,该目标具有机器人技术和AR/VR的应用。对于2D识别,大型数据集和可扩展解决方案已导致前所未有的进步。在3D中,现有的基准尺寸很小,并且方法专门研究几个对象类别和特定域,例如城市驾驶场景。在2D识别的成功中,我们通过引入一个称为Omni3d的大型基准来重新审视3D对象检测的任务。 OMNI3D重新排列并结合了现有的数据集,导致234K图像与超过300万个实例和97个类别相结合。由于相机内在的差异以及场景和对象类型的丰富多样性,因此3d检测到了这种规模的检测具有挑战性。我们提出了一个称为Cube R-CNN的模型,旨在以统一的方法跨相机和场景类型概括。我们表明,Cube R-CNN在较大的Omni3D和现有基准测试方面都优于先前的作品。最后,我们证明OMNI3D是一个用于3D对象识别的功能强大的数据集,表明它可以改善单数据库性能,并可以通过预训练在新的较小数据集上加速学习。
translated by 谷歌翻译
尽管最近的基于学习的校准方法可以从单个图像预测外部和内在的相机参数,但这些方法的准确性在Fisheye图像中劣化。这种劣化是由实际投影和预期投影之间的不匹配引起的。为了解决这个问题,我们提出了一种通用相机模型,具有解决各种类型的失真。我们的通用摄像机模型用于通过相机投影的闭合形式计算基于学习的方法。同时恢复旋转和鱼眼失真,我们提出了一种使用相机模型的基于学习的校准方法。此外,我们提出了一种损失函数,可以减轻四种外在和内在相机参数的误差幅度的偏差。广泛的实验表明,我们所提出的方法在两种大型数据集和由现成的Fisheye相机捕获的图像上表现优于传统方法。此外,我们是第一位分析基于学习的方法的性能的研究人员,使用各种类型的搁板摄像机的投影。
translated by 谷歌翻译
本文提出了一种新型电镀摄像机的校准算法,尤其是多焦距配置,其中使用了几种类型的微透镜,仅使用原始图像。电流校准方法依赖于简化投影模型,使用重建图像的功能,或者需要每种类型的微透镜进行分离的校准。在多聚焦配置中,根据微透镜焦距,场景的相同部分将展示不同量的模糊。通常,使用具有最小模糊量的微图像。为了利用所有可用的数据,我们建议在新推出的模糊的模糊(BAP)功能的帮助下,在新的相机模型中明确地模拟Defocus模糊。首先,它用于检索初始相机参数的预校准步骤,而第二步骤,以表达在我们的单个优化过程中最小化的新成本函数。第三,利用它来校准微图像之间的相对模糊。它将几何模糊,即模糊圈链接到物理模糊,即点传播函数。最后,我们使用产生的模糊概况来表征相机的景深。实际数据对受控环境的定量评估展示了我们校准的有效性。
translated by 谷歌翻译
为了安全操作,机器人必须能够避免在不确定的环境中发生碰撞。现有的不确定性运动计划方法通常会对高斯和障碍几何形状做出保守的假设。尽管视觉感知可以对环境提供更准确的表示,但其用于安全运动计划的使用受到神经网络的固有错误校准的限制以及获得足够数据集的挑战。为了解决这些模仿,我们建议采用经过系统增强数据集训练的深层语义分割网络的合奏,以确保可靠的概率占用信息。为了避免在运动计划中进行保守主义,我们通过基于场景的路径计划方法直接采用了概率感知。速度调度方案被应用于路径上,以确保跟踪不准确的情况。我们证明了系统数据增强与深层合奏结合的有效性以及与最新方法相比的基于方案的计划方法,并在涉及人手的实验中验证了我们的框架。
translated by 谷歌翻译
Estimating 6D poses of objects from images is an important problem in various applications such as robot manipulation and virtual reality. While direct regression of images to object poses has limited accuracy, matching rendered images of an object against the input image can produce accurate results. In this work, we propose a novel deep neural network for 6D pose matching named DeepIM. Given an initial pose estimation, our network is able to iteratively refine the pose by matching the rendered image against the observed image. The network is trained to predict a relative pose transformation using a disentangled representation of 3D location and 3D orientation and an iterative training process. Experiments on two commonly used benchmarks for 6D pose estimation demonstrate that DeepIM achieves large improvements over stateof-the-art methods. We furthermore show that DeepIM is able to match previously unseen objects.
translated by 谷歌翻译