本文提出了一种新型电镀摄像机的校准算法,尤其是多焦距配置,其中使用了几种类型的微透镜,仅使用原始图像。电流校准方法依赖于简化投影模型,使用重建图像的功能,或者需要每种类型的微透镜进行分离的校准。在多聚焦配置中,根据微透镜焦距,场景的相同部分将展示不同量的模糊。通常,使用具有最小模糊量的微图像。为了利用所有可用的数据,我们建议在新推出的模糊的模糊(BAP)功能的帮助下,在新的相机模型中明确地模拟Defocus模糊。首先,它用于检索初始相机参数的预校准步骤,而第二步骤,以表达在我们的单个优化过程中最小化的新成本函数。第三,利用它来校准微图像之间的相对模糊。它将几何模糊,即模糊圈链接到物理模糊,即点传播函数。最后,我们使用产生的模糊概况来表征相机的景深。实际数据对受控环境的定量评估展示了我们校准的有效性。
translated by 谷歌翻译
可靠地定量自然和人为气体释放(例如,从海底进入海洋的自然和人为气体释放(例如,Co $ _2 $,甲烷),最终是大气,是一个具有挑战性的任务。虽然船舶的回声探测器允许在水中检测水中的自由气,但是即使从较大的距离中,精确量化需要诸如未获得的升高速度和气泡尺寸分布的参数。光学方法的意义上是互补的,即它们可以提供从近距离的单个气泡或气泡流的高时和空间分辨率。在这一贡献中,我们介绍了一种完整的仪器和评估方法,用于光学气泡流特征。专用仪器采用高速深海立体声摄像机系统,可在部署在渗透网站以进行以后的自动分析时录制泡泡图像的Tbleabytes。对于几分钟的短序列可以获得泡特性,然后将仪器迁移到其他位置,或者以自主间隔模式迁移到几天内,以捕获由于电流和压力变化和潮汐循环引起的变化。除了报告泡沫特征的步骤旁边,我们仔细评估了可达准确性并提出了一种新颖的校准程序,因为由于缺乏点对应,仅使用气泡的剪影。该系统已成功运营,在太平洋高达1000万水深,以评估甲烷通量。除了样品结果外,我们还会报告在开发期间汲取的故障案例和经验教训。
translated by 谷歌翻译
极化成像已应用于越来越多的机器人视觉应用中(例如,水下导航,眩光去除,脱落,对象分类和深度估计)。可以在市场RGB极化摄像机上找到可以在单个快照中捕获颜色和偏振状态的摄像头。由于传感器的特性分散和镜头的使用,至关重要的是校准这些类型的相机以获得正确的极化测量。到目前为止开发的校准方法要么不适合这种类型的相机,要么需要在严格的设置中进行复杂的设备和耗时的实验。在本文中,我们提出了一种新方法来克服对复杂的光学系统有效校准这些相机的需求。我们表明,所提出的校准方法具有多个优点,例如任何用户都可以使用统一的线性极化光源轻松校准相机,而无需任何先验地了解其偏振状态,并且收购数量有限。我们将公开提供校准代码。
translated by 谷歌翻译
We propose a flexible new technique to easily calibrate a camera. It is well suited for use without specialized knowledge of 3D geometry or computer vision. The technique only requires the camera to observe a planar pattern shown at a few (at least two) different orientations. Either the camera or the planar pattern can be freely moved. The motion need not be known. Radial lens distortion is modeled. The proposed procedure consists of a closed-form solution, followed by a nonlinear refinement based on the maximum likelihood criterion. Both computer simulation and real data have been used to test the proposed technique, and very good results have been obtained. Compared with classical techniques which use expensive equipment such as two or three orthogonal planes, the proposed technique is easy to use and flexible. It advances 3D computer vision one step from laboratory environments to real world use.
translated by 谷歌翻译
Lensless cameras are a class of imaging devices that shrink the physical dimensions to the very close vicinity of the image sensor by replacing conventional compound lenses with integrated flat optics and computational algorithms. Here we report a diffractive lensless camera with spatially-coded Voronoi-Fresnel phase to achieve superior image quality. We propose a design principle of maximizing the acquired information in optics to facilitate the computational reconstruction. By introducing an easy-to-optimize Fourier domain metric, Modulation Transfer Function volume (MTFv), which is related to the Strehl ratio, we devise an optimization framework to guide the optimization of the diffractive optical element. The resulting Voronoi-Fresnel phase features an irregular array of quasi-Centroidal Voronoi cells containing a base first-order Fresnel phase function. We demonstrate and verify the imaging performance for photography applications with a prototype Voronoi-Fresnel lensless camera on a 1.6-megapixel image sensor in various illumination conditions. Results show that the proposed design outperforms existing lensless cameras, and could benefit the development of compact imaging systems that work in extreme physical conditions.
translated by 谷歌翻译
现代计算机视觉已超越了互联网照片集的领域,并进入了物理世界,通过非结构化的环境引导配备摄像头的机器人和自动驾驶汽车。为了使这些体现的代理与现实世界对象相互作用,相机越来越多地用作深度传感器,重建了各种下游推理任务的环境。机器学习辅助的深度感知或深度估计会预测图像中每个像素的距离。尽管已经在深入估算中取得了令人印象深刻的进步,但仍然存在重大挑战:(1)地面真相深度标签很难大规模收集,(2)通常认为相机信息是已知的,但通常是不可靠的,并且(3)限制性摄像机假设很常见,即使在实践中使用了各种各样的相机类型和镜头。在本论文中,我们专注于放松这些假设,并描述将相机变成真正通用深度传感器的最终目标的贡献。
translated by 谷歌翻译
使用FASS-MVS,我们提出了一种具有表面感知半全局匹配的快速多视图立体声的方法,其允许从UAV捕获的单眼航空视频数据中快速深度和正常地图估计。反过来,由FASS-MVS估计的数据促进在线3D映射,这意味着在获取或接收到图像数据时立即和递增地生成场景的3D地图。 FASS-MVS由分层处理方案组成,其中深度和正常数据以及相应的置信度分数以粗略的方式估计,允许有效地处理由倾斜图像所固有的大型场景深度低无人机。实际深度估计采用用于致密多图像匹配的平面扫描算法,以产生深度假设,通过表面感知半全局优化来提取实际深度图,从而减少了SGM的正平行偏压。给定估计的深度图,然后通过将深度图映射到点云中并计算狭窄的本地邻域内的普通向量来计算像素 - 方面正常信息。在彻底的定量和消融研究中,我们表明,由FASS-MV计算的3D信息的精度接近离线多视图立体声的最先进方法,误差甚至没有一个幅度而不是科麦。然而,同时,FASS-MVS的平均运行时间估计单个深度和正常地图的距离小于ColMAP的14%,允许在1-中执行全高清图像的在线和增量处理2 Hz。
translated by 谷歌翻译
捕获比窄FOV相机的宽视野(FOV)相机,其捕获更大的场景区域,用于许多应用,包括3D重建,自动驾驶和视频监控。然而,广角图像包含违反针孔摄像机模型底层的假设的扭曲,导致对象失真,估计场景距离,面积和方向困难,以及防止在未造成的图像上使用现成的深层模型。下游计算机视觉任务。图像整流,旨在纠正这些扭曲,可以解决这些问题。本文从转换模型到整流方法的广角图像整流的全面调查进展。具体地,我们首先介绍了不同方法中使用的相机模型的详细描述和讨论。然后,我们总结了几种失真模型,包括径向失真和投影失真。接下来,我们审查了传统的基于几何图像整流方法和基于深度学习的方法,其中前者将失真参数估计作为优化问题,并且后者通过利用深神经网络的力量来将其作为回归问题。我们评估在公共数据集上最先进的方法的性能,并显示虽然两种方法都可以实现良好的结果,但这些方法仅适用于特定的相机型号和失真类型。我们还提供了强大的基线模型,并对合成数据集和真实世界广角图像进行了对不同失真模型的实证研究。最后,我们讨论了几个潜在的研究方向,预计将来进一步推进这一领域。
translated by 谷歌翻译
广播视频中的运动场注册通常被解释为同型估算的任务,该任务在平面场和图像的相应可见区域之间提供了映射。与以前的方法相反,我们将任务视为摄像机校准问题。首先,我们引入了一个可区分的目标函数,该功能能够根据已知校准对象的片段,即运动领域的片段,从段对应(例如,线,点云)中学习相机姿势和焦距。 。校准模块迭代地最小化了由估计的摄像机参数引起的段重新投影误差。其次,我们提出了一种从广播足球图像中进行3D运动场注册的新方法。校准模块不需要任何训练数据,并且与典型的解决方案进行了比较,该解决方案随后完善了初始估计,我们的解决方案在一个步骤中进行。评估了所提出的方法在两个数据集上进行运动现场注册,并与两种最先进的方法相比,取得了优越的结果。
translated by 谷歌翻译
当前的极化3D重建方法,包括具有偏振文献的良好形状的方法,均在正交投影假设下开发。但是,在较大的视野中,此假设不存在,并且可能导致对此假设的方法发生重大的重建错误。为了解决此问题,我们介绍适用于透视摄像机的透视相位角(PPA)模型。与拼字法模型相比,提出的PPA模型准确地描述了在透视投影下极化相位角与表面正常之间的关系。此外,PPA模型使得仅从一个单视相位映射估算表面正态,并且不遭受所谓的{\ pi} - ambiguity问题。实际数据上的实验表明,PPA模型对于具有透视摄像机的表面正常估计比拼字法模型更准确。
translated by 谷歌翻译
通常,非刚性登记的问题是匹配在两个不同点拍摄的动态对象的两个不同扫描。这些扫描可以进行刚性动作和非刚性变形。由于模型的新部分可能进入视图,而其他部件在两个扫描之间堵塞,则重叠区域是两个扫描的子集。在最常规的设置中,没有给出先前的模板形状,并且没有可用的标记或显式特征点对应关系。因此,这种情况是局部匹配问题,其考虑了随后的扫描在具有大量重叠区域的情况下进行的扫描经历的假设[28]。本文在环境中寻址的问题是同时在环境中映射变形对象和本地化摄像机。
translated by 谷歌翻译
The vast majority of Shape-from-Polarization (SfP) methods work under the oversimplified assumption of using orthographic cameras. Indeed, it is still not well understood how to project the Stokes vectors when the incoming rays are not orthogonal to the image plane. We try to answer this question presenting a geometric model describing how a general projective camera captures the light polarization state. Based on the optical properties of a tilted polarizer, our model is implemented as a pre-processing operation acting on raw images, followed by a per-pixel rotation of the reconstructed normal field. In this way, all the existing SfP methods assuming orthographic cameras can behave like they were designed for projective ones. Moreover, our model is consistent with state-of-the-art forward and inverse renderers (like Mitsuba3 and ART), intrinsically enforces physical constraints among the captured channels, and handles demosaicing of DoFP sensors. Experiments on existing and new datasets demonstrate the accuracy of the model when applied to commercially available polarimetric cameras.
translated by 谷歌翻译
我们提出了一种依赖工程点扩散功能(PSF)的紧凑型快照单眼估计技术。微观超分辨率成像中使用的传统方法,例如双螺旋PSF(DHPSF),不适合比稀疏的一组点光源更复杂的场景。我们使用cram \'er-rao下限(CRLB)显示,将DHPSF的两个叶分开,从而捕获两个单独的图像导致深度精度的急剧增加。用于生成DHPSF的相掩码的独特属性是,将相掩码分为两个半部分,导致两个裂片的空间分离。我们利用该属性建立一个基于紧凑的极化光学设置,在该设置中,我们将两个正交线性极化器放在DHPSF相位掩码的每一半上,然后使用极化敏感的摄像机捕获所得图像。模拟和实验室原型的结果表明,与包括DHPSF和Tetrapod PSF在内的最新设计相比,我们的技术达到了高达50美元的深度误差,而空间分辨率几乎没有损失。
translated by 谷歌翻译
使用增强现实(AR)用于导航目的,这表明在手术手术过程中协助医生有益。这些应用通常需要知道外科手术工具和患者的姿势,以提供外科医生在任务执行过程中可以使用的视觉信息。现有的医学级跟踪系统使用放置在手术室内的红外摄像头(OR)来识别感兴趣的对象附加并计算其姿势的复古反射标记。一些市售的AR头式显示器(HMD)使用类似的摄像头进行自定位,手动跟踪和估算对象的深度。这项工作提出了一个使用AR HMD的内置摄像机来准确跟踪复古反射标记的框架,例如在手术过程中使用的标记,而无需集成任何其他组件。该框架还能够同时跟踪多个工具。我们的结果表明,横向翻译的准确度为0.09 +-0.06毫米,可以实现标记的跟踪和检测,纵向翻译的0.42 +-0.32 mm,绕垂直轴旋转的0.80 +-0.39 ver。此外,为了展示所提出的框架的相关性,我们在手术程序的背景下评估了系统的性能。该用例旨在在骨科过程中复制K-Wire插入的场景。为了进行评估,为两名外科医生和一名生物医学研究人员提供了视觉导航,每次都进行了21次注射。该用例的结果提供了与基于AR的导航程序报告的相当精度。
translated by 谷歌翻译
本报告讨论了SBIR阶段的结果,我努力证明了基于微速度计的长波红外(LWIR)探测器灵敏度的显着改善的可行性,特别是对于3D测量。由此产生的低Swap-C热深度感测系统将实现自主空气车辆的态势认识,用于高级空气移动性(AAM)。它将提供周围环境的鲁棒3D信息,包括低对比度静态和移动物体,远距离降低的视觉条件和GPS拒绝区域。我们的多传感器3D感知通过COTS未冷却热传感器启用了LWIR传感器的主要弱点 - 通过增加系统敏感度,对比度为低对比度。没有适用于评估这项技术的可用热图像集,使数据集采集我们的第一个目标。我们讨论了具有十六件640pix x 512pix lwir探测器的原型系统的设计和构造,对子像素分辨率,捕获和处理同步图像的相机校准。结果表明,仅用于胃桶肥无速数据的3.84倍对比度和额外的5.5倍 - 含有三角细胞积累,达到40 mk传感器的系统噪声等效温差(NETD)。
translated by 谷歌翻译
当不可能使用深度传感器时,估计与物体的距离对于自动驾驶至关重要。在这种情况下,必须从车载安装的RGB摄像机估算距离,这是一项复杂的任务,尤其是在天然室外景观等环境中。在本文中,我们提出了一种名为M4Depth的新方法,以进行深度估计。首先,我们建立了两个连续帧的深度与视觉差异之间的徒关系,并展示了如何利用它以执行运动不变的像素深度估计。然后,我们详细介绍了基于金字塔卷积神经网络体系结构的M4DEPTH,每个级别通过使用两个定制的成本量来完善输入差异图估计。我们使用这些成本量来利用运动施加的视觉时空约束,并为各种场景增强网络的稳健性。我们在公共数据集上基准了我们的测试和概括模式的方法,其中包含在各种室外场景中记录的合成相机轨迹。结果表明,我们的网络在这些数据集上的表现优于最新技术,同时在标准深度估计基准上表现良好。我们方法的代码可在https://github.com/michael-fonder/m4depth上公开获得。
translated by 谷歌翻译
从数字艺术到AR和VR体验,图像编辑和合成已经变得无处不在。为了生产精美的复合材料,需要对相机进行几何校准,这可能很乏味,需要进行物理校准目标。代替传统的多图像校准过程,我们建议使用深层卷积神经网络直接从单个图像中直接从单个图像中推断摄像机校准参数,例如音高,滚动,视场和镜头失真。我们使用大规模全景数据集中自动生成样品训练该网络,从而在标准L2误差方面产生了竞争精度。但是,我们认为将这种标准误差指标最小化可能不是许多应用程序的最佳选择。在这项工作中,我们研究了人类对几何相机校准中不准确性的敏感性。为此,我们进行了一项大规模的人类感知研究,我们要求参与者以正确和有偏见的摄像机校准参数判断3D对象的现实主义。基于这项研究,我们为摄像机校准开发了一种新的感知度量,并证明我们的深校准网络在标准指标以及这一新型感知度量方面都优于先前基于单像的校准方法。最后,我们演示了将校准网络用于多种应用程序,包括虚拟对象插入,图像检索和合成。可以在https://lvsn.github.io/deepcalib上获得我们方法的演示。
translated by 谷歌翻译
由于摄像机外壳引起的水 - 空气界面处的光线非线性折射,恢复水下场景的3D几何是具有挑战性的。我们提出了一种基于光场的方法,从单个观点来利用角度样本的性能进行高质量的水下3D重建。具体地,我们将光场图像重新采样到角贴片。由于水下场景表现出弱视图依赖性镜面,在正确的深度上采样时,角度贴片趋于具有均匀的强度。因此,我们将这种角度均匀施加为深度估计的约束。为了高效角度重采样,我们设计一种基于多变量多项式回归的快速近似算法,以实现近似非线性折射路径。我们进一步开发了一种轻场校准算法,估计水上空气接口几何形状以及相机参数。综合性和真实数据的综合实验表明我们的方法在静态和动态水下场景中产生了最先进的重建。
translated by 谷歌翻译
许多移动制造商最近在其旗舰模型中采用了双像素(DP)传感器,以便更快的自动对焦和美学图像捕获。尽管他们的优势,由于DT在DP图像中的视差缺失的数据集和算法设计,但对3D面部理解的使用研究受到限制。这是因为子孔图像的基线非常窄,并且散焦模糊区域存在视差。在本文中,我们介绍了一种以DP为导向的深度/普通网络,该网络重建3D面部几何。为此目的,我们使用我们的多摄像头结构光系统捕获的101人拥有超过135k张图片的DP面部数据。它包含相应的地面真值3D模型,包括度量刻度的深度图和正常。我们的数据集允许建议的匹配网络广泛化,以便以3D面部深度/正常估计。所提出的网络由两种新颖的模块组成:自适应采样模块和自适应正常模块,专门用于处理DP图像中的散焦模糊。最后,该方法实现了最近基于DP的深度/正常估计方法的最先进的性能。我们还展示了估计深度/正常的适用性面对欺骗和致密。
translated by 谷歌翻译
椭圆测量技术允许测量材料的极化信息,需要具有不同灯和传感器配置的光学组件的精确旋转。这会导致繁琐的捕获设备,在实验室条件下仔细校准,并且在很长的获取时间,通常按照每个物体几天的顺序。最近的技术允许捕获偏振偏光的反射率信息,但仅限于单个视图,或涵盖所有视图方向,但仅限于单个均匀材料制成的球形对象。我们提出了稀疏椭圆测量法,这是一种便携式偏光获取方法,同时同时捕获极化SVBRDF和3D形状。我们的手持设备由现成的固定光学组件组成。每个物体的总收购时间在二十分钟之间变化,而不是天数。我们开发了一个完整的极化SVBRDF模型,其中包括分散和镜面成分以及单个散射,并通过生成模型来设计一种新型的极化逆渲染算法,并通过数据增强镜面反射样品的数据增强。我们的结果表明,与现实世界对象捕获的极化BRDF的最新基础数据集有很强的一致性。
translated by 谷歌翻译