智能论文笔记

GPU-accelerated SIFT-aided source identification of stabilized videos

Andrea Montibeller , Cecilia Pasquini , Giulia Boato , Stefano Dell'Anna , Fernando Pérez-González

分类：计算机视觉

2022-07-29

视频稳定是现代采集设备通常应用的相机内处理。尽管显着提高了所得视频的视觉质量，但已显示此类操作通常阻碍对视频信号的法医分析。实际上，通常基于照片响应不均匀性（PRNU）的采集来源的正确识别应受到稳定阶段应用于每个帧的转换的估计。已经提出了许多用于处理此问题的技术，但是由于反转参数空间的网格搜索，通常会遭受高计算负担。我们的工作试图通过利用图形处理单元（GPU）（通常用于深度学习应用程序）的平行化功能来减轻这些缺点，这是在稳定框架倒置的框架内。此外，我们建议利用SIFT功能{估计相机动量和}％，以识别较少稳定的时间段，从而实现更准确的识别分析，并有效地初始化连续帧的框架参数搜索。在合并基准数据集上进行的实验证实了拟议方法在减少所需的计算时间和提高源识别精度方面的有效性。 {代码可在\ url {https://github.com/amontib/gpu-prnu-sift}}中获得。

translated by 谷歌翻译

A comparison study of CNN denoisers on PRNU extraction

Hui Zeng , Morteza Darvish Morshedi Hosseini , Kang Deng , Anjie Peng , Miroslav Goljan

分类：计算机视觉

2021-12-06

基于传感器的相机识别（SCI）方法的性能严重依赖于估计光响应非均匀性（PRNU）的去噪滤波器。鉴于各种对提高提取的PRNU质量的尝试，它仍然存在于低分辨率图像和高计算需求中的不令人满意的性能。利用PRNU估计和图像去噪的相似性，利用了基于PRNU提取的卷积神经网络（CNN）的最新成就。本文在公共“德累斯顿图像数据库”上对SCI性能进行了对比较评估。我们的研究结果是两倍。从一个方面，来自图像内容的PRNU提取和图像去噪分开噪声。因此，如果仔细培训，SCI可以从最近的CNN Denoisers受益。从另一方面，PRNU提取和图像去噪的目标和场景是不同的，因为一个优化噪声质量和另一个优化图像质量。当CNN Denoisers用于PRNU估计时，需要精心定制的培训。理论上和实际评估培训数据准备和损失功能设计的替代策略。我们指出，用图像 - PRNU对喂养CNN，并以基于相关的损耗函数训练它们导致最好的PRNU估计性能。为了便于对SCI的进一步研究，我们还提出了一种最小损失相机指纹量化方案，我们使用该量化方案将指纹保存为PNG格式的图像文件。此外，我们从“德累斯顿图像数据库”公开可用的相机的量化指纹。

translated by 谷歌翻译

Maximum Likelihood Speed Estimation of Moving Objects in Video Signals

Veronica Mattioli , Davide Alinovi , Riccardo Raheli

分类：计算机视觉

2020-03-10

运动分析的视频处理解决方案是许多计算机视觉应用中的关键任务，从人为活动识别到对象检测。特别地，速度估计算法可以在街道监测和环境监测等上下文中相关。在大多数现实场景中，帧感兴趣的对象对象平面的投影可能受到与透视变换或周期性行为相关的动态变化的影响。因此，先进的速度估计技术需要依赖于能够处理潜在几何修改的对象检测的鲁棒算法。该方法由一系列预处理操作组成，其旨在减少或忽视影响感兴趣对象的持久性效果，然后基于最大可能性（ml）原理，其中前景对象的速度估计。 ML估计方法代表，实际上，可以被利用以获得可靠的结果来获得可靠的统计工具。所提出的算法的性能在一组真实视频录制上进行评估，并与块匹配的运动估计算法进行比较。所获得的结果表明该方法表现出良好且稳健的性能。

translated by 谷歌翻译

Beyond PRNU: Learning Robust Device-Specific Fingerprint for Source Camera Identification

Manisha , Chang-Tsun Li , Xufeng Lin , Karunakar A. Kotegar

分类：计算机视觉

2021-11-03

源相机识别工具辅助图像法医调查人员将讨论的图像与可疑摄像机相关联。已经基于在获取期间图像中留下的微妙迹线的分析来开发了各种技术。由传感器缺陷引起的照片响应非均匀性（PRNU）噪声模式已被证明是识别源相机的有效方法。现有文献表明，PRNU是唯一是特定于设备的指纹，并且能够识别确切的源设备。然而，PRNU易受相机设置，图像内容，图像处理操作和反务攻击的影响。法医调查员不知道反务攻击或附带图像操纵有误导的风险。两个PRNU匹配期间的空间同步要求也代表了PRNU的一个主要限制。近年来，基于深度学习的方法在识别源相机模型方面取得了成功。然而，通过这些数据驱动方法识别相同模型的各个摄像机仍然不令人满意。在本文中，我们可以在数字图像中阐明能够识别相同模型的各个摄像机的数字图像中的新的强大数据驱动设备特定指纹。发现新设备指纹是独立于无关的，随机性的，全局可用，解决空间同步问题。与驻留在高频带中的PRNU不同，从低频和中频频带提取新的设备指纹，这解析了PRNU无法抗争的脆弱问题。我们对各种数据集的实验表明，新的指纹对图像操纵具有高度弹性，例如旋转，伽马校正和侵略性JPEG压缩。

translated by 谷歌翻译

Homography Decomposition Networks for Planar Object Tracking

Xinrui Zhan , Yueran Liu , Jianke Zhu , Yang Li

分类：计算机视觉 | 机器人

2021-12-15

Planar对象跟踪在AI应用中起重要作用，例如机器人，视觉伺服和视觉SLAM。虽然前面的平面跟踪器在大多数情况下工作都很好，但由于两个连续帧之间的运动快，转换大，仍然是一个具有挑战性的任务。当同位参数空间的搜索范围变大时，这种问题背后面的基本原因是这种非线性系统的条件数不稳定地改变。为此，我们提出了一种新颖的单独分解网络〜（HDN）方法，通过将同性转换分解为两组，通过分解单独转换来稳定地减小和稳定条件号。具体地，设计相似性转换估计器被深度卷积设备网络预先预测第一组。通过利用高置信度的尺度和旋转估计，通过简单的回归模型估计残余转换。此外，所提出的端到端网络以半监督方式培训。广泛的实验表明，我们所提出的方法在挑战池，UCSB和诗歌数据集的大幅度上表现出最先进的平面跟踪方法。

translated by 谷歌翻译

Amplitude SAR Imagery Splicing Localization

Edoardo Daniele Cannas , Nicolò Bonettini , Sara Mandelli , Paolo Bestagini , Stefano Tubaro

分类：计算机视觉

2022-01-07

合成孔径雷达（SAR）图像是各种任务的有价值资产。在过去的几年里，许多网站以易于管理产品的形式免费提供它们，倾向于在SAR领域的广泛扩散和研究工作。这些机会的缺点是，这些图像可能会被恶意用户暴露于伪造和操纵，提高对他们的诚信和可信度的新担忧。到目前为止，多媒体取证文献提出了各种技术来定位自然照片中的操纵，但从未调查过SAR图像的完整性评估。此任务构成了新的挑战，因为SAR图像是由处理链完全不同于自然照片的图像。这意味着对于自然图像开发的许多取证方法不保证成功。在本文中，我们研究了SAR图像拼接定位问题的问题。我们的目标是本地化已经复制和粘贴了从另一个图像复制和粘贴的幅度SAR图像的区域，可能正在进行该过程中的某种编辑。为此，我们利用卷积神经网络（CNN）来提取在分析的输入的处理迹线中突出的指纹突出显示。然后，我们检查该指纹以产生二进制篡改掩模，指示拼接攻击下的像素区域。结果表明，我们提出的方法，针对SAR信号的性质量身定制，提供比为自然图像开发的最先进的法医工具更好的表现。

translated by 谷歌翻译

C2CL: Contact to Contactless Fingerprint Matching

Steven A. Grosz , Joshua J. Engelsma , Eryun Liu , Anil K. Jain

分类：计算机视觉 | 机器学习

2021-04-06

匹配的非接触式指纹或手指照片到基于接触的指纹印象在Covid-19尾之后，由于非接触式采集的优越性卫生以及能够以足够的分辨率捕获指纹照片的低成本移动电话的广泛可用性用于验证目的。本文介绍了一个名为C2CL的端到端自动化系统，包括移动手指照片捕获应用，预处理和匹配算法，以处理抑制先前交叉匹配方法的挑战;即i）低脊谷非接触式指纹对比，II）不同卷，俯仰，偏航和手指的距离，III的距离，III）非线性扭曲的基于接触的指纹，和VI）智能手机的不同图像质量。相机。我们的预处理算法段，增强，尺度和不可接受的非接触式指纹，而我们的匹配算法提取细节和纹理表示。使用我们的移动捕获App获取的206个受理接触式2D指纹和基于相应的基于接触的指纹的DataSet和来自206个受试者（每个受试者的2拇指和2个索引手指的指纹）用于评估我们所提出的算法的跨数据库性能。此外，在3个公共数据集上的额外实验结果表明，最先进的与非接触式指纹匹配（焦油为96.67％至98.30％，= 0.01％的焦油）显着提高。

translated by 谷歌翻译

Learning-Based Keypoint Registration for Fetoscopic Mosaicking

Alessandro Casella , Sophia Bano , Francisco Vasconcelos , Anna L. David , Dario Paladini , Jan Deprest , Elena De Momi , Leonardo S. Mattos , Sara Moccia , Danail Stoyanov

分类：计算机视觉

2022-07-26

在双胞胎输血综合征（TTTS）中，单座管胎盘中的异常血管吻合可能会在两个胎儿之间产生不均匀的流量。在当前的实践中，通过使用激光消融闭合异常吻合来对TTT进行手术治疗。该手术在最小的侵入性中依赖于胎儿镜检查。有限的视野使吻合术识别成为外科医生的具有挑战性的任务。为了应对这一挑战，我们提出了一个基于学习的框架，用于视野扩展的体内胎儿镜框架注册。该框架的新颖性依赖于基于学习的关键点提案网络以及基于胎儿镜图像细分和（ii）不一致的同符的编码策略（i）无关的关键点。我们在来自6个不同女性的6个TTT手术的6个术中序列的数据集中验证了我们的框架，这是根据最新的最新算法状态，该算法依赖于胎盘血管的分割。与艺术的状态相比，提出的框架的性能更高，为稳健的马赛克在TTTS手术期间提供背景意识铺平了道路。

translated by 谷歌翻译

A View Independent Classification Framework for Yoga Postures

Mustafa Chasmai , Nirjhar Das , Aman Bhardwaj , Rahul Garg

分类：计算机视觉 | 人工智能 | 机器学习

2022-06-27

瑜伽是全球广受好评的，广泛推荐的健康生活实践。在执行瑜伽时保持正确的姿势至关重要。在这项工作中，我们采用了从人类姿势估计模型中的转移学习来提取整个人体的136个关键点，以训练一个随机的森林分类器，该分类器用于估算瑜伽室。在内部收集的内部收集的瑜伽视频数据库中评估了结果，该数据库是从4个不同的相机角度记录的51个主题。我们提出了一个三步方案，用于通过对1）看不见的帧，2）看不见的受试者进行测试来评估瑜伽分类器的普遍性。我们认为，对于大多数应用程序，对看不见的主题的验证精度和看不见的摄像头是最重要的。我们经验分析了三个公共数据集，转移学习的优势以及目标泄漏的可能性。我们进一步证明，分类精度在很大程度上取决于所采用的交叉验证方法，并且通常会产生误导。为了促进进一步的研究，我们已公开提供关键点数据集和代码。

translated by 谷歌翻译

Image-based monitoring of bolt loosening through deep-learning-based integrated detection and tracking

Xiao Pan , T. Y. Yang

分类：计算机视觉

2021-11-16

结构螺栓是在不同结构元件中使用的关键部件，例如光束柱连接和摩擦阻尼装置。结构螺栓中的夹紧力受到螺栓旋转的高度影响。关于螺栓旋转估计的大部分基于视觉的研究依赖于传统的计算机视觉算法，例如Hough变换以评估螺栓的静态图像。这需要仔细的图像预处理，并且在复杂的螺栓组件的情况下或在周围的物体和背景噪声存在下可能无法表现良好，从而阻碍了其现实世界的应用。在本研究中，提出了一种集成的实时检测轨迹方法，即RTDT-BOLT，以监测螺栓旋转角度。首先，建立并培训基于基于yolov3-tiny的基于yolov3-tiny的对象检测器以定位结构螺栓。然后，实现基于光流的目标无目标物体跟踪算法，以连续监测和量化结构螺栓的旋转。为了提高跟踪性能和跟踪期间的潜在照明改变，yolov3-tiny与光流跟踪算法集成在跟踪丢失时重新检测螺栓。进行广泛的参数研究以确定最佳的跟踪性能并检查潜在的限制。结果表明RTDT - 螺栓方法可以大大提高螺栓旋转的跟踪性能，这可以使用参数推荐范围实现超过90％的精度。

translated by 谷歌翻译

NeuriCam: Video Super-Resolution and Colorization Using Key Frames

Bandhav Veluri , Ali Saffari , Collin Pernu , Joshua Smith , Michael Taylor , Shyamnath Gollakota

分类：计算机视觉

2022-07-25

我们提出了Neuricam，这是一种基于钥匙帧的视频超分辨率和着色系统，可从双模式IoT摄像机获得低功耗视频捕获。我们的想法是设计一个双模式摄像机系统，其中第一个模式是低功率（1.1〜MW），但仅输出灰度，低分辨率和嘈杂的视频，第二种模式会消耗更高的功率（100〜MW），但输出会输出。颜色和更高分辨率的图像。为了减少总能源消耗，我们在高功率模式下高功率模式仅输出图像每秒一次。然后将来自该相机系统的数据无线流传输到附近的插入网关，在那里我们运行实时神经网络解码器，以重建更高的分辨率颜色视频。为了实现这一目标，我们基于每个空间位置的特征映射和输入框架的内容之间的相关性，引入了一种注意力特征滤波器机制，该机制将不同的权重分配给不同的特征。我们使用现成的摄像机设计无线硬件原型，并解决包括数据包丢失和透视不匹配在内的实用问题。我们的评估表明，我们的双摄像机硬件可减少相机的能耗，同时在先前的视频超级分辨率方法中获得平均的灰度PSNR增益为3.7〜db，而在现有的颜色传播方法上，我们的灰度尺度PSNR增益为3.7 〜db。开源代码：https：//github.com/vb000/neuricam。

translated by 谷歌翻译

GlobalFlowNet: Video Stabilization using Deep Distilled Global Motion Estimates

Jerin Geo James , Devansh Jain , Ajit Rajwade

分类：计算机视觉 | 机器学习

2022-10-25

Videos shot by laymen using hand-held cameras contain undesirable shaky motion. Estimating the global motion between successive frames, in a manner not influenced by moving objects, is central to many video stabilization techniques, but poses significant challenges. A large body of work uses 2D affine transformations or homography for the global motion. However, in this work, we introduce a more general representation scheme, which adapts any existing optical flow network to ignore the moving objects and obtain a spatially smooth approximation of the global motion between video frames. We achieve this by a knowledge distillation approach, where we first introduce a low pass filter module into the optical flow network to constrain the predicted optical flow to be spatially smooth. This becomes our student network, named as \textsc{GlobalFlowNet}. Then, using the original optical flow network as the teacher network, we train the student network using a robust loss function. Given a trained \textsc{GlobalFlowNet}, we stabilize videos using a two stage process. In the first stage, we correct the instability in affine parameters using a quadratic programming approach constrained by a user-specified cropping limit to control loss of field of view. In the second stage, we stabilize the video further by smoothing global motion parameters, expressed using a small number of discrete cosine transform coefficients. In extensive experiments on a variety of different videos, our technique outperforms state of the art techniques in terms of subjective quality and different quantitative measures of video stability. The source code is publicly available at \href{https://github.com/GlobalFlowNet/GlobalFlowNet}{https://github.com/GlobalFlowNet/GlobalFlowNet}

translated by 谷歌翻译

Roadmap on Signal Processing for Next Generation Measurement Systems

D. K. Iakovidis , M. Ooi , Y. C. Kuang , S. Damidenko , A. Shestakov , V. Sinistin , M. Henry , A. Sciacchitano , A. Discetti , S. Donati

分类：人工智能 | 计算机视觉

2021-11-03

信号处理是几乎任何传感器系统的基本组件，具有不同科学学科的广泛应用。时间序列数据，图像和视频序列包括可以增强和分析信息提取和量化的代表性形式的信号。人工智能和机器学习的最近进步正在转向智能，数据驱动，信号处理的研究。该路线图呈现了最先进的方法和应用程序的关键概述，旨在突出未来的挑战和对下一代测量系统的研究机会。它涵盖了广泛的主题，从基础到工业研究，以简明的主题部分组织，反映了每个研究领域的当前和未来发展的趋势和影响。此外，它为研究人员和资助机构提供了识别新前景的指导。

translated by 谷歌翻译

Visual Object Tracking with Discriminative Filters and Siamese Networks: A Survey and Outlook

Sajid Javed , Martin Danelljan , Fahad Shahbaz Khan , Muhammad Haris Khan , Michael Felsberg , Jiri Matas

分类：计算机视觉

2021-12-06

准确且强大的视觉对象跟踪是最具挑战性和最基本的计算机视觉问题之一。它需要在图像序列中估计目标的轨迹，仅给出其初始位置和分段，或者在边界框的形式中粗略近似。判别相关滤波器（DCF）和深度暹罗网络（SNS）被出现为主导跟踪范式，这导致了重大进展。在过去十年的视觉对象跟踪快速演变之后，该调查介绍了90多个DCFS和暹罗跟踪器的系统和彻底审查，基于九个跟踪基准。首先，我们介绍了DCF和暹罗跟踪核心配方的背景理论。然后，我们在这些跟踪范式中区分和全面地审查共享以及具体的开放研究挑战。此外，我们彻底分析了DCF和暹罗跟踪器对九个基准的性能，涵盖了视觉跟踪的不同实验方面：数据集，评估度量，性能和速度比较。通过提出根据我们的分析提出尊重开放挑战的建议和建议来完成调查。

translated by 谷歌翻译

A Deep Moving-camera Background Model

Guy Erez , Ron Shapira Weber , Oren Freifeld

分类：计算机视觉

2022-09-16

在视频分析中，背景模型具有许多应用，例如背景/前景分离，变更检测，异常检测，跟踪等。但是，尽管在静态相机捕获的视频中学习这种模型是一项公认的任务，但在移动相机背景模型（MCBM）的情况下，由于算法和可伸缩性挑战，成功率更加重要。由于相机运动而产生。因此，现有的MCBM在其范围和受支持的摄像头类型的限制中受到限制。这些障碍还阻碍了基于深度学习（DL）的端到端解决方案的这项无监督的任务。此外，现有的MCBM通常会在典型的大型全景图像或以在线方式的域名上建模背景。不幸的是，前者造成了几个问题，包括可扩展性差，而后者则阻止了对摄像机重新审视场景先前看到部分的案例的识别和利用。本文提出了一种称为DEEPMCBM的新方法，该方法消除了上述所有问题并实现最新结果。具体而言，首先，我们确定与一般和DL设置的视频帧联合对齐相关的困难。接下来，我们提出了一种新的联合一致性策略，使我们可以使用具有正则化的空间变压器网，也不是任何形式的专业化（且不差异）的初始化。再加上在不破坏的稳健中央矩（从关节对齐中获得）的自动编码器，这产生了一个无端到端的无端正规化MCBM，该MCBM支持广泛的摄像机运动并优雅地缩放。我们在各种视频上展示了DEEPMCBM的实用程序，包括超出其他方法范围的视频。我们的代码可在https://github.com/bgu-cs-vil/deepmcbm上找到。

translated by 谷歌翻译

Skin feature point tracking using deep feature encodings

Jose Ramon Chang , Torbjörn E. M. Nordling

分类：计算机视觉 | 人工智能 | 机器学习

2021-12-28

面部特征跟踪是成像跳芭式（BCG）的关键组成部分，其中需要精确定量面部关键点的位移，以获得良好的心率估计。皮肤特征跟踪能够在帕金森病中基于视频的电机降解量化。传统的计算机视觉算法包括刻度不变特征变换（SIFT），加速强大的功能（冲浪）和LUCAS-KANADE方法（LK）。这些长期代表了最先进的效率和准确性，但是当存在常见的变形时，如图所示，如图所示，如此。在过去的五年中，深度卷积神经网络对大多数计算机视觉任务的传统方法表现优于传统的传统方法。我们提出了一种用于特征跟踪的管道，其应用卷积堆积的AutoEncoder，以将图像中最相似的裁剪标识到包含感兴趣的特征的参考裁剪。 AutoEncoder学会将图像作物代表到特定于对象类别的深度特征编码。我们在面部图像上培训AutoEncoder，并验证其在手动标记的脸部和手视频中通常验证其跟踪皮肤功能的能力。独特的皮肤特征（痣）的跟踪误差是如此之小，因为我们不能排除他们基于$ \ chi ^ 2 $ -test的手动标签。对于0.6-4.2像素的平均误差，我们的方法在所有情况下都表现出了其他方法。更重要的是，我们的方法是唯一一个不分歧的方法。我们得出的结论是，我们的方法为特征跟踪，特征匹配和图像配准比传统算法创建更好的特征描述符。

translated by 谷歌翻译

Self-Supervised Endoscopic Image Key-Points Matching

Manel Farhat , Houda Chaabouni-Chouayakh , Achraf Ben-Hamadou

分类：计算机视觉

2022-08-24

在许多临床应用中，内窥镜图像之间的特征匹配和查找对应关系是从临床序列中进行快速异常定位的许多临床应用中的关键步骤。尽管如此，由于内窥镜图像中存在较高的纹理可变性，稳健和准确的特征匹配的发展成为一项具有挑战性的任务。最近，通过卷积神经网络（CNN）提取的深度学习技术已在各种计算机视觉任务中获得了吸引力。但是，他们都遵循一个有监督的学习计划，其中需要大量注释的数据才能达到良好的性能，这通常不总是可用于医疗数据数据库。为了克服与标记的数据稀缺性有关的限制，自我监督的学习范式最近在许多应用程序中表现出了巨大的成功。本文提出了一种基于深度学习技术的内窥镜图像匹配的新型自我监督方法。与标准手工制作的本地功能描述符相比，我们的方法在精度和召回方面优于它们。此外，与选择基于精度和匹配分数的基于最先进的基于深度学习的监督方法相比，我们的自我监管的描述符提供了竞争性能。

translated by 谷歌翻译

Deep Metric Color Embeddings for Splicing Localization in Severely Degraded Images

Benjamin Hadwiger , Christian Riess

分类：计算机视觉

2022-06-21

图像取证中的一项常见任务是检测剪接图像，其中多个源图像组成一个输出图像。大多数当前最佳性能的剪接探测器都利用高频伪像。但是，在图像受到强大的压缩后，大多数高频伪像不再可用。在这项工作中，我们探索了一种剪接检测的替代方法，该方法可能更适合于野外图像，但要受到强烈的压缩和下采样的影响。我们的建议是建模图像的颜色形成。颜色的形成很大程度上取决于场景对象的规模的变化，因此依赖于高频伪像。我们学到了一个深度度量空间，一方面对照明颜色和摄像机的白点估计敏感，但另一方面对物体颜色的变化不敏感。嵌入空间中的大距离表明两个图像区域源于不同的场景或不同的相机。在我们的评估中，我们表明，所提出的嵌入空间的表现优于受到强烈压缩和下采样的图像的最新状态。我们在另外两个实验中确认了度量空间的双重性质，即既表征采集摄像头和场景发光颜色。因此，这项工作属于基于物理和统计取证的交集，双方都受益。

translated by 谷歌翻译

High Dynamic Range and Super-Resolution from Raw Image Bursts

Bruno Lecouat , Thomas Eboli , Jean Ponce , Julien Mairal

分类：计算机视觉

2022-07-29

由智能手机和中端相机捕获的照片的空间分辨率和动态范围有限，在饱和区域中未充满刺激的区域和颜色人工制品中的嘈杂响应。本文介绍了第一种方法（据我们所知），以重建高分辨率，高动态范围的颜色图像，这些颜色来自带有曝光括号的手持相机捕获的原始照相爆发。该方法使用图像形成的物理精确模型来结合迭代优化算法，用于求解相应的逆问题和学习的图像表示，以进行健壮的比对，并以前的自然图像。所提出的算法很快，与基于最新的学习图像恢复方法相比，内存需求较低，并且从合成但逼真的数据终止学习的特征。广泛的实验证明了其出色的性能，具有最多$ \ times 4 $的超分辨率因子在野外拍摄的带有手持相机的真实照片，以及对低光条件，噪音，摄像机摇动和中等物体运动的高度鲁棒性。

translated by 谷歌翻译

Seafloor-Invariant Caustics Removal from Underwater Imagery

Panagiotis Agrafiotis , Konstantinos Karantzalos , Andreas Georgopoulos

分类：计算机视觉

2022-12-20

Mapping the seafloor with underwater imaging cameras is of significant importance for various applications including marine engineering, geology, geomorphology, archaeology and biology. For shallow waters, among the underwater imaging challenges, caustics i.e., the complex physical phenomena resulting from the projection of light rays being refracted by the wavy surface, is likely the most crucial one. Caustics is the main factor during underwater imaging campaigns that massively degrade image quality and affect severely any 2D mosaicking or 3D reconstruction of the seabed. In this work, we propose a novel method for correcting the radiometric effects of caustics on shallow underwater imagery. Contrary to the state-of-the-art, the developed method can handle seabed and riverbed of any anaglyph, correcting the images using real pixel information, thus, improving image matching and 3D reconstruction processes. In particular, the developed method employs deep learning architectures in order to classify image pixels to "non-caustics" and "caustics". Then, exploits the 3D geometry of the scene to achieve a pixel-wise correction, by transferring appropriate color values between the overlapping underwater images. Moreover, to fill the current gap, we have collected, annotated and structured a real-world caustic dataset, namely R-CAUSTIC, which is openly available. Overall, based on the experimental results and validation the developed methodology is quite promising in both detecting caustics and reconstructing their intensity.

translated by 谷歌翻译