With the deterioration of climate, the phenomenon of rain-induced flooding has become frequent. To mitigate its impact, recent works adopt convolutional neural networks or other variants to predict the floods. However, these methods directly force the model to reconstruct the raw pixels of water depth maps through constraining pixel-level differences, ignoring the high-level information contained in terrain features and rainfall patterns. To address this, we present a novel GAN-based framework for precise flood prediction, which incorporates hierarchical terrain spatial attention to help the model focus on spatially-salient areas of terrain features and constructs multi-scale rainfall embedding to extensively integrate rainfall pattern information into generation. To better adapt the model in various rainfall conditions, we leverage a rainfall regression loss for both the generator and the discriminator as additional supervision. Extensive evaluations on real catchment datasets demonstrate the superior performance of our method, which greatly surpasses the previous arts under different rainfall conditions.
translated by 谷歌翻译
With the development of convolutional neural networks, hundreds of deep learning based dehazing methods have been proposed. In this paper, we provide a comprehensive survey on supervised, semi-supervised, and unsupervised single image dehazing. We first discuss the physical model, datasets, network modules, loss functions, and evaluation metrics that are commonly used. Then, the main contributions of various dehazing algorithms are categorized and summarized. Further, quantitative and qualitative experiments of various baseline methods are carried out. Finally, the unsolved issues and challenges that can inspire the future research are pointed out. A collection of useful dehazing materials is available at \url{https://github.com/Xiaofeng-life/AwesomeDehazing}.
translated by 谷歌翻译
雨是最常见的天气之一,可以完全降低图像质量并干扰许多计算机视觉任务的执行,尤其是在大雨条件下。我们观察到:(i)雨是雨水和雨淋的混合物; (ii)场景的深度决定了雨条的强度以及变成多雨的阴霾的强度; (iii)大多数现有的DERANE方法仅在合成雨图像上进行训练,因此对现实世界的场景概括不佳。在这些观察结果的激励下,我们提出了一种新的半监督,清除降雨生成的对抗网络(半密集),该混合物由四个关键模块组成:(i)新的注意力深度预测网络以提供精确的深度估计; (ii)上下文特征预测网络由几个精心设计的详细残留块组成,以产生详细的图像上下文特征; (iii)金字塔深度引导的非本地网络,以有效地将图像上下文与深度信息整合在一起,并产生最终的无雨图像; (iv)全面的半监督损失函数,使该模型不限于合成数据集,而是平稳地将其概括为现实世界中的大雨场景。广泛的实验表明,在合成和现实世界中,我们的二十多种代表性的最先进的方法对我们的方法进行了明显的改进。
translated by 谷歌翻译
深度完成旨在预测从深度传感器(例如Lidars)中捕获的极稀疏图的密集像素深度。它在各种应用中起着至关重要的作用,例如自动驾驶,3D重建,增强现实和机器人导航。基于深度学习的解决方案已经证明了这项任务的最新成功。在本文中,我们首次提供了全面的文献综述,可帮助读者更好地掌握研究趋势并清楚地了解当前的进步。我们通过通过对现有方法进行分类的新型分类法提出建议,研究网络体系结构,损失功能,基准数据集和学习策略的设计方面的相关研究。此外,我们在包括室内和室外数据集(包括室内和室外数据集)上进行了三个广泛使用基准测试的模型性能进行定量比较。最后,我们讨论了先前作品的挑战,并为读者提供一些有关未来研究方向的见解。
translated by 谷歌翻译
现有的DERANE方法主要集中于单个输入图像。只有单个输入图像,很难准确检测到雨条,去除雨条并恢复无雨图像。与单个2D图像相比,光场图像(LFI)通过通过元素摄像机记录每个事件射线的方向和位置,嵌入了广泛的3D结构和纹理信息,该镜头已成为计算机中的流行设备视觉和图形研究社区。在本文中,我们提出了一个新颖的网络4D-MGP-SRRNET,以从LFI中删除雨条。我们的方法将大雨LFI的所有子视图作为输入。为了充分利用LFI,我们采用4D卷积层来构建拟议的雨牛排清除网络,以同时处理LFI的所有子视图。在拟议的网络中,提出了带有新颖的多尺度自引导高斯工艺(MSGP)模块的雨水检测模型MGPDNET,以检测输入LFI的所有子视图中的雨条。引入了半监督的学习,以通过对虚拟世界LFI和现实世界中的LFI进行多个尺度上的虚拟世界LFI和现实世界中的LFI来准确检测雨季,这是通过计算现实世界中雨水条纹的伪地面真相。然后,所有减去预测的雨条的子视图都将馈送到4D残差模型中,以估计深度图。最后,所有子视图与相应的雨条和从估计的深度图转换的相应雨条和雾图都馈送到基于对抗性复发性神经网络的雨天LFI恢复模型,以逐步消除雨水条纹并恢复无雨的LFI LFI LFI。 。对合成LFI和现实世界LFI进行的广泛的定量和定性评估证明了我们提出的方法的有效性。
translated by 谷歌翻译
作为许多自主驾驶和机器人活动的基本组成部分,如自我运动估计,障碍避免和场景理解,单眼深度估计(MDE)引起了计算机视觉和机器人社区的极大关注。在过去的几十年中,已经开发了大量方法。然而,据我们所知,对MDE没有全面调查。本文旨在通过审查1970年至2021年之间发布的197个相关条款来弥补这一差距。特别是,我们为涵盖各种方法的MDE提供了全面的调查,介绍了流行的绩效评估指标并汇总公开的数据集。我们还总结了一些代表方法的可用开源实现,并比较了他们的表演。此外,我们在一些重要的机器人任务中审查了MDE的应用。最后,我们通过展示一些有希望的未来研究方向来结束本文。预计本调查有助于读者浏览该研究领域。
translated by 谷歌翻译
水下杂质的光吸收和散射导致水下较差的水下成像质量。现有的基于数据驱动的基于数据的水下图像增强(UIE)技术缺乏包含各种水下场景和高保真参考图像的大规模数据集。此外,不同颜色通道和空间区域的不一致衰减不完全考虑提升增强。在这项工作中,我们构建了一个大规模的水下图像(LSUI)数据集,包括5004个图像对,并报告了一个U形变压器网络,其中变压器模型首次引入UIE任务。 U形变压器与通道 - 方面的多尺度特征融合变压器(CMSFFT)模块和空间全局功能建模变压器(SGFMT)模块集成在一起,可使用更多地加强网络对色频道和空间区域的关注严重衰减。同时,为了进一步提高对比度和饱和度,在人类视觉原理之后,设计了组合RGB,实验室和LCH颜色空间的新型损失函数。可用数据集的广泛实验验证了报告的技术的最先进性能,具有超过2dB的优势。
translated by 谷歌翻译
Recently deep neural networks, which require a large amount of annotated samples, have been widely applied in nuclei instance segmentation of H\&E stained pathology images. However, it is inefficient and unnecessary to label all pixels for a dataset of nuclei images which usually contain similar and redundant patterns. Although unsupervised and semi-supervised learning methods have been studied for nuclei segmentation, very few works have delved into the selective labeling of samples to reduce the workload of annotation. Thus, in this paper, we propose a novel full nuclei segmentation framework that chooses only a few image patches to be annotated, augments the training set from the selected samples, and achieves nuclei segmentation in a semi-supervised manner. In the proposed framework, we first develop a novel consistency-based patch selection method to determine which image patches are the most beneficial to the training. Then we introduce a conditional single-image GAN with a component-wise discriminator, to synthesize more training samples. Lastly, our proposed framework trains an existing segmentation model with the above augmented samples. The experimental results show that our proposed method could obtain the same-level performance as a fully-supervised baseline by annotating less than 5% pixels on some benchmarks.
translated by 谷歌翻译
Deep learning-based methods have achieved significant performance for image defogging. However, existing methods are mainly developed for land scenes and perform poorly when dealing with overwater foggy images, since overwater scenes typically contain large expanses of sky and water. In this work, we propose a Prior map Guided CycleGAN (PG-CycleGAN) for defogging of images with overwater scenes. To promote the recovery of the objects on water in the image, two loss functions are exploited for the network where a prior map is designed to invert the dark channel and the min-max normalization is used to suppress the sky and emphasize objects. However, due to the unpaired training set, the network may learn an under-constrained domain mapping from foggy to fog-free image, leading to artifacts and loss of details. Thus, we propose an intuitive Upscaling Inception Module (UIM) and a Long-range Residual Coarse-to-fine framework (LRC) to mitigate this issue. Extensive experiments on qualitative and quantitative comparisons demonstrate that the proposed method outperforms the state-of-the-art supervised, semi-supervised, and unsupervised defogging approaches.
translated by 谷歌翻译
用商品传感器捕获的深度图通常具有低质量和分辨率;这些地图需要增强以在许多应用中使用。深度图超分辨率的最新数据驱动方法依赖于同一场景的低分辨率和高分辨率深度图的注册对。采集现实世界配对数据需要专门的设置。另一个替代方法是通过亚采样,添加噪声和其他人工降解方法从高分辨率地图中生成低分辨率地图,并不能完全捕获现实世界中低分辨率图像的特征。结果,对这种人造配对数据训练的监督学习方法可能在现实世界中的低分辨率输入上表现不佳。我们考虑了一种基于从未配对数据学习的深度超分辨率的方法。尽管已经提出了许多用于未配对图像到图像翻译的技术,但大多数技术无法使用深度图提供有效的孔填充或重建精确表面。我们提出了一种未配对的学习方法,用于深度超分辨率,该方法基于可学习的降解模型,增强成分和表面正常估计作为特征,以产生更准确的深度图。我们为未配对的深度SR提出了一个基准测试,并证明我们的方法的表现优于现有的未配对方法,并与配对相当。
translated by 谷歌翻译
多光谱和全型图像的融合始终被称为pansharpening。大多数可用的基于深度学习的pan-sharpening方法通过一步方案增强了多光谱图像,这在很大程度上取决于网络的重建能力。但是,遥感图像总是具有很大的变化,因此,这些一步方法容易受到误差积累的影响,因此无法保留空间细节以及光谱信息。在本文中,我们提出了一个新型的两步模型,用于泛叠式模型,该模型通过空间和光谱信息的进行性补偿来锐化MS图像。首先,深层多尺度引导的生成对抗网络用于初步增强MS图像的空间分辨率。从粗糙域中的预交换MS图像开始,我们的方法随后逐步完善了具有反向体系结构的几个生成对抗网络(GAN)的空间和光谱残差。整个模型由三重gan组成,基于特定的架构,关节补偿损失函数旨在使三重甘族能够同时训练。此外,本文提出的空间谱系残留补偿结构可以扩展到其他泛伴式方法,以进一步增强其融合结果。在不同的数据集上进行了广泛的实验,结果证明了我们提出的方法的有效性和效率。
translated by 谷歌翻译
我们提出了Vologan,这是一个对抗域的适应网络,该网络将一个人的高质量3D模型的合成RGB-D图像转换为可以使用消费者深度传感器生成的RGB-D图像。该系统对于为单视3D重建算法生成大量训练数据特别有用,该算法复制了现实世界中的捕获条件,能够模仿相同的高端3D模型数据库的不同传感器类型的样式。该网络使用具有u-net体系结构的CycleGAN框架,以及受SIV-GAN启发的鉴别器。我们使用不同的优化者和学习率计划来训练发电机和鉴别器。我们进一步构建了一个单独考虑图像通道的损失函数,除其他指标外,还评估了结构相似性。我们证明,可以使用自行车来应用合成3D数据的对抗结构域适应,以训练只有少量训练样本的体积视频发电机模型。
translated by 谷歌翻译
尽管现有的单眼深度估计方法取得了长足的进步,但由于网络的建模能力有限和规模歧义问题,预测单个图像的准确绝对深度图仍然具有挑战性。在本文中,我们介绍了一个完全视觉上的基于注意力的深度(Vadepth)网络,在该网络中,将空间注意力和通道注意都应用于所有阶段。通过在远距离沿空间和通道维度沿空间和通道维度的特征的依赖关系连续提取,Vadepth网络可以有效地保留重要的细节并抑制干扰特征,以更好地感知场景结构,以获得更准确的深度估计。此外,我们利用几何先验来形成规模约束,以进行比例感知模型培训。具体而言,我们使用摄像机和由地面点拟合的平面之间的距离构建了一种新颖的规模感知损失,该平面与图像底部中间的矩形区域的像素相对应。 Kitti数据集的实验结果表明,该体系结构达到了最新性能,我们的方法可以直接输出绝对深度而无需后处理。此外,我们在Seasondepth数据集上的实验还证明了我们模型对多个看不见的环境的鲁棒性。
translated by 谷歌翻译
我们提出了一个有效的多视角立体声(MVS)网络,用于从多个RGB图像中推断深度值。最近的研究表明,将实际空间中的几何关系映射到神经网络是MVS问题的重要主题。具体而言,这些方法着重于如何通过构造出色的成本量来表达不同视图之间的对应关系。在本文中,我们提出了一种基于吸收先前经验的更完整的成本量构建方法。首先,我们介绍了自我发挥的机制,以完全汇总输入图像的主导信息,并准确地对远程依赖性进行建模,以选择性地汇总参考特征。其次,我们将小组相关性引入特征聚合,从而大大减轻了记忆和计算负担。同时,此方法增强了不同特征通道之间的信息相互作用。通过这种方法,构建了更轻巧,更有效的成本量。最后,我们遵循粗略的策略,并借助不确定性估计,根据规模完善深度采样范围。我们进一步结合了以前的步骤,以获取注意力较薄。提出了定量和定性实验,以证明我们的模型的性能。
translated by 谷歌翻译
最近的研究表明,通用风格转移的成功取得了巨大的成功,将任意视觉样式转移到内容图像中。但是,现有的方法遭受了审美的非现实主义问题,该问题引入了不和谐的模式和明显的人工制品,从而使结果很容易从真实的绘画中发现。为了解决这一限制,我们提出了一种新颖的美学增强风格转移方法,可以在美学上为任意风格产生更现实和令人愉悦的结果。具体而言,我们的方法引入了一种审美歧视者,以从大量的艺术家创造的绘画中学习通用的人类自愿美学特征。然后,合并了美学特征,以通过新颖的美学感知样式(AESSA)模块来增强样式转移过程。这样的AESSA模块使我们的Aesust能够根据样式图像的全局美学通道分布和内容图像的局部语义空间分布有效而灵活地集成样式模式。此外,我们还开发了一种新的两阶段转移培训策略,并通过两种审美正规化来更有效地训练我们的模型,从而进一步改善风格化的性能。广泛的实验和用户研究表明,我们的方法比艺术的状态综合了美学上更加和谐和现实的结果,从而大大缩小了真正的艺术家创造的绘画的差异。我们的代码可在https://github.com/endywon/aesust上找到。
translated by 谷歌翻译
Cross-modality magnetic resonance (MR) image synthesis aims to produce missing modalities from existing ones. Currently, several methods based on deep neural networks have been developed using both source- and target-modalities in a supervised learning manner. However, it remains challenging to obtain a large amount of completely paired multi-modal training data, which inhibits the effectiveness of existing methods. In this paper, we propose a novel Self-supervised Learning-based Multi-scale Transformer Network (SLMT-Net) for cross-modality MR image synthesis, consisting of two stages, \ie, a pre-training stage and a fine-tuning stage. During the pre-training stage, we propose an Edge-preserving Masked AutoEncoder (Edge-MAE), which preserves the contextual and edge information by simultaneously conducting the image reconstruction and the edge generation. Besides, a patch-wise loss is proposed to treat the input patches differently regarding their reconstruction difficulty, by measuring the difference between the reconstructed image and the ground-truth. In this case, our Edge-MAE can fully leverage a large amount of unpaired multi-modal data to learn effective feature representations. During the fine-tuning stage, we present a Multi-scale Transformer U-Net (MT-UNet) to synthesize the target-modality images, in which a Dual-scale Selective Fusion (DSF) module is proposed to fully integrate multi-scale features extracted from the encoder of the pre-trained Edge-MAE. Moreover, we use the pre-trained encoder as a feature consistency module to measure the difference between high-level features of the synthesized image and the ground truth one. Experimental results show the effectiveness of the proposed SLMT-Net, and our model can reliably synthesize high-quality images when the training set is partially unpaired. Our code will be publicly available at https://github.com/lyhkevin/SLMT-Net.
translated by 谷歌翻译
Pansharpening是一种广泛使用的图像增强技术,用于遥感。其原理是熔断输入的高分辨率单通道平面(PAN)图像和低分辨率多光谱图像,并获得高分辨率多光谱(HRMS)图像。现有的深度学习泛散歌方法有两个缺点。首先,需要沿信道维度连接两个输入图像的特征以重建HRMS图像,这使得PAN图像的重要性不突出,并且还导致高计算成本。其次,通过手动设计的损耗功能难以提取特征的隐式信息。为此,我们通过用于粉彩的快速引导滤波器(FGF)提出一种生成的对抗性网络。在发电机中,传统的信道级联被FGF替换,以更好地保留空间信息,同时减少参数的数量。同时,融合对象可以通过空间注意模块突出显示。此外,通过对抗性训练可以有效地保存特征的潜在信息。许多实验说明我们的网络生成了可以超越现有方法的高质量HRMS图像,以及更少的参数。
translated by 谷歌翻译
最近,基于CNN的RGB-D显着对象检测(SOD)在检测准确性方面取得了显着提高。但是,现有模型通常在效率和准确性方面表现良好。这阻碍了他们在移动设备以及许多实际问题上的潜在应用。在本文中,为了弥合RGB-D SOD的轻质和大型模型之间的准确性差距,一个有效的模块可以极大地提高准确性,但提出了很少的计算。受深度质量是影响准确性的关键因素的启发,我们提出了有效的深度质量启发的功能操纵(DQFM)过程,该过程可以根据深度质量动态滤波深度特征。提出的DQFM求助于低级RGB和深度特征的对齐,以及深度流的整体注意力,以明确控制和增强交叉模式融合。我们嵌入了DQFM,以获得一个称为DFM-NET的有效的轻质RGB-D SOD模型,此外,我们还设计了一个定制的深度骨架和两阶段解码器作为基本零件。 9个RGB-D数据集的广泛实验结果表明,我们的DFM-NET优于最近的有效型号,在CPU上以约20 fps的速度运行,仅8.5mb型号大小,同时快2.9/2.4倍,比6.7/3.1倍,小于6.7/3.1倍最新的最佳型号A2DELE和手机。与非效率模型相比,它还保持最先进的准确性。有趣的是,进一步的统计数据和分析验证了DQFM在没有任何质量标签的各种品质的深度图中的能力。最后但并非最不重要的一点是,我们进一步应用DFM-NET来处理视频SOD(VSOD),与最近的有效模型相比,相当的性能,而比该领域的先前最佳状态的速度/2.3倍/小2.3倍。我们的代码可在https://github.com/zwbx/dfm-net上找到。
translated by 谷歌翻译
感觉到航天器的三维(3D)结构是成功执行许多轨道空间任务的先决条件,并且可以为许多下游视觉算法提供关键的输入。在本文中,我们建议使用光检测和范围传感器(LIDAR)和单眼相机感知航天器的3D结构。为此,提出了航天器深度完成网络(SDCNET),以根据灰色图像和稀疏深度图回收密集的深度图。具体而言,SDCNET将对象级航天器的深度完成任务分解为前景分割子任务和前景深度完成子任务,该任务首先将航天器区域划分,然后在段前景区域执行深度完成。这样,有效地避免了对前景航天器深度完成的背景干扰。此外,还提出了一个基于注意力的特征融合模块,以汇总不同输入之间的互补信息,该信息可以按顺序推论沿通道沿着不同特征和空间维度之间的相关性。此外,还提出了四个指标来评估对象级的深度完成性能,这可以更直观地反映航天器深度完成结果的质量。最后,构建了一个大规模的卫星深度完成数据集,用于培训和测试航天器深度完成算法。数据集上的经验实验证明了拟议的SDCNET的有效性,该SDCNET达到了0.25亿的平均绝对误差和0.759m的平均绝对截断误差,并通过较大的边缘超过了前期方法。航天器姿势估计实验也基于深度完成结果进行,实验结果表明,预测的密集深度图可以满足下游视觉任务的需求。
translated by 谷歌翻译
深度映射记录场景中的视点和对象之间的距离,这在许多真实应用程序中起着关键作用。然而,消费者级RGB-D相机捕获的深度图遭受了低空间分辨率。引导深度地图超分辨率(DSR)是解决此问题的流行方法,该方法试图从输入的低分辨率(LR)深度及其耦合的HR RGB图像中恢复高分辨率(HR)深度映射和作为指引。引导DSR最具挑战性的问题是如何正确选择一致的结构并传播它们,并正确处理不一致的结构。在本文中,我们提出了一种用于引导DSR的新型关注的分层多模态融合(AHMF)网络。具体地,为了有效地提取和组合来自LR深度和HR引导的相关信息,我们提出了一种基于多模态注意力的融合(MMAF)策略,包括分层卷积层,包括特征增强块,以选择有价值的功能和特征重新校准块来统一不同外观特征的方式的相似性度量。此外,我们提出了一个双向分层特征协作(BHFC)模块,以完全利用多尺度特征之间的低级空间信息和高级结构信息。实验结果表明,在重建精度,运行速度和记忆效率方面,我们的方法优于最先进的方法。
translated by 谷歌翻译