Underwater automatic target recognition (UATR) has been a challenging research topic in ocean engineering. Although deep learning brings opportunities for target recognition on land and in the air, underwater target recognition techniques based on deep learning have lagged due to sensor performance and the size of trainable data. This letter proposed a framework for learning the visual representation of underwater acoustic imageries, which takes a transformer-based style transfer model as the main body. It could replace the low-level texture features of optical images with the visual features of underwater acoustic imageries while preserving their raw high-level semantic content. The proposed framework could fully use the rich optical image dataset to generate a pseudo-acoustic image dataset and use it as the initial sample to train the underwater acoustic target recognition model. The experiments select the dual-frequency identification sonar (DIDSON) as the underwater acoustic data source and also take fish, the most common marine creature, as the research subject. Experimental results show that the proposed method could generate high-quality and high-fidelity pseudo-acoustic samples, achieve the purpose of acoustic data enhancement and provide support for the underwater acoustic-optical images domain transfer research.
translated by 谷歌翻译
近年来,随着对公共安全的需求越来越多,智能监测网络的快速发展,人员重新识别(RE-ID)已成为计算机视野领域的热门研究主题之一。人员RE-ID的主要研究目标是从不同的摄像机中检索具有相同身份的人。但是,传统的人重新ID方法需要手动标记人的目标,这消耗了大量的劳动力成本。随着深度神经网络的广泛应用,出现了许多基于深入的基于学习的人物的方法。因此,本文促进研究人员了解最新的研究成果和该领域的未来趋势。首先,我们总结了对几个最近公布的人的研究重新ID调查,并补充了系统地分类基于深度学习的人的重新ID方法的最新研究方法。其次,我们提出了一种多维分类,根据度量标准和表示学习,将基于深度学习的人的重新ID方法分为四类,包括深度度量学习,本地特征学习,生成的对抗学习和序列特征学习的方法。此外,我们根据其方法和动机来细分以上四类,讨论部分子类别的优缺点。最后,我们讨论了一些挑战和可能的研究方向的人重新ID。
translated by 谷歌翻译
高动态范围(HDR)成像是一种允许广泛的动态曝光范围的技术,这在图像处理,计算机图形和计算机视觉中很重要。近年来,使用深度学习(DL),HDR成像有重大进展。本研究对深层HDR成像方法的最新发展进行了综合和富有洞察力的调查和分析。在分层和结构上,将现有的深层HDR成像方法基于(1)输入曝光的数量/域,(2)学习任务数,(3)新传感器数据,(4)新的学习策略,(5)应用程序。重要的是,我们对关于其潜在和挑战的每个类别提供建设性的讨论。此外,我们审查了深度HDR成像的一些关键方面,例如数据集和评估指标。最后,我们突出了一些打开的问题,并指出了未来的研究方向。
translated by 谷歌翻译
图像转换是一类视觉和图形问题,其目标是学习输入图像和输出图像之间的映射,在深神网络的背景下迅速发展。在计算机视觉(CV)中,许多问题可以被视为图像转换任务,例如语义分割和样式转移。这些作品具有不同的主题和动机,使图像转换任务蓬勃发展。一些调查仅回顾有关样式转移或图像到图像翻译的研究,所有这些都只是图像转换的一个分支。但是,没有一项调查总结这些调查在我们最佳知识的统一框架中共同起作用。本文提出了一个新颖的学习框架,包括独立学习,指导学习和合作学习,称为IGC学习框架。我们讨论的图像转换主要涉及有关深神经网络的一般图像到图像翻译和样式转移。从这个框架的角度来看,我们回顾了这些子任务,并对各种情况进行统一的解释。我们根据相似的开发趋势对图像转换的相关子任务进行分类。此外,已经进行了实验以验证IGC学习的有效性。最后,讨论了新的研究方向和开放问题,以供将来的研究。
translated by 谷歌翻译
在深海勘探领域,声纳目前是唯一有效的长距离传感装置。复杂的水下环境,如噪声干扰,低目标强度或背景动态,对声纳成像带来了许多负面影响。其中,非线性强度的问题非常普遍。它也被称为声学成像的各向异性,即,当AUV携带声纳从不同角度检测到相同的目标时,图像对之间的强度差值有时非常大,这使得传统的匹配算法几乎无效。但是,图像匹配是诸如导航,定位和映射等综合任务的基础。因此,获得稳健和准确的匹配结果是非常有价值的。本文提出了一种基于相位信息和深卷积特征的组合匹配方法。它有两个出色的优势:一个是,可以使用深度卷积功能来衡量声纳图像的本地和全球位置的相似性;另一种是可以在声纳图像的关键目标位置执行本地特征匹配。该方法不需要复杂的手动设计,并以关闭端到端的方式完成非线性强度声纳图像的匹配任务。特征匹配实验在AUV捕获的深海声纳图像上进行,结果表明我们的建议具有良好的匹配准确性和鲁棒性。
translated by 谷歌翻译
In recent years, arbitrary image style transfer has attracted more and more attention. Given a pair of content and style images, a stylized one is hoped that retains the content from the former while catching style patterns from the latter. However, it is difficult to simultaneously keep well the trade-off between the content details and the style features. To stylize the image with sufficient style patterns, the content details may be damaged and sometimes the objects of images can not be distinguished clearly. For this reason, we present a new transformer-based method named STT for image style transfer and an edge loss which can enhance the content details apparently to avoid generating blurred results for excessive rendering on style features. Qualitative and quantitative experiments demonstrate that STT achieves comparable performance to state-of-the-art image style transfer methods while alleviating the content leak problem.
translated by 谷歌翻译
在深海勘探领域,声纳目前是唯一有效的长距离传感装置。复杂的水下环境,如噪声干扰,低目标强度或背景动态,对声纳成像带来了许多负面影响。其中,非线性强度的问题非常普遍。它也被称为声学传感器成像的各向异性,即当自主水下车辆(AUV)携带声纳从不同角度检测到相同的目标时,图像对之间的强度变化有时非常大,这使得传统匹配算法成为了传统的匹配算法几乎无效。但是,图像匹配是诸如导航,定位和映射等综合任务的基础。因此,获得稳健和准确的匹配结果是非常有价值的。本文提出了一种基于相位信息和深卷积特征的组合匹配方法。它具有两个出色的优势:一个是深度卷积特征可用于衡量声纳图像的本地和全球位置的相似性;另一种是可以在声纳图像的关键目标位置执行本地特征匹配。该方法不需要复杂的手动设计,并以关闭端到端的方式完成非线性强度声纳图像的匹配任务。特征匹配实验在AUV捕获的深海声纳图像上进行,结果表明我们的提议具有卓越的匹配精度和鲁棒性。
translated by 谷歌翻译
With the development of convolutional neural networks, hundreds of deep learning based dehazing methods have been proposed. In this paper, we provide a comprehensive survey on supervised, semi-supervised, and unsupervised single image dehazing. We first discuss the physical model, datasets, network modules, loss functions, and evaluation metrics that are commonly used. Then, the main contributions of various dehazing algorithms are categorized and summarized. Further, quantitative and qualitative experiments of various baseline methods are carried out. Finally, the unsolved issues and challenges that can inspire the future research are pointed out. A collection of useful dehazing materials is available at \url{https://github.com/Xiaofeng-life/AwesomeDehazing}.
translated by 谷歌翻译
作为一种引起巨大关注的新兴技术,通过分析继电器表面上的漫反射来重建隐藏物体的非视线(NLOS)成像,具有广泛的应用前景,在自主驾驶,医学成像和医学成像领域防御。尽管信噪比低(SNR)和高不良效率的挑战,但近年来,NLOS成像已迅速发展。大多数当前的NLOS成像技术使用传统的物理模型,通过主动或被动照明构建成像模型,并使用重建算法来恢复隐藏场景。此外,NLOS成像的深度学习算法最近也得到了很多关注。本文介绍了常规和深度学习的NLOS成像技术的全面概述。此外,我们还调查了新的拟议的NLOS场景,并讨论了现有技术的挑战和前景。这样的调查可以帮助读者概述不同类型的NLOS成像,从而加速了在角落周围看到的发展。
translated by 谷歌翻译
随着脑成像技术和机器学习工具的出现,很多努力都致力于构建计算模型来捕获人脑中的视觉信息的编码。最具挑战性的大脑解码任务之一是通过功能磁共振成像(FMRI)测量的脑活动的感知自然图像的精确重建。在这项工作中,我们调查了来自FMRI的自然图像重建的最新学习方法。我们在架构设计,基准数据集和评估指标方面检查这些方法,并在标准化评估指标上呈现公平的性能评估。最后,我们讨论了现有研究的优势和局限,并提出了潜在的未来方向。
translated by 谷歌翻译
With the improvement of arithmetic power and algorithm accuracy of personal devices, biological features are increasingly widely used in personal identification, and palm vein recognition has rich extractable features and has been widely studied in recent years. However, traditional recognition methods are poorly robust and susceptible to environmental influences such as reflections and noise. In this paper, a convolutional neural network based on VGG-16 transfer learning fused attention mechanism is used as the feature extraction network on the infrared palm vein dataset. The palm vein classification task is first trained using palmprint classification methods, followed by matching using a similarity function, in which we propose the multi-task loss function to improve the accuracy of the matching task. In order to verify the robustness of the model, some experiments were carried out on datasets from different sources. Then, we used K-means clustering to determine the adaptive matching threshold and finally achieved an accuracy rate of 98.89% on prediction set. At the same time, the matching is with high efficiency which takes an average of 0.13 seconds per palm vein pair, and that means our method can be adopted in practice.
translated by 谷歌翻译
信号处理是几乎任何传感器系统的基本组件,具有不同科学学科的广泛应用。时间序列数据,图像和视频序列包括可以增强和分析信息提取和量化的代表性形式的信号。人工智能和机器学习的最近进步正在转向智能,数据驱动,信号处理的研究。该路线图呈现了最先进的方法和应用程序的关键概述,旨在突出未来的挑战和对下一代测量系统的研究机会。它涵盖了广泛的主题,从基础到工业研究,以简明的主题部分组织,反映了每个研究领域的当前和未来发展的趋势和影响。此外,它为研究人员和资助机构提供了识别新前景的指导。
translated by 谷歌翻译
Image Super-Resolution (SR) is essential for a wide range of computer vision and image processing tasks. Investigating infrared (IR) image (or thermal images) super-resolution is a continuing concern within the development of deep learning. This survey aims to provide a comprehensive perspective of IR image super-resolution, including its applications, hardware imaging system dilemmas, and taxonomy of image processing methodologies. In addition, the datasets and evaluation metrics in IR image super-resolution tasks are also discussed. Furthermore, the deficiencies in current technologies and possible promising directions for the community to explore are highlighted. To cope with the rapid development in this field, we intend to regularly update the relevant excellent work at \url{https://github.com/yongsongH/Infrared_Image_SR_Survey
translated by 谷歌翻译
海洋生态系统及其鱼类栖息地越来越重要,因为它们在提供有价值的食物来源和保护效果方面的重要作用。由于它们的偏僻且难以接近自然,因此通常使用水下摄像头对海洋环境和鱼类栖息地进行监测。这些相机产生了大量数字数据,这些数据无法通过当前的手动处理方法有效地分析,这些方法涉及人类观察者。 DL是一种尖端的AI技术,在分析视觉数据时表现出了前所未有的性能。尽管它应用于无数领域,但仍在探索其在水下鱼类栖息地监测中的使用。在本文中,我们提供了一个涵盖DL的关键概念的教程,该教程可帮助读者了解对DL的工作原理的高级理解。该教程还解释了一个逐步的程序,讲述了如何为诸如水下鱼类监测等挑战性应用开发DL算法。此外,我们还提供了针对鱼类栖息地监测的关键深度学习技术的全面调查,包括分类,计数,定位和细分。此外,我们对水下鱼类数据集进行了公开调查,并比较水下鱼类监测域中的各种DL技术。我们还讨论了鱼类栖息地加工深度学习的新兴领域的一些挑战和机遇。本文是为了作为希望掌握对DL的高级了解,通过遵循我们的分步教程而为其应用开发的海洋科学家的教程,并了解如何发展其研究,以促进他们的研究。努力。同时,它适用于希望调查基于DL的最先进方法的计算机科学家,以进行鱼类栖息地监测。
translated by 谷歌翻译
许多现代的在线3D应用程序和视频游戏都依靠人脸的参数模型来创建可信的化身。但是,用参数模型手动复制某人的面部相似性是困难且耗时的。该任务的机器学习解决方案是非常可取的,但也充满挑战。本文提出了一种新的方法来解决所谓的面对参数问题(简称F2P),旨在重建单个图像的参数面。所提出的方法利用合成数据,域分解和域适应来解决解决F2P的多方面挑战。开源代码库说明了我们的主要观察结果,并提供了定量评估的手段。提出的方法在工业应用中证明是实际的。它提高了准确性并允许更有效的模型培训。这些技术有可能扩展到其他类型的参数模型。
translated by 谷歌翻译
眼目光分析是计算机视觉和人类计算机相互作用领域的重要研究问题。即使在过去十年中取得了显着进展,由于眼睛外观,眼头相互作用,遮挡,图像质量和照明条件的独特性,自动凝视分析仍然具有挑战性。有几个开放的问题,包括在没有先验知识的情况下,在不受限制的环境中解释凝视方向的重要提示以及如何实时编码它们。我们回顾了一系列目光分析任务和应用程序的进展,以阐明这些基本问题,确定凝视分析中的有效方法并提供可能的未来方向。我们根据其优势和报告的评估指标分析了最近的凝视估计和分割方法,尤其是在无监督和弱监督的领域中。我们的分析表明,强大而通用的凝视分析方法的开发仍然需要解决现实世界中的挑战,例如不受限制的设置和学习,并减少了监督。最后,我们讨论了设计现实的目光分析系统的未来研究方向,该系统可以传播到其他领域,包括计算机视觉,增强现实(AR),虚拟现实(VR)和人类计算机交互(HCI)。项目页面:https://github.com/i-am-shreya/eyegazesurvey} {https://github.com/i-am-shreya/eyegazesurvey
translated by 谷歌翻译
回想一下,大多数当前图像样式转移方法要求用户给出特定样式的图像,然后提取该样式功能和纹理以生成图像的样式,但仍然存在一些问题:用户可能没有一个参考样式图像,或者很难用一个图像总结所需的样式。最近提议的夹板解决了此问题,该问题仅根据提供的样式图像的描述来执行样式转移。尽管当景观或肖像单独出现时,ClipStyler可以取得良好的性能,但它可能会模糊人民并在人和风景共存时失去原始语义。基于这些问题,我们演示了一个新颖的框架,该框架使用了预训练的剪辑文本图像嵌入模型,并通过FCN语义分割网络指导图像样式传输。具体而言,我们解决了与人类主题相机的自拍照和现实世界的肖像过度风格的问题,增强了肖像和景观风格转移效果之间的对比,并使不同语义部分的图像风格转移程度完全可控。我们的生成工匠解决了夹具的失败案例,并产生定性和定量方法,以证明我们在自拍照和人类受试者照片中的自拍照和现实世界景观中的剪贴画的结果要好得多。这种改进使我们可以将我们的业务场景框架(例如修饰图形软件)进行商业化。
translated by 谷歌翻译
任意神经风格转移是一个重要的主题,具有研究价值和工业应用前景,该主题旨在使用另一个样式呈现一个图像的结构。最近的研究已致力于任意风格转移(AST)的任务,以提高风格化质量。但是,关于AST图像的质量评估的探索很少,即使它可以指导不同算法的设计。在本文中,我们首先构建了一个新的AST图像质量评估数据库(AST-IQAD),该数据库包括150个内容样式的图像对以及由八种典型AST算法产生的相应的1200个风格化图像。然后,在我们的AST-IQAD数据库上进行了一项主观研究,该研究获得了三种主观评估(即内容保存(CP),样式相似(SR)和整体视觉(OV),该数据库获得了所有风格化图像的主观评分评分。 。为了定量测量AST图像的质量,我们提出了一个新的基于稀疏表示的图像质量评估度量(SRQE),该指标(SRQE)使用稀疏特征相似性来计算质量。 AST-IQAD的实验结果证明了该方法的优越性。数据集和源代码将在https://github.com/hangwei-chen/ast-iqad-srqe上发布
translated by 谷歌翻译
作为非遗迹渲染(NPR)的主要分支,图像样式主要使用计算机算法将照片渲染为艺术绘画。最近的工作表明,样式信息的提取,例如笔触纹理和目标样式图像的颜色是图像风格的关键。鉴于其中风质地和颜色特征,提出了一种新的中风渲染方法,该方法完全考虑了音调特征和原始油画的代表性,以便将原始油画图像的音调适应风格化的图像并制作它接近艺术家的创造性效果。实验验证了所提出模型的功效。这种方法更适合具有相对均匀的方向意识的点尔主义画家的作品,尤其是对于自然场景。当原始绘画笔触具有更清晰的方向感时,使用此方法模拟刷子纹理特征可能会不那么令人满意。
translated by 谷歌翻译
Fruit is a key crop in worldwide agriculture feeding millions of people. The standard supply chain of fruit products involves quality checks to guarantee freshness, taste, and, most of all, safety. An important factor that determines fruit quality is its stage of ripening. This is usually manually classified by experts in the field, which makes it a labor-intensive and error-prone process. Thus, there is an arising need for automation in the process of fruit ripeness classification. Many automatic methods have been proposed that employ a variety of feature descriptors for the food item to be graded. Machine learning and deep learning techniques dominate the top-performing methods. Furthermore, deep learning can operate on raw data and thus relieve the users from having to compute complex engineered features, which are often crop-specific. In this survey, we review the latest methods proposed in the literature to automatize fruit ripeness classification, highlighting the most common feature descriptors they operate on.
translated by 谷歌翻译