智能论文笔记

Image-to-image Translation as a Unique Source of Knowledge

Alejandro D. Mousist

分类：计算机视觉 | 人工智能 | 机器学习

2021-12-03

图像到图像（I2I）转换是将数据从一个域转换为另一个域的数据，但是在使用如SAR /光学卫星图像的不同域时，目标域中的翻译图像的可用性以及多少原点域名被翻译为目标域仍然不够清楚。本文通过从最先进的I2I算法执行从光学域从光学域的标记数据集的翻译进行了解决，从目标域中的传输功能学习并评估原始数据集的数量是多少转入。添加到此时，提出堆叠作为与不同I2I翻译中学到的知识组合的方式，并针对单一模型进行评估。

translated by 谷歌翻译

An Overview on the Generation and Detection of Synthetic and Manipulated Satellite Images

Lydia Abady , Edoardo Daniele Cannas , Paolo Bestagini , Benedetta Tondi , Stefano Tubaro , Mauro Barni

分类：计算机视觉

2022-09-19

由于技术成本的降低和卫星发射的增加，卫星图像变得越来越流行和更容易获得。除了提供仁慈的目的外，还可以出于恶意原因（例如错误信息）使用卫星数据。事实上，可以依靠一般图像编辑工具来轻松操纵卫星图像。此外，随着深层神经网络（DNN）的激增，可以生成属于各种领域的现实合成图像，与合成生成的卫星图像的扩散有关的其他威胁正在出现。在本文中，我们回顾了关于卫星图像的产生和操纵的最新技术（SOTA）。特别是，我们既关注从头开始的合成卫星图像的产生，又要通过图像转移技术对卫星图像进行语义操纵，包括从一种类型的传感器到另一种传感器获得的图像的转换。我们还描述了迄今已研究的法医检测技术，以对合成图像伪造进行分类和检测。虽然我们主要集中在法医技术上明确定制的，该技术是针对AI生成的合成内容物的检测，但我们还审查了一些用于一般剪接检测的方法，这些方法原则上也可以用于发现AI操纵图像

translated by 谷歌翻译

Application of image-to-image translation in improving pedestrian detection

Devarsh Patel , Sarthak Patel , Megh Patel

分类：计算机视觉 | 人工智能 | 机器学习

2022-09-08

缺乏有效的目标区域使得在低强度光（包括行人识别和图像到图像翻译）中执行多个视觉功能变得困难。在这种情况下，通过使用红外和可见图像的联合使用来积累高质量的信息，即使在弱光下也可以检测行人。在这项研究中，我们将在LLVIP数据集上使用先进的深度学习模型，例如Pix2Pixgan和Yolov7，其中包含可见的信号图像对，用于低光视觉。该数据集包含33672张图像，大多数图像都是在黑暗场景中捕获的，与时间和位置紧密同步。

translated by 谷歌翻译

High-resolution semantically-consistent image-to-image translation

Mikhail Sokolov , Christopher Henry , Joni Storie , Christopher Storie , Victor Alhassan , Mathieu Turgeon-Pelchat

分类：计算机视觉 | 机器学习

2022-09-13

近年来，深度学习已成为遥感科学家最有效的计算机视觉工具之一。但是，遥感数据集缺乏培训标签，这意味着科学家需要解决域适应性问题，以缩小卫星图像数据集之间的差异。结果，随后训练的图像分割模型可以更好地概括并使用现有的一组标签，而不需要新的标签。这项工作提出了一个无监督的域适应模型，该模型可在样式转移阶段保留图像的语义一致性和每个像素质量。本文的主要贡献是提出了SEMI2I模型的改进体系结构，该模型显着提高了所提出的模型的性能，并使其与最先进的Cycada模型具有竞争力。第二个贡献是在遥感多波段数据集（例如Worldview-2和Spot-6）上测试Cycada模型。提出的模型可在样式传递阶段保留图像的语义一致性和每个像素质量。因此，与SEMI2I模型相比，经过适应图像的训练的语义分割模型显示出可观的性能增长，并达到与最先进的Cycada模型相似的结果。所提出方法的未来开发可能包括生态领域转移，{\ em先验}对数据分布的质量评估，或探索域自适应模型的内部体系结构。

translated by 谷歌翻译

Enhancing vehicle detection accuracy in thermal infrared images using multiple GANs

Shivom Bhargava , Pranamesh Chakraborty

分类：计算机视觉

2022-09-20

在良好的弹药条件下，车辆检测准确性相当准确，但在弱光条件下容易受到检测准确性不佳。弱光和眩光的组合效果或尾灯的眩光导致最新的对象检测模型更有可能错过车辆检测。但是，热红外图像对照明的变化是可靠的，并且基于热辐射。最近，生成对抗网络（GAN）已在图像域传输任务中广泛使用。最先进的GAN型号试图通过将红外图像转换为白天的RGB图像来提高夜间车辆检测准确性。但是，与白天条件相比，在夜间条件下，这些模型在夜间条件下表现不佳。因此，这项研究试图通过提出三种不同的方法来缓解这一缺点，该方法基于两个不同级别的GAN模型的组合，试图减少白天和夜间红外图像之间的特征分布差距。通过使用最新的对象检测模型测试模型，可以完成定量分析以比较提出模型的性能与最新模型的性能。定量和定性分析都表明，所提出的模型在夜间条件下的最新车辆检测模型优于最先进的GAN模型，显示了所提出的模型的功效。

translated by 谷歌翻译

Virtual Underwater Datasets for Autonomous Inspections

oannis Polymenis , Maryam Haroutunian , Rose Norman , David Trodden

分类：计算机视觉

2022-09-13

在离岸部门以及科学界在水下行动方面的迅速发展，水下车辆变得更加复杂。值得注意的是，许多水下任务，包括对海底基础设施的评估，都是在自动水下车辆（AUV）的帮助下进行的。最近在人工智能（AI）方面取得了突破，尤其是深度学习（DL）模型和应用，这些模型和应用在各种领域都广泛使用，包括空中无人驾驶汽车，自动驾驶汽车导航和其他应用。但是，由于难以获得特定应用的水下数据集，它们在水下应用中并不普遍。从这个意义上讲，当前的研究利用DL领域的最新进步来构建从实验室环境中捕获的物品照片产生的定制数据集。通过将收集到的图像与包含水下环境的照片相结合，将生成的对抗网络（GAN）用于将实验室对象数据集转化为水下域。这些发现证明了创建这样的数据集的可行性，因为与现实世界的水下船体船体图像相比，所得图像与真实的水下环境非常相似。因此，水下环境的人工数据集可以克服因对实际水下图像的有限访问而引起的困难，并用于通过水下对象图像分类和检测来增强水下操作。

translated by 谷歌翻译

Deep Domain Adaptation for Detecting Bomb Craters in Aerial Images

Marco Geiger , Dominik Martin , Niklas Kühl

分类：计算机视觉

2022-09-22

发生毁灭性事件后，数十年来仍然可以看到空袭的后果。未爆炸的军械（UXO）是对人类生活和环境的巨大危险。通过评估战时图像，专家可以推断出DUD的发生。当前的手动分析过程是昂贵且耗时的，因此使用深度学习可以自动检测炸弹陨石坑，是改善UXO处置过程的一种有希望的方法。但是，这些方法需要大量手动标记的培训数据。这项工作利用月球表面图像来利用域的适应性，以解决自动化炸弹火山口检测的问题，并在有限的训练数据的限制下深入学习。本文通过提供有限的训练数据和（2）的自动炸弹火山口检测的解决方案方法来促进学术和实践（1），并通过证明使用合成图像进行域适应的可用性和相关挑战。

translated by 谷歌翻译

Self-Attending Task Generative Adversarial Network for Realistic Satellite Image Creation

Nathan Toner , Justin Fletcher

分类：机器学习 | 计算机视觉

2021-11-18

我们介绍了一个自主任务生成的对抗性网络（SATGAN），并将其应用于具有现实噪声模式和从收集数据中学习的现实噪声模式和传感器特性的常住空间对象的合成高对比度科学图像的问题。由于必须保留的数据中的语义内容的高度本地化，增强这些合成数据是具有挑战性的。真正收集的图像用于训练网络的特定传感器图像应该是什么样的网络。然后，培训的网络在嘈杂的上下文图像上用作过滤器，并输出具有未嵌入的语义内容的现实看起来。该架构由条件GANS启发，但被修改为包括通过增强保留语义信息的任务网络。另外，架构被示出为减少幻觉对象的情况或在表示空间观测场景的上下文图像中的语义内容的混淆。

translated by 谷歌翻译

MM811 Project Report: Cloud Detection and Removal in Satellite Images

Dale Chen-Song , Erfan Khalaji , Vaishali Rani

分类：计算机视觉 | 机器学习

2022-12-21

For satellite images, the presence of clouds presents a problem as clouds obscure more than half to two-thirds of the ground information. This problem causes many issues for reliability in a noise-free environment to communicate data and other applications that need seamless monitoring. Removing the clouds from the images while keeping the background pixels intact can help address the mentioned issues. Recently, deep learning methods have become popular for researching cloud removal by demonstrating promising results, among which Generative Adversarial Networks (GAN) have shown considerably better performance. In this project, we aim to address cloud removal from satellite images using AttentionGAN and then compare our results by reproducing the results obtained using traditional GANs and auto-encoders. We use RICE dataset. The outcome of this project can be used to develop applications that require cloud-free satellite images. Moreover, our results could be helpful for making further research improvements.

translated by 谷歌翻译

Computer Vision on X-ray Data in Industrial Production and Security Applications: A survey

Mehdi Rafiei , Jenni Raitoharju , Alexandros Iosifidis

分类：计算机视觉

2022-11-10

X-ray imaging technology has been used for decades in clinical tasks to reveal the internal condition of different organs, and in recent years, it has become more common in other areas such as industry, security, and geography. The recent development of computer vision and machine learning techniques has also made it easier to automatically process X-ray images and several machine learning-based object (anomaly) detection, classification, and segmentation methods have been recently employed in X-ray image analysis. Due to the high potential of deep learning in related image processing applications, it has been used in most of the studies. This survey reviews the recent research on using computer vision and machine learning for X-ray analysis in industrial production and security applications and covers the applications, techniques, evaluation metrics, datasets, and performance comparison of those techniques on publicly available datasets. We also highlight some drawbacks in the published research and give recommendations for future research in computer vision-based X-ray analysis.

translated by 谷歌翻译

Semantically-consistent Landsat 8 image to Sentinel-2 image translation for alpine areas

M. Sokolov , J. L. Storie , C. J. Henry , C. D. Storie , J. Cameron , R. S. Ødegård , V. Zubinaite , S. Stikbakke

分类：计算机视觉 | 机器学习

2022-12-22

The availability of frequent and cost-free satellite images is in growing demand in the research world. Such satellite constellations as Landsat 8 and Sentinel-2 provide a massive amount of valuable data daily. However, the discrepancy in the sensors' characteristics of these satellites makes it senseless to use a segmentation model trained on either dataset and applied to another, which is why domain adaptation techniques have recently become an active research area in remote sensing. In this paper, an experiment of domain adaptation through style-transferring is conducted using the HRSemI2I model to narrow the sensor discrepancy between Landsat 8 and Sentinel-2. This paper's main contribution is analyzing the expediency of that approach by comparing the results of segmentation using domain-adapted images with those without adaptation. The HRSemI2I model, adjusted to work with 6-band imagery, shows significant intersection-over-union performance improvement for both mean and per class metrics. A second contribution is providing different schemes of generalization between two label schemes - NALCMS 2015 and CORINE. The first scheme is standardization through higher-level land cover classes, and the second is through harmonization validation in the field.

translated by 谷歌翻译

Landslide4Sense: Reference Benchmark Data and Deep Learning Models for Landslide Detection

Omid Ghorbanzadeh , Yonghao Xu , Pedram Ghamisi , Michael Kopp , David Kreil

分类：计算机视觉

2022-06-01

这项研究介绍了\ textit {landslide4sense}，这是一种从遥感中检测到滑坡检测的参考基准。该存储库具有3,799个图像贴片，可从Sentinel-2传感器中融合光学层，并带有数字高程模型和来自ALOS Palsar的斜率层。附加的地形信息促进了对滑坡边界的准确检测，而最近的研究表明，仅使用光学数据，这是具有挑战性的。广泛的数据集支持在滑坡检测中进行深度学习（DL）研究，以及用于系统更新滑坡库存的方法的开发和验证。基准数据集已在四个不同的时间和地理位置收集：伊伯里（2018年9月），科达古（2018年8月），戈尔卡（2015年4月）和台湾（2009年8月）。每个图像像素均标记为属于滑坡，包括各种来源和彻底的手动注释。然后，我们评估11个最先进的DL分割模型的滑坡检测性能：U-NET，RESU-NET，PSPNET，CONTECTNET，DEEPLAB-V2，DEEPLAB-V3+，FCN-8，LINKNET，FRRRN-A，FRRN-A，， FRRN-B和SQNET。所有型号均已从划痕上对每个研究区域的四分之一的补丁进行培训，并在其他三个季度的独立贴片上进行了测试。我们的实验表明，Resu-NET的表现优于其他模型，用于滑坡检测任务。我们在\ url {www.landslide4sense.org}公开获得多种源滑坡基准数据（Landslide4sense）和经过测试的DL模型，为遥感，计算机视觉和机器学习社区建立了重要的资源通常，尤其是对滑坡检测的应用。

translated by 谷歌翻译

deepNIR: Datasets for generating synthetic NIR images and improved fruit detection system using deep learning techniques

Inkyu Sa , JongYoon Lim , Ho Seok Ahn , Bruce MacDonald

分类：计算机视觉 | 机器人

2022-03-17

本文介绍了用于合成近红外（NIR）图像生成和边界盒水平检测系统的数据集。不可否认的是，诸如Tensorflow或Pytorch之类的高质量机器学习框架以及大规模的Imagenet或可可数据集借助于加速GPU硬件，已将机器学习技术的极限推向了数十多年。在这些突破中，高质量的数据集是可以在模型概括和数据驱动的深神经网络的部署方面取得成功的基本构件之一。特别是，综合数据生成任务通常比其他监督方法需要更多的培训样本。因此，在本文中，我们共享从两个公共数据集（即Nirscene和Sen12ms）和我们的新颖NIR+RGB甜椒（辣椒（辣椒）数据集）重新处理的NIR+RGB数据集。我们定量和定性地证明了这些NIR+RGB数据集足以用于合成NIR图像生成。对于NIRSCENE1，SEN12MS和SEWT PEPPER数据集，我们实现了第11.36、26.53、26.53、26.53和40.15的距离（FID）。此外，我们发布了11个水果边界盒的手动注释，可以使用云服务将其作为各种格式导出。四个新添加的水果[蓝莓，樱桃，猕猴桃和小麦]化合物11新颖的边界盒数据集，在我们先前的DeepFruits项目中提出的作品[Apple，Appsicum，Capsicum，Capsicum，Mango，Orange，Rockmelon，Strawberry]。数据集的边界框实例总数为162K，可以从云服务中使用。为了评估数据集，YOLOV5单阶段检测器被利用并报告了令人印象深刻的平均水平前期，MAP [0.5：0.95]的结果为[min：0.49，最大：0.812]。我们希望这些数据集有用，并作为未来研究的基准。

translated by 谷歌翻译

SEnSeI: A Deep Learning Module for Creating Sensor Independent Cloud Masks

Alistair Francis , John Mrziglod , Panagiotis Sidiropoulos , Jan-Peter Muller

分类：计算机视觉

2021-11-16

我们向传感器独立性（Sensei）介绍了一种新型神经网络架构 - 光谱编码器 - 通过该传感器独立性（Sensei） - 通过其中具有不同组合的光谱频带组合的多个多光谱仪器可用于训练广义深度学习模型。我们专注于云屏蔽的问题，使用几个预先存在的数据集，以及Sentinel-2的新的自由可用数据集。我们的模型显示在卫星上实现最先进的性能，它受过训练（Sentinel-2和Landsat 8），并且能够推断到传感器，它在训练期间尚未见过Landsat 7，每\ 'USAT-1，和Sentinel-3 SLST。当多种卫星用于培训，接近或超越专用单传感器型号的性能时，模型性能显示出改善。这项工作是激励遥感社区可以使用巨大各种传感器采取的数据的动机。这不可避免地导致标记用于不同传感器的努力，这限制了深度学习模型的性能，因为他们需要最佳地执行巨大的训练。传感器独立性可以使深度学习模型能够同时使用多个数据集进行培训，提高性能并使它们更广泛适用。这可能导致深入学习方法，用于在板载应用程序和地面分段数据处理中更频繁地使用，这通常需要模型在推出时或之后即将开始。

translated by 谷歌翻译

SoloGAN: Multi-domain Multimodal Unpaired Image-to-Image Translation via a Single Generative Adversarial Network

Shihua Huang , Cheng He , Ran Cheng

分类：计算机视觉

2020-08-04

尽管具有生成对抗网络（GAN）的图像到图像（I2I）翻译的显着进步，但使用单对生成器和歧视器将图像有效地转换为多个目标域中的一组不同图像仍然具有挑战性。现有的I2i翻译方法采用多个针对不同域的特定于域的内容编码，其中每个特定于域的内容编码器仅经过来自同一域的图像的训练。然而，我们认为应从所有域之间的图像中学到内容（域变相）特征。因此，现有方案的每个特定于域的内容编码器都无法有效提取域不变特征。为了解决这个问题，我们提出了一个灵活而通用的Sologan模型，用于在多个域之间具有未配对数据的多模式I2I翻译。与现有方法相反，Solgan算法使用具有附加辅助分类器的单个投影鉴别器，并为所有域共享编码器和生成器。因此，可以使用来自所有域的图像有效地训练Solgan，从而可以有效提取域 - 不变性内容表示。在多个数据集中，针对多个同行和sologan的变体的定性和定量结果证明了该方法的优点，尤其是对于挑战i2i翻译数据集的挑战，即涉及极端形状变化的数据集或在翻译后保持复杂的背景，需要保持复杂的背景。此外，我们通过消融研究证明了Sogan中每个成分的贡献。

translated by 谷歌翻译

Weakly-Supervised Cloud Detection with Fixed-Point GANs

Joachim Nyborg , Ira Assent

分类：计算机视觉 | 机器学习

2021-11-23

卫星图像中的云的检测是遥感中的大数据的基本预处理任务。卷积神经网络（CNNS）在检测卫星图像中的云中大大提升了最先进的，但是现有的基于CNN的方法昂贵，因为它们需要大量具有昂贵的像素级云标签的训练图像。为了减轻这种成本，我们提出了针对云检测（FCD）的定点GaN，这是一种弱监督的方法。只有图像级标签训练，我们学习在清晰和阴天的图像之间的固定点转换，因此在翻译期间只影响云。这样做使我们的方法能够通过将卫星图像转换为清除并将阈值设置为两个图像之间的差异来预测像素级云标签。此外，我们提出了FCD +，在那里我们利用CNN的标签噪声稳健性来改进FCD的预测，从而进一步改进。我们展示了我们对Landsat-8生物群落云检测数据集的方法的有效性，在那里我们将性能接近与昂贵的像素级标签一起列车的现有全监督方法。通过微调我们的FCD +，只有1％的可用像素级标签，我们符合完全监督方法的性能。

translated by 谷歌翻译

Few-shot Adaptive Object Detection with Cross-Domain CutMix

Yuzuru Nakamura , Yasunori Ishii , Yuki Maruyama , Takayoshi Yamashita

分类：计算机视觉 | (统计)机器学习

2022-08-31

在对象检测中，数据量和成本是一种权衡，在特定领域中收集大量数据是劳动密集型的。因此，现有的大规模数据集用于预训练。但是，当目标域与源域显着不同时，常规传输学习和域的适应性不能弥合域间隙。我们提出了一种数据合成方法，可以解决大域间隙问题。在此方法中，目标图像的一部分被粘贴到源图像上，并通过利用对象边界框的信息来对齐粘贴区域的位置。此外，我们介绍对抗性学习，以区分原始区域或粘贴区域。所提出的方法在大量源图像和一些目标域图像上训练。在非常不同的域问题设置中，所提出的方法比常规方法获得更高的精度，其中RGB图像是源域，而热红外图像是目标域。同样，在模拟图像与真实图像的情况下，提出的方法达到了更高的精度。

translated by 谷歌翻译

HTML版本

Inside Out: Transforming Images of Lab-Grown Plants for Machine Learning Applications in Agriculture

A. E. Krosney , P. Sotoodeh , C. J. Henry , M. A. Beck , C. P. Bidinosti

分类：计算机视觉 | 机器学习

2022-11-05

Machine learning tasks often require a significant amount of training data for the resultant network to perform suitably for a given problem in any domain. In agriculture, dataset sizes are further limited by phenotypical differences between two plants of the same genotype, often as a result of differing growing conditions. Synthetically-augmented datasets have shown promise in improving existing models when real data is not available. In this paper, we employ a contrastive unpaired translation (CUT) generative adversarial network (GAN) and simple image processing techniques to translate indoor plant images to appear as field images. While we train our network to translate an image containing only a single plant, we show that our method is easily extendable to produce multiple-plant field images. Furthermore, we use our synthetic multi-plant images to train several YoloV5 nano object detection models to perform the task of plant detection and measure the accuracy of the model on real field data images. Including training data generated by the CUT-GAN leads to better plant detection performance compared to a network trained solely on real data.

translated by 谷歌翻译

Object Detection Using Sim2Real Domain Randomization for Robotic Applications

Dániel Horváth , Gábor Erdős , Zoltán Istenes , Tomáš Horváth , Sándor Földi

分类：机器人 | 计算机视觉

2022-08-08

在非结构化环境中工作的机器人必须能够感知和解释其周围环境。机器人技术领域基于深度学习模型的主要障碍之一是缺乏针对不同工业应用的特定领域标记数据。在本文中，我们提出了一种基于域随机化的SIM2REAL传输学习方法，用于对象检测，可以自动生成任意大小和对象类型的标记的合成数据集。随后，对最先进的卷积神经网络Yolov4进行了训练，以检测不同类型的工业对象。通过提出的域随机化方法，我们可以在零射击和单次转移的情况下分别缩小现实差距，分别达到86.32％和97.38％的MAP50分数，其中包含190个真实图像。在GEFORCE RTX 2080 TI GPU上，数据生成过程的每图像少于0.5 s，培训持续约12H，这使其方便地用于工业使用。我们的解决方案符合工业需求，因为它可以通过仅使用1个真实图像进行培训来可靠地区分相似的对象类别。据我们所知，这是迄今为止满足这些约束的唯一工作。

translated by 谷歌翻译

Applications of Deep Learning in Fish Habitat Monitoring: A Tutorial and Survey

Alzayat Saleh , Marcus Sheaves , Dean Jerry , Mostafa Rahimi Azghadi

分类：计算机视觉

2022-06-11

海洋生态系统及其鱼类栖息地越来越重要，因为它们在提供有价值的食物来源和保护效果方面的重要作用。由于它们的偏僻且难以接近自然，因此通常使用水下摄像头对海洋环境和鱼类栖息地进行监测。这些相机产生了大量数字数据，这些数据无法通过当前的手动处理方法有效地分析，这些方法涉及人类观察者。 DL是一种尖端的AI技术，在分析视觉数据时表现出了前所未有的性能。尽管它应用于无数领域，但仍在探索其在水下鱼类栖息地监测中的使用。在本文中，我们提供了一个涵盖DL的关键概念的教程，该教程可帮助读者了解对DL的工作原理的高级理解。该教程还解释了一个逐步的程序，讲述了如何为诸如水下鱼类监测等挑战性应用开发DL算法。此外，我们还提供了针对鱼类栖息地监测的关键深度学习技术的全面调查，包括分类，计数，定位和细分。此外，我们对水下鱼类数据集进行了公开调查，并比较水下鱼类监测域中的各种DL技术。我们还讨论了鱼类栖息地加工深度学习的新兴领域的一些挑战和机遇。本文是为了作为希望掌握对DL的高级了解，通过遵循我们的分步教程而为其应用开发的海洋科学家的教程，并了解如何发展其研究，以促进他们的研究。努力。同时，它适用于希望调查基于DL的最先进方法的计算机科学家，以进行鱼类栖息地监测。

translated by 谷歌翻译