偏光成像以及深度学习,在包括场景分析在内的不同任务上显示了改进的性能。但是,由于培训数据集的尺寸很小,因此可能会质疑其稳健性。尽管该问题可以通过数据增强来解决,但两极分化的方式受到经典数据增强技术未解决的身体可行性约束。为了解决这个问题,我们建议使用Cyclegan,这是一种基于深层生成模型的图像翻译技术,仅依靠未配对的数据,将大型标记的路现场数据集传输到极化域。我们设计了几个辅助损失项,与自行车损失一起处理极化图像的物理约束。在道路场景对象检测任务上证明了该解决方案的效率,在该任务中,生成的逼真的极化图像允许改善汽车的性能和行人检测高达9%。由此产生的约束周期内公开释放,使任何人都可以生成自己的极化图像。
translated by 谷歌翻译
本文介绍了用于合成近红外(NIR)图像生成和边界盒水平检测系统的数据集。不可否认的是,诸如Tensorflow或Pytorch之类的高质量机器学习框架以及大规模的Imagenet或可可数据集借助于加速GPU硬件,已将机器学习技术的极限推向了数十多年。在这些突破中,高质量的数据集是可以在模型概括和数据驱动的深神经网络的部署方面取得成功的基本构件之一。特别是,综合数据生成任务通常比其他监督方法需要更多的培训样本。因此,在本文中,我们共享从两个公共数据集(即Nirscene和Sen12ms)和我们的新颖NIR+RGB甜椒(辣椒(辣椒)数据集)重新处理的NIR+RGB数据集。我们定量和定性地证明了这些NIR+RGB数据集足以用于合成NIR图像生成。对于NIRSCENE1,SEN12MS和SEWT PEPPER数据集,我们实现了第11.36、26.53、26.53、26.53和40.15的距离(FID)。此外,我们发布了11个水果边界盒的手动注释,可以使用云服务将其作为各种格式导出。四个新添加的水果[蓝莓,樱桃,猕猴桃和小麦]化合物11新颖的边界盒数据集,在我们先前的DeepFruits项目中提出的作品[Apple,Appsicum,Capsicum,Capsicum,Mango,Orange,Rockmelon,Strawberry]。数据集的边界框实例总数为162K,可以从云服务中使用。为了评估数据集,YOLOV5单阶段检测器被利用并报告了令人印象深刻的平均水平前期,MAP [0.5:0.95]的结果为[min:0.49,最大:0.812]。我们希望这些数据集有用,并作为未来研究的基准。
translated by 谷歌翻译
由于技术成本的降低和卫星发射的增加,卫星图像变得越来越流行和更容易获得。除了提供仁慈的目的外,还可以出于恶意原因(例如错误信息)使用卫星数据。事实上,可以依靠一般图像编辑工具来轻松操纵卫星图像。此外,随着深层神经网络(DNN)的激增,可以生成属于各种领域的现实合成图像,与合成生成的卫星图像的扩散有关的其他威胁正在出现。在本文中,我们回顾了关于卫星图像的产生和操纵的最新技术(SOTA)。特别是,我们既关注从头开始的合成卫星图像的产生,又要通过图像转移技术对卫星图像进行语义操纵,包括从一种类型的传感器到另一种传感器获得的图像的转换。我们还描述了迄今已研究的法医检测技术,以对合成图像伪造进行分类和检测。虽然我们主要集中在法医技术上明确定制的,该技术是针对AI生成的合成内容物的检测,但我们还审查了一些用于一般剪接检测的方法,这些方法原则上也可以用于发现AI操纵图像
translated by 谷歌翻译
频谱图分类在分析引力波数据中起重要作用。在本文中,我们提出了一个框架来通过使用生成对抗网络(GAN)来改善分类性能。由于注释光谱图需要大量的努力和专业知识,因此训练示例的数量非常有限。但是,众所周知,只有当训练集的样本量足够大时,深层网络才能表现良好。此外,不同类别中的样本数量不平衡也会阻碍性能。为了解决这些问题,我们提出了一个基于GAN的数据增强框架。虽然无法在频谱图上应用常规图像的标准数据增强方法,但我们发现,甘恩(Progan)的一种变体能够生成高分辨率频谱图,这些光谱图与高分辨率原始图像的质量一致并提供了理想的多样性。我们通过将{\ it Gravity间谍}数据集中的小故障与GAN生成的频谱图分类为训练,从而验证了我们的框架。我们表明,所提出的方法可以为使用深网的分类提供转移学习的替代方法,即使用高分辨率GAN进行数据增强。此外,可以大大降低分类性能的波动,用于训练和评估的小样本量。在我们的框架中,使用训练有素的网络,我们还检查了{\ it Gravity Spy}中标签异常的频谱图。
translated by 谷歌翻译
在良好的弹药条件下,车辆检测准确性相当准确,但在弱光条件下容易受到检测准确性不佳。弱光和眩光的组合效果或尾灯的眩光导致最新的对象检测模型更有可能错过车辆检测。但是,热红外图像对照明的变化是可靠的,并且基于热辐射。最近,生成对抗网络(GAN)已在图像域传输任务中广泛使用。最先进的GAN型号试图通过将红外图像转换为白天的RGB图像来提高夜间车辆检测准确性。但是,与白天条件相比,在夜间条件下,这些模型在夜间条件下表现不佳。因此,这项研究试图通过提出三种不同的方法来缓解这一缺点,该方法基于两个不同级别的GAN模型的组合,试图减少白天和夜间红外图像之间的特征分布差距。通过使用最新的对象检测模型测试模型,可以完成定量分析以比较提出模型的性能与最新模型的性能。定量和定性分析都表明,所提出的模型在夜间条件下的最新车辆检测模型优于最先进的GAN模型,显示了所提出的模型的功效。
translated by 谷歌翻译
在非结构化环境中工作的机器人必须能够感知和解释其周围环境。机器人技术领域基于深度学习模型的主要障碍之一是缺乏针对不同工业应用的特定领域标记数据。在本文中,我们提出了一种基于域随机化的SIM2REAL传输学习方法,用于对象检测,可以自动生成任意大小和对象类型的标记的合成数据集。随后,对最先进的卷积神经网络Yolov4进行了训练,以检测不同类型的工业对象。通过提出的域随机化方法,我们可以在零射击和单次转移的情况下分别缩小现实差距,分别达到86.32%和97.38%的MAP50分数,其中包含190个真实图像。在GEFORCE RTX 2080 TI GPU上,数据生成过程的每图像少于0.5 s,培训持续约12H,这使其方便地用于工业使用。我们的解决方案符合工业需求,因为它可以通过仅使用1个真实图像进行培训来可靠地区分相似的对象类别。据我们所知,这是迄今为止满足这些约束的唯一工作。
translated by 谷歌翻译
自治机器人目前是最受欢迎的人工智能问题之一,在过去十年中,从自动驾驶汽车和人形系统到交付机器人和无人机,这是一项最受欢迎的智能问题。部分问题是获得一个机器人,以模仿人类的感知,我们的视觉感,用诸如神经网络等数学模型用相机和大脑的眼睛替换眼睛。开发一个能够在没有人为干预的情况下驾驶汽车的AI和一个小型机器人在城市中递送包裹可能看起来像不同的问题,因此来自感知和视觉的观点来看,这两个问题都有几种相似之处。我们目前的主要解决方案通过使用计算机视觉技术,机器学习和各种算法来实现对环境感知的关注,使机器人理解环境或场景,移动,调整其轨迹并执行其任务(维护,探索,等。)无需人为干预。在这项工作中,我们从头开始开发一个小型自动车辆,能够仅使用视觉信息理解场景,通过工业环境导航,检测人员和障碍,或执行简单的维护任务。我们审查了基本问题的最先进问题,并证明了小规模采用的许多方法类似于来自特斯拉或Lyft等公司的真正自动驾驶汽车中使用的方法。最后,我们讨论了当前的机器人和自主驾驶状态以及我们在这一领域找到的技术和道德限制。
translated by 谷歌翻译
在离岸部门以及科学界在水下行动方面的迅速发展,水下车辆变得更加复杂。值得注意的是,许多水下任务,包括对海底基础设施的评估,都是在自动水下车辆(AUV)的帮助下进行的。最近在人工智能(AI)方面取得了突破,尤其是深度学习(DL)模型和应用,这些模型和应用在各种领域都广泛使用,包括空中无人驾驶汽车,自动驾驶汽车导航和其他应用。但是,由于难以获得特定应用的水下数据集,它们在水下应用中并不普遍。从这个意义上讲,当前的研究利用DL领域的最新进步来构建从实验室环境中捕获的物品照片产生的定制数据集。通过将收集到的图像与包含水下环境的照片相结合,将生成的对抗网络(GAN)用于将实验室对象数据集转化为水下域。这些发现证明了创建这样的数据集的可行性,因为与现实世界的水下船体船体图像相比,所得图像与真实的水下环境非常相似。因此,水下环境的人工数据集可以克服因对实际水下图像的有限访问而引起的困难,并用于通过水下对象图像分类和检测来增强水下操作。
translated by 谷歌翻译
自动化驾驶系统(广告)开辟了汽车行业的新领域,为未来的运输提供了更高的效率和舒适体验的新可能性。然而,在恶劣天气条件下的自主驾驶已经存在,使自动车辆(AVS)长时间保持自主车辆(AVS)或更高的自主权。本文评估了天气在分析和统计方式中为广告传感器带来的影响和挑战,并对恶劣天气条件进行了解决方案。彻底报道了关于对每种天气的感知增强的最先进技术。外部辅助解决方案如V2X技术,当前可用的数据集,模拟器和天气腔室的实验设施中的天气条件覆盖范围明显。通过指出各种主要天气问题,自主驾驶场目前正在面临,近年来审查硬件和计算机科学解决方案,这项调查概述了在不利的天气驾驶条件方面的障碍和方向的障碍和方向。
translated by 谷歌翻译
随着脑成像技术和机器学习工具的出现,很多努力都致力于构建计算模型来捕获人脑中的视觉信息的编码。最具挑战性的大脑解码任务之一是通过功能磁共振成像(FMRI)测量的脑活动的感知自然图像的精确重建。在这项工作中,我们调查了来自FMRI的自然图像重建的最新学习方法。我们在架构设计,基准数据集和评估指标方面检查这些方法,并在标准化评估指标上呈现公平的性能评估。最后,我们讨论了现有研究的优势和局限,并提出了潜在的未来方向。
translated by 谷歌翻译
横梁面部识别(CFR)旨在识别个体,其中比较面部图像源自不同的感测模式,例如红外与可见的。虽然CFR由于与模态差距相关的面部外观的显着变化,但CFR具有比经典的面部识别更具挑战性,但它在具有有限或挑战的照明的场景中,以及在呈现攻击的情况下,它是优越的。与卷积神经网络(CNNS)相关的人工智能最近的进展使CFR的显着性能提高了。由此激励,这项调查的贡献是三倍。我们提供CFR的概述,目标是通过首先正式化CFR然后呈现具体相关的应用来比较不同光谱中捕获的面部图像。其次,我们探索合适的谱带进行识别和讨论最近的CFR方法,重点放在神经网络上。特别是,我们提出了提取和比较异构特征以及数据集的重新访问技术。我们枚举不同光谱和相关算法的优势和局限性。最后,我们讨论了研究挑战和未来的研究线。
translated by 谷歌翻译
在本文中,我们提出了一种添加在生成的对抗网络(GaN)中不可替代的约束的方法(GaN)的任意大小原始拜耳图像生成。理论上,通过使用GaN培训中的转换数据来说,它能够改善原始数据分布的学习,由于在可逆性和可微分的变换下的两个分布之间的Jensen-Shannon(JS)发散。受益于所提出的方法,可以通过将变换配置为Demosaicing来生成原始拜耳图案图像。结果表明,通过添加另一个变换,所提出的方法能够合成具有任意尺寸的高质量未加工拜耳图像。实验结果表明,所提出的方法生成的图像优于FR \'Echet Inception距离(FID)得分中的现有方法,峰值信号到噪声比(PSNR),以及平均结构相似度(MSSIM),训练过程更多稳定的。为了提出作者的最佳知识,未加工拜耳域中没有开源,大型图像数据集,这对于研究工程至关重要,旨在探索计算机视觉任务的图像信号处理(ISP)管道设计。将现有的常用彩色图像数据集转换为相应的博客版本,所提出的方法可以是对原始图像数据集问题的有希望的解决方案。我们还在实验中显示,通过使用合成的原始拜耳图像训练对象检测框架,可以以端到端的方式(从原始图像到视觉任务)使用,具有可忽略的性能下降。
translated by 谷歌翻译
从单个图像中识别3D中的场景和对象是计算机视觉的长期目标,该目标具有机器人技术和AR/VR的应用。对于2D识别,大型数据集和可扩展解决方案已导致前所未有的进步。在3D中,现有的基准尺寸很小,并且方法专门研究几个对象类别和特定域,例如城市驾驶场景。在2D识别的成功中,我们通过引入一个称为Omni3d的大型基准来重新审视3D对象检测的任务。 OMNI3D重新排列并结合了现有的数据集,导致234K图像与超过300万个实例和97个类别相结合。由于相机内在的差异以及场景和对象类型的丰富多样性,因此3d检测到了这种规模的检测具有挑战性。我们提出了一个称为Cube R-CNN的模型,旨在以统一的方法跨相机和场景类型概括。我们表明,Cube R-CNN在较大的Omni3D和现有基准测试方面都优于先前的作品。最后,我们证明OMNI3D是一个用于3D对象识别的功能强大的数据集,表明它可以改善单数据库性能,并可以通过预训练在新的较小数据集上加速学习。
translated by 谷歌翻译
Current methods for image-to-image translation produce compelling results, however, the applied transformation is difficult to control, since existing mechanisms are often limited and non-intuitive. We propose ParGAN, a generalization of the cycle-consistent GAN framework to learn image transformations with simple and intuitive controls. The proposed generator takes as input both an image and a parametrization of the transformation. We train this network to preserve the content of the input image while ensuring that the result is consistent with the given parametrization. Our approach does not require paired data and can learn transformations across several tasks and datasets. We show how, with disjoint image domains with no annotated parametrization, our framework can create smooth interpolations as well as learn multiple transformations simultaneously.
translated by 谷歌翻译
与CNN的分类,分割或对象检测相比,生成网络的目标和方法根本不同。最初,它们不是作为图像分析工具,而是生成自然看起来的图像。已经提出了对抗性训练范式来稳定生成方法,并已被证明是非常成功的 - 尽管绝不是第一次尝试。本章对生成对抗网络(GAN)的动机进行了基本介绍,并通​​过抽象基本任务和工作机制并得出了早期实用方法的困难来追溯其成功的道路。将显示进行更稳定的训练方法,也将显示出不良收敛及其原因的典型迹象。尽管本章侧重于用于图像生成和图像分析的gan,但对抗性训练范式本身并非特定于图像,并且在图像分析中也概括了任务。在将GAN与最近进入场景的进一步生成建模方法进行对比之前,将闻名图像语义分割和异常检测的架构示例。这将允许对限制的上下文化观点,但也可以对gans有好处。
translated by 谷歌翻译
光有许多可以通过视觉传感器被动测量的特性。色带分离波长和强度可以说是单眼6D对象姿态估计的最常用的波长。本文探讨了互补偏振信息的互补信息,即光波振荡的方向,可以影响姿态预测的准确性。一种混合模型,利用数据驱动的学习策略共同利用物理代理,并在具有不同量的光度复杂度的物体上进行设计和仔细测试。我们的设计不仅显着提高了与光度 - 最先进的方法相关的姿态精度,而且还使对象姿势估计用于高反射性和透明的物体。
translated by 谷歌翻译
Although Deep Neural Networks (DNNs) have achieved impressive results in computer vision, their exposed vulnerability to adversarial attacks remains a serious concern. A series of works has shown that by adding elaborate perturbations to images, DNNs could have catastrophic degradation in performance metrics. And this phenomenon does not only exist in the digital space but also in the physical space. Therefore, estimating the security of these DNNs-based systems is critical for safely deploying them in the real world, especially for security-critical applications, e.g., autonomous cars, video surveillance, and medical diagnosis. In this paper, we focus on physical adversarial attacks and provide a comprehensive survey of over 150 existing papers. We first clarify the concept of the physical adversarial attack and analyze its characteristics. Then, we define the adversarial medium, essential to perform attacks in the physical world. Next, we present the physical adversarial attack methods in task order: classification, detection, and re-identification, and introduce their performance in solving the trilemma: effectiveness, stealthiness, and robustness. In the end, we discuss the current challenges and potential future directions.
translated by 谷歌翻译
通过对抗训练的雾霾图像转换的关键程序在于仅涉及雾度合成的特征,即表示不变语义内容的特征,即内容特征。以前的方法通过利用它在培训过程中对Haze图像进行分类来分开单独的内容。然而,在本文中,我们认识到在这种技术常规中的内容式解剖学的不完整性。缺陷的样式功能与内容信息纠缠不可避免地引导阴霾图像的呈现。要解决,我们通过随机线性插值提出自我监督的风格回归,以减少风格特征中的内容信息。烧蚀实验表明了静态感知雾度图像合成中的解开的完整性及其优越性。此外,所产生的雾度数据应用于车辆检测器的测试概括。雾度和检测性能之间的进一步研究表明,雾度对车辆探测器的概括具有明显的影响,并且这种性能降低水平与雾度水平线性相关,反过来验证了该方法的有效性。
translated by 谷歌翻译
作为许多自主驾驶和机器人活动的基本组成部分,如自我运动估计,障碍避免和场景理解,单眼深度估计(MDE)引起了计算机视觉和机器人社区的极大关注。在过去的几十年中,已经开发了大量方法。然而,据我们所知,对MDE没有全面调查。本文旨在通过审查1970年至2021年之间发布的197个相关条款来弥补这一差距。特别是,我们为涵盖各种方法的MDE提供了全面的调查,介绍了流行的绩效评估指标并汇总公开的数据集。我们还总结了一些代表方法的可用开源实现,并比较了他们的表演。此外,我们在一些重要的机器人任务中审查了MDE的应用。最后,我们通过展示一些有希望的未来研究方向来结束本文。预计本调查有助于读者浏览该研究领域。
translated by 谷歌翻译
现代计算机视觉已超越了互联网照片集的领域,并进入了物理世界,通过非结构化的环境引导配备摄像头的机器人和自动驾驶汽车。为了使这些体现的代理与现实世界对象相互作用,相机越来越多地用作深度传感器,重建了各种下游推理任务的环境。机器学习辅助的深度感知或深度估计会预测图像中每个像素的距离。尽管已经在深入估算中取得了令人印象深刻的进步,但仍然存在重大挑战:(1)地面真相深度标签很难大规模收集,(2)通常认为相机信息是已知的,但通常是不可靠的,并且(3)限制性摄像机假设很常见,即使在实践中使用了各种各样的相机类型和镜头。在本论文中,我们专注于放松这些假设,并描述将相机变成真正通用深度传感器的最终目标的贡献。
translated by 谷歌翻译