法医分析取决于从操纵图像识别隐藏迹线。由于它们无法处理功能衰减和依赖主导空间特征,传统的神经网络失败。在这项工作中,我们提出了一种新颖的门控语言注意力网络(GCA-NET),用于全球背景学习的非本地关注块。另外,我们利用所通用的注意机制结合密集的解码器网络,以引导在解码阶段期间的相关特征的流动,允许精确定位。所提出的注意力框架允许网络通过过滤粗糙度来专注于相关区域。此外,通过利用多尺度特征融合和有效的学习策略,GCA-Net可以更好地处理操纵区域的比例变化。我们表明,我们的方法在多个基准数据集中平均优于最先进的网络,平均为4.2%-5.4%AUC。最后,我们还开展了广泛的消融实验,以展示该方法对图像取证的鲁棒性。
translated by 谷歌翻译
为了防止操纵图像内容(例如剪接,复制移动和删除),我们开发了一个渐进的时空通道相关网络(PSCC-NET),以检测和本地化图像操作。 PSCC-NET以两路程的过程处理图像:一条自上而下的路径,该路径提取本地和全局特征以及检测输入图像是否被操纵的自下而上的路径,并在多个尺度上估算其操纵掩码,每个尺度都在其中面具的条件是在前一个。与传统的编码器编码器和无流动结构不同,PSCC-NET在不同尺度上的功能具有密集的交叉连接,以粗到更细致的方式产生操纵罩。此外,空间通道相关模块(SCCM)捕获自下而上路径中的空间和渠道相关性,该路径赋予了整体提示,使网络能够应对广泛的操纵攻击。得益于轻巧的主链和渐进式机制,PSCC-NET可以在50+ fps下处理1,080p图像。广泛的实验证明了PSCC-NET优于最先进方法在检测和定位方面。
translated by 谷歌翻译
With the rapid advances of image editing techniques in recent years, image manipulation detection has attracted considerable attention since the increasing security risks posed by tampered images. To address these challenges, a novel multi-scale multi-grained deep network (MSMG-Net) is proposed to automatically identify manipulated regions. In our MSMG-Net, a parallel multi-scale feature extraction structure is used to extract multi-scale features. Then the multi-grained feature learning is utilized to perceive object-level semantics relation of multi-scale features by introducing the shunted self-attention. To fuse multi-scale multi-grained features, global and local feature fusion block are designed for manipulated region segmentation by a bottom-up approach and multi-level feature aggregation block is designed for edge artifacts detection by a top-down approach. Thus, MSMG-Net can effectively perceive the object-level semantics and encode the edge artifact. Experimental results on five benchmark datasets justify the superior performance of the proposed method, outperforming state-of-the-art manipulation detection and localization methods. Extensive ablation experiments and feature visualization demonstrate the multi-scale multi-grained learning can present effective visual representations of manipulated regions. In addition, MSMG-Net shows better robustness when various post-processing methods further manipulate images.
translated by 谷歌翻译
In this paper we present TruFor, a forensic framework that can be applied to a large variety of image manipulation methods, from classic cheapfakes to more recent manipulations based on deep learning. We rely on the extraction of both high-level and low-level traces through a transformer-based fusion architecture that combines the RGB image and a learned noise-sensitive fingerprint. The latter learns to embed the artifacts related to the camera internal and external processing by training only on real data in a self-supervised manner. Forgeries are detected as deviations from the expected regular pattern that characterizes each pristine image. Looking for anomalies makes the approach able to robustly detect a variety of local manipulations, ensuring generalization. In addition to a pixel-level localization map and a whole-image integrity score, our approach outputs a reliability map that highlights areas where localization predictions may be error-prone. This is particularly important in forensic applications in order to reduce false alarms and allow for a large scale analysis. Extensive experiments on several datasets show that our method is able to reliably detect and localize both cheapfakes and deepfakes manipulations outperforming state-of-the-art works. Code will be publicly available at https://grip-unina.github.io/TruFor/
translated by 谷歌翻译
图像操纵检测的关键研究问题是如何学习对新型数据中的操纵敏感的宽大功能,而特定于防止在真实图像上的误报。目前的研究强调了敏感性,特异性主要忽略了。在本文中,我们通过多视图特征学习和多尺度监督来解决两个方面。通过利用篡改区域周围的噪声分布和边界伪影,前者旨在学习语义 - 不可知,更广泛的特征。后者允许我们从真实的图像中学习以通过依赖于语义分割损耗的现有技术来考虑非凡的图像。我们的想法是由我们术语MVSS-Net及其增强版MVSS-Net ++的新网络实现。六个公共基准数据集的综合实验证明了MVSS-Net系列的可行性,以实现像素级和图像级操作检测。
translated by 谷歌翻译
Image manipulation localization aims at distinguishing forged regions from the whole test image. Although many outstanding prior arts have been proposed for this task, there are still two issues that need to be further studied: 1) how to fuse diverse types of features with forgery clues; 2) how to progressively integrate multistage features for better localization performance. In this paper, we propose a tripartite progressive integration network (TriPINet) for end-to-end image manipulation localization. First, we extract both visual perception information, e.g., RGB input images, and visual imperceptible features, e.g., frequency and noise traces for forensic feature learning. Second, we develop a guided cross-modality dual-attention (gCMDA) module to fuse different types of forged clues. Third, we design a set of progressive integration squeeze-and-excitation (PI-SE) modules to improve localization performance by appropriately incorporating multiscale features in the decoder. Extensive experiments are conducted to compare our method with state-of-the-art image forensics approaches. The proposed TriPINet obtains competitive results on several benchmark datasets.
translated by 谷歌翻译
尽管近期基于深度学习的语义细分,但远程感测图像的自动建筑检测仍然是一个具有挑战性的问题,由于全球建筑物的出现巨大变化。误差主要发生在构建足迹的边界,阴影区域,以及检测外表面具有与周围区域非常相似的反射率特性的建筑物。为了克服这些问题,我们提出了一种生成的对抗基于网络的基于网络的分割框架,其具有嵌入在发电机中的不确定性关注单元和改进模块。由边缘和反向关注单元组成的细化模块,旨在精炼预测的建筑地图。边缘注意力增强了边界特征,以估计更高的精度,并且反向关注允许网络探索先前估计区域中缺少的功能。不确定性关注单元有助于网络解决分类中的不确定性。作为我们方法的权力的衡量标准,截至2021年12月4日,它在Deepglobe公共领导板上的第二名,尽管我们的方法的主要重点 - 建筑边缘 - 并不完全对齐用于排行榜排名的指标。 DeepGlobe充满挑战数据集的整体F1分数为0.745。我们还报告了对挑战的Inria验证数据集的最佳成绩,我们的网络实现了81.28%的总体验证,总体准确性为97.03%。沿着同一条线,对于官方Inria测试数据集,我们的网络总体上得分77.86%和96.41%,而且准确性。
translated by 谷歌翻译
深度学习已被广​​泛用于医学图像分割,并且录制了录制了该领域深度学习的成功的大量论文。在本文中,我们使用深层学习技术对医学图像分割的全面主题调查。本文进行了两个原创贡献。首先,与传统调查相比,直接将深度学习的文献分成医学图像分割的文学,并为每组详细介绍了文献,我们根据从粗略到精细的多级结构分类目前流行的文献。其次,本文侧重于监督和弱监督的学习方法,而不包括无监督的方法,因为它们在许多旧调查中引入而且他们目前不受欢迎。对于监督学习方法,我们分析了三个方面的文献:骨干网络的选择,网络块的设计,以及损耗功能的改进。对于虚弱的学习方法,我们根据数据增强,转移学习和交互式分割进行调查文献。与现有调查相比,本调查将文献分类为比例不同,更方便读者了解相关理由,并将引导他们基于深度学习方法思考医学图像分割的适当改进。
translated by 谷歌翻译
医疗图像分割有助于计算机辅助诊断,手术和治疗。数字化组织载玻片图像用于分析和分段腺,核和其他生物标志物,这些标志物进一步用于计算机辅助医疗应用中。为此,许多研究人员开发了不同的神经网络来对组织学图像进行分割,主要是这些网络基于编码器编码器体系结构,并且还利用了复杂的注意力模块或变压器。但是,这些网络不太准确地捕获相关的本地和全局特征,并在多个尺度下具有准确的边界检测,因此,我们提出了一个编码器折叠网络,快速注意模块和多损耗函数(二进制交叉熵(BCE)损失的组合) ,焦点损失和骰子损失)。我们在两个公开可用数据集上评估了我们提出的网络的概括能力,用于医疗图像分割Monuseg和Glas,并胜过最先进的网络,在Monuseg数据集上提高了1.99%的提高,而GLAS数据集则提高了7.15%。实施代码可在此链接上获得:https://bit.ly/histoseg
translated by 谷歌翻译
Fake videos represent an important misinformation threat. While existing forensic networks have demonstrated strong performance on image forgeries, recent results reported on the Adobe VideoSham dataset show that these networks fail to identify fake content in videos. In this paper, we propose a new network that is able to detect and localize a wide variety of video forgeries and manipulations. To overcome challenges that existing networks face when analyzing videos, our network utilizes both forensic embeddings to capture traces left by manipulation, context embeddings to exploit forensic traces' conditional dependencies upon local scene content, and spatial attention provided by a deep, transformer-based attention mechanism. We create several new video forgery datasets and use these, along with publicly available data, to experimentally evaluate our network's performance. These results show that our proposed network is able to identify a diverse set of video forgeries, including those not encountered during training. Furthermore, our results reinforce recent findings that image forensic networks largely fail to identify fake content in videos.
translated by 谷歌翻译
对医学图像的器官或病变的准确分割对于可靠的疾病和器官形态计量学的可靠诊断至关重要。近年来,卷积编码器解码器解决方案在自动医疗图像分割领域取得了重大进展。由于卷积操作中的固有偏见,先前的模型主要集中在相邻像素形成的局部视觉提示上,但无法完全对远程上下文依赖性进行建模。在本文中,我们提出了一个新型的基于变压器的注意力指导网络,称为Transattunet,其中多层引导注意力和多尺度跳过连接旨在共同增强语义分割体系结构的性能。受到变压器的启发,具有变压器自我注意力(TSA)和全球空间注意力(GSA)的自我意识注意(SAA)被纳入Transattunet中,以有效地学习编码器特征之间的非本地相互作用。此外,我们还使用解码器块之间的其他多尺度跳过连接来汇总具有不同语义尺度的上采样功能。这样,多尺度上下文信息的表示能力就可以增强以产生判别特征。从这些互补组件中受益,拟议的Transattunet可以有效地减轻卷积层堆叠和连续采样操作引起的细节损失,最终提高医学图像的细分质量。来自不同成像方式的多个医疗图像分割数据集进行了广泛的实验表明,所提出的方法始终优于最先进的基线。我们的代码和预培训模型可在以下网址找到:https://github.com/yishuliu/transattunet。
translated by 谷歌翻译
X-ray imaging technology has been used for decades in clinical tasks to reveal the internal condition of different organs, and in recent years, it has become more common in other areas such as industry, security, and geography. The recent development of computer vision and machine learning techniques has also made it easier to automatically process X-ray images and several machine learning-based object (anomaly) detection, classification, and segmentation methods have been recently employed in X-ray image analysis. Due to the high potential of deep learning in related image processing applications, it has been used in most of the studies. This survey reviews the recent research on using computer vision and machine learning for X-ray analysis in industrial production and security applications and covers the applications, techniques, evaluation metrics, datasets, and performance comparison of those techniques on publicly available datasets. We also highlight some drawbacks in the published research and give recommendations for future research in computer vision-based X-ray analysis.
translated by 谷歌翻译
与普通的计算机视觉任务不同,将图像操作检测任务更多地关注图像的语义内容,更关注图像操纵的微妙信息。在本文中,通过改进的约束卷积提取的噪声图像用作模型的输入,而不是原始图像,以获得更微妙的操纵痕迹。同时,由高分辨率分支和上下文分支组成的双分支网络被用来尽可能捕获伪像的痕迹。通常,大多数操纵将操纵伪像在操纵边缘上。专门设计的操纵边缘检测模块是基于双分支网络构建的,以更好地识别这些工件。图像中像素之间的相关性与它们的距离密切相关。两个像素越远,相关性越弱。我们为自我发场模块添加了一个距离因子,以更好地描述像素之间的相关性。四个公开图像操作数据集的实验结果证明了我们模型的有效性。
translated by 谷歌翻译
由于不规则的形状,正常和感染组织之间的各种尺寸和无法区分的边界,仍然是一种具有挑战性的任务,可以准确地在CT图像上进行Covid-19的感染病变。在本文中,提出了一种新的分段方案,用于通过增强基于编码器 - 解码器架构的不同级别的监督信息和融合多尺度特征映射来感染Covid-19。为此,提出了深入的协作监督(共同监督)计划,以指导网络学习边缘和语义的特征。更具体地,首先设计边缘监控模块(ESM),以通过将边缘监督信息结合到初始阶段的下采样的初始阶段来突出显示低电平边界特征。同时,提出了一种辅助语义监督模块(ASSM)来加强通过将掩码监督信息集成到稍后阶段来加强高电平语义信息。然后,通过使用注意机制来扩展高级和低电平特征映射之间的语义间隙,开发了一种注意融合模块(AFM)以融合不同级别的多个规模特征图。最后,在四个各种Covid-19 CT数据集上证明了所提出的方案的有效性。结果表明,提出的三个模块都是有希望的。基于基线(RESUNT),单独使用ESM,ASSM或AFM可以分别将骰子度量增加1.12 \%,1.95 \%,1.63 \%,而在我们的数据集中,通过将三个模型结合在一起可以上升3.97 \% 。与各个数据集的现有方法相比,所提出的方法可以在某些主要指标中获得更好的分段性能,并可实现最佳的泛化和全面的性能。
translated by 谷歌翻译
随着深度学习方法的进步,如深度卷积神经网络,残余神经网络,对抗网络的进步。 U-Net架构最广泛利用生物医学图像分割,以解决目标区域或子区域的识别和检测的自动化。在最近的研究中,基于U-Net的方法在不同应用中显示了最先进的性能,以便在脑肿瘤,肺癌,阿尔茨海默,乳腺癌等疾病的早期诊断和治疗中发育计算机辅助诊断系统等,使用各种方式。本文通过描述U-Net框架来提出这些方法的成功,然后通过执行1)型号的U-Net变体进行综合分析,2)模特内分类,建立更好的见解相关的挑战和解决方案。此外,本文还强调了基于U-Net框架在持续的大流行病,严重急性呼吸综合征冠状病毒2(SARS-COV-2)中的贡献也称为Covid-19。最后,分析了这些U-Net变体的优点和相似性以及生物医学图像分割所涉及的挑战,以发现该领域的未来未来的研究方向。
translated by 谷歌翻译
大多数息肉分段方法使用CNNS作为其骨干,导致在编码器和解码器之间的信息交换信息时的两个关键问题:1)考虑到不同级别特征之间的贡献的差异; 2)设计有效机制,以融合这些功能。不同于现有的基于CNN的方法,我们采用了一个变压器编码器,它学会了更强大和强大的表示。此外,考虑到息肉的图像采集影响和难以实现的性质,我们介绍了三种新模块,包括级联融合模块(CFM),伪装识别模块(CIM),A和相似性聚集模块(SAM)。其中,CFM用于从高级功能收集息肉的语义和位置信息,而CIM应用于在低级功能中伪装的息肉信息。在SAM的帮助下,我们将息肉区域的像素特征扩展到整个息肉区域的高电平语义位置信息,从而有效地融合了交叉级别特征。所提出的模型名为Polyp-PVT,有效地抑制了特征中的噪声,并显着提高了他们的表现力。在五个广泛采用的数据集上进行了广泛的实验表明,所提出的模型对各种具有挑战性的情况(例如,外观变化,小物体)比现有方法更加强大,并实现了新的最先进的性能。拟议的模型可在https://github.com/dengpingfan/polyp-pvt获得。
translated by 谷歌翻译
表面缺陷检测是确保工业产品质量的极其至关重要的步骤。如今,基于编码器架构的卷积神经网络(CNN)在各种缺陷检测任务中取得了巨大的成功。然而,由于卷积的内在局部性,它们通常在明确建模长距离相互作用时表现出限制,这对于复杂情况下的像素缺陷检测至关重要,例如杂乱的背景和难以辨认的伪缺陷。最近的变压器尤其擅长学习全球图像依赖性,但对于详细的缺陷位置所需的本地结构信息有限。为了克服上述局限性,我们提出了一个有效的混合变压器体系结构,称为缺陷变压器(faft),用于表面缺陷检测,该检测将CNN和Transferaler纳入统一模型,以协作捕获本地和非本地关系。具体而言,在编码器模块中,首先采用卷积茎块来保留更详细的空间信息。然后,贴片聚合块用于生成具有四个层次结构的多尺度表示形式,每个层次结构之后分别是一系列的feft块,该块分别包括用于本地位置编码的本地位置块,一个轻巧的多功能自我自我 - 注意与良好的计算效率建模多尺度的全球上下文关系,以及用于功能转换和进一步位置信息学习的卷积馈送网络。最后,提出了一个简单但有效的解码器模块,以从编码器中的跳过连接中逐渐恢复空间细节。与其他基于CNN的网络相比,三个数据集上的广泛实验证明了我们方法的优势和效率。
translated by 谷歌翻译
In this paper, we address the problem of image splicing localization with a multi-stream network architecture that processes the raw RGB image in parallel with other handcrafted forensic signals. Unlike previous methods that either use only the RGB images or stack several signals in a channel-wise manner, we propose an encoder-decoder architecture that consists of multiple encoder streams. Each stream is fed with either the tampered image or handcrafted signals and processes them separately to capture relevant information from each one independently. Finally, the extracted features from the multiple streams are fused in the bottleneck of the architecture and propagated to the decoder network that generates the output localization map. We experiment with two handcrafted algorithms, i.e., DCT and Splicebuster. Our proposed approach is benchmarked on three public forensics datasets, demonstrating competitive performance against several competing methods and achieving state-of-the-art results, e.g., 0.898 AUC on CASIA.
translated by 谷歌翻译
在过去的几年中,卷积神经网络(CNN),尤其是U-NET,一直是医学图像处理时代的流行技术。具体而言,开创性的U-NET及其替代方案成功地设法解决了各种各样的医学图像分割任务。但是,这些体系结构在本质上是不完美的,因为它们无法表现出长距离相互作用和空间依赖性,从而导致具有可变形状和结构的医学图像分割的严重性能下降。针对序列到序列预测的初步提议的变压器已成为替代体系结构,以精确地模拟由自我激进机制辅助的全局信息。尽管设计了可行的设计,但利用纯变压器来进行图像分割目的,可能导致限制的定位容量,导致低级功能不足。因此,一系列研究旨在设计基于变压器的U-NET的强大变体。在本文中,我们提出了Trans-Norm,这是一种新型的深层分割框架,它随同将变压器模块合并为标准U-NET的编码器和跳过连接。我们认为,跳过连接的方便设计对于准确的分割至关重要,因为它可以帮助扩展路径和收缩路径之间的功能融合。在这方面,我们从变压器模块中得出了一种空间归一化机制,以适应性地重新校准跳过连接路径。对医学图像分割的三个典型任务进行了广泛的实验,证明了透气的有效性。代码和训练有素的模型可在https://github.com/rezazad68/transnorm上公开获得。
translated by 谷歌翻译
可驱动区域的实时分割在完成汽车的自主感知中起着至关重要的作用。最近,使用深度学习的图像分割模型开发了一些快速的进步。但是,大多数进步都是在模型架构设计中取得的。在解决与细分有关的任何有监督的深度学习问题时,一个人构建的模型的成功取决于我们用于该模型的输入培训数据的数量和质量。该数据应包含良好的各种图像,以更好地工作分割模型。与数据集中的注释有关的问题可能会导致该模型在测试和验证中的压倒性I型和II型错误中得出结论,在试图解决现实世界问题时造成恶意问题。为了解决这个问题并使我们的模型更加准确,动态和健壮,数据增强涉及使用,因为它有助于扩展我们的样本培训数据并使其更好,整体上更加多样化。因此,在我们的研究中,我们专注于通过分析预先存在的图像数据集并相应地进行增强来研究数据增强的好处。我们的结果表明,现有最新模型(或SOTA)模型的性能和鲁棒性可以大大增加,而不会增加模型复杂性或推理时间。仅在对当今广泛使用中的其他几种增强方法和策略进行彻底研究及其相应的效果之后,仅在本文中决定并使用的增强作用。我们所有的结果都在广泛使用的CityScapes数据集上报告。
translated by 谷歌翻译