捕获图像的全局拓扑对于提出对其域的准确分割至关重要。但是,大多数现有的分割方法都不能保留给定输入的初始拓扑,这对许多下游基于对象的任务有害。对于大多数在本地尺度上工作的深度学习模型来说,这是更真实的。在本文中,我们提出了一种新的拓扑深度图像分割方法,该方法依赖于新的泄漏损失:Pathloss。我们的方法是Baloss [1]的扩展,其中我们希望改进泄漏检测,以更好地恢复图像分割的接近度。这种损失使我们能够正确定位并修复预测中可能发生的关键点(边界中的泄漏),并基于最短路径搜索算法。这样,损失最小化仅在必要时才能强制连接,并最终提供了图像中对象边界的良好定位。此外,根据我们的研究,与无需使用拓扑损失的方法相比,我们的Pathloss学会了保持更强的细长结构。通过我们的拓扑损失函数培训,我们的方法在两个代表性数据集上优于最先进的拓扑感知方法:电子显微镜和历史图。
translated by 谷歌翻译
除了每个像素精度外,拓扑正确性也对具有微尺度结构的图像的分割也至关重要,例如卫星图像和生物医学图像。在本文中,通过利用数字拓扑理论,我们识别对拓扑至关重要的图像中的位置。通过专注于这些关键的位置,我们提出了一种新的同谐扭曲损失来培训深度图像分割网络以获得更好的拓扑精度。为了有效地识别这些拓扑关键的位置,我们提出了一种利用距离变换的新算法。所提出的算法以及损耗函数,自然地推广到2D和3D设置中的不同拓扑结构。拟议的损失函数有助于深度网络在拓扑知识的指标方面实现更好的性能,优于最先进的拓扑保存分段方法。
translated by 谷歌翻译
任意形状的文本检测是一项具有挑战性的任务,这是由于大小和宽高比,任意取向或形状,不准确的注释等各种变化的任务。最近引起了大量关注。但是,文本的准确像素级注释是强大的,现有的场景文本检测数据集仅提供粗粒的边界注释。因此,始终存在大量错误分类的文本像素或背景像素,从而降低基于分割的文本检测方法的性能。一般来说,像素是否属于文本与与相邻注释边界的距离高度相关。通过此观察,在本文中,我们通过概率图提出了一种创新且可靠的基于分割的检测方法,以准确检测文本实例。为了具体,我们采用Sigmoid alpha函数(SAF)将边界及其内部像素之间的距离传输到概率图。但是,由于粗粒度文本边界注释的不确定性,一个概率图无法很好地覆盖复杂的概率分布。因此,我们采用一组由一系列Sigmoid alpha函数计算出的概率图来描述可能的概率分布。此外,我们提出了一个迭代模型,以学习预测和吸收概率图,以提供足够的信息来重建文本实例。最后,采用简单的区域生长算法来汇总概率图以完成文本实例。实验结果表明,我们的方法在几个基准的检测准确性方面实现了最先进的性能。
translated by 谷歌翻译
本文通过解决面具可逆性问题来研究建筑物多边形映射的问题,该问题导致了基于学习的方法的预测蒙版和多边形之间的显着性能差距。我们通过利用分层监督(底部级顶点,中层线段和高级区域口罩)来解决此问题,并提出了一种新颖用于建筑物多边形映射的面具。结果,我们表明,学识渊博的可逆建筑面具占据了深度卷积神经网络的所有优点,用于建筑物的高绩效多边形映射。在实验中,我们评估了对Aicrowd和Inria的两个公共基准的方法。在Aicrowd数据集上,我们提出的方法对AP,APBOUNDARY和POLIS的指标获得了一致改进。对于Inria数据集,我们提出的方法还获得了IOU和准确性指标的竞争结果。型号和源代码可在https://github.com/sarahwxu上获得。
translated by 谷歌翻译
尽管近期基于深度学习的语义细分,但远程感测图像的自动建筑检测仍然是一个具有挑战性的问题,由于全球建筑物的出现巨大变化。误差主要发生在构建足迹的边界,阴影区域,以及检测外表面具有与周围区域非常相似的反射率特性的建筑物。为了克服这些问题,我们提出了一种生成的对抗基于网络的基于网络的分割框架,其具有嵌入在发电机中的不确定性关注单元和改进模块。由边缘和反向关注单元组成的细化模块,旨在精炼预测的建筑地图。边缘注意力增强了边界特征,以估计更高的精度,并且反向关注允许网络探索先前估计区域中缺少的功能。不确定性关注单元有助于网络解决分类中的不确定性。作为我们方法的权力的衡量标准,截至2021年12月4日,它在Deepglobe公共领导板上的第二名,尽管我们的方法的主要重点 - 建筑边缘 - 并不完全对齐用于排行榜排名的指标。 DeepGlobe充满挑战数据集的整体F1分数为0.745。我们还报告了对挑战的Inria验证数据集的最佳成绩,我们的网络实现了81.28%的总体验证,总体准确性为97.03%。沿着同一条线,对于官方Inria测试数据集,我们的网络总体上得分77.86%和96.41%,而且准确性。
translated by 谷歌翻译
与许多研究领域相关的管状网络样结构(例如血管,神经元或道路)的准确分割与许多研究领域有关。对于这种结构,拓扑是它们最重要的特征。特别保留连接性:在血管网络的情况下,缺少连接的容器完全改变了血液流动的动力学。我们介绍了一种新颖的相似性度量,称为Centerlinedice(短CLDICE),该度量是根据分割掩模及其(形态)骨骼的相交进行计算的。从理论上讲,我们证明,CLDICE保证拓扑保存至二进制2D和3D分割的同型等效性。扩展这一点,我们提出了一种计算高效,可区分的损失函数(软性的),用于训练任意的神经分割网络。我们在五个公共数据集上基准了软性损失,包括船只,道路和神经元(2D和3D)。对软性播放的培训可通过更准确的连通性信息,更高的图形相似性和更好的体积分数进行分割。
translated by 谷歌翻译
Recent progress on salient object detection is substantial, benefiting mostly from the explosive development of Convolutional Neural Networks (CNNs). Semantic segmentation and salient object detection algorithms developed lately have been mostly based on Fully Convolutional Neural Networks (FCNs). There is still a large room for improvement over the generic FCN models that do not explicitly deal with the scale-space problem. Holistically-Nested Edge Detector (HED) provides a skip-layer structure with deep supervision for edge and boundary detection, but the performance gain of HED on saliency detection is not obvious. In this paper, we propose a new salient object detection method by introducing short connections to the skip-layer structures within the HED architecture. Our framework takes full advantage of multi-level and multi-scale features extracted from FCNs, providing more advanced representations at each layer, a property that is critically needed to perform segment detection. Our method produces state-of-theart results on 5 widely tested salient object detection benchmarks, with advantages in terms of efficiency (0.08 seconds per image), effectiveness, and simplicity over the existing algorithms. Beyond that, we conduct an exhaustive analysis on the role of training data on performance. Our experimental results provide a more reasonable and powerful training set for future research and fair comparisons.
translated by 谷歌翻译
大规模矢量映射对于运输,城市规划,调查和人口普查很重要。我们提出了GraphMapper,这是从卫星图像中提取端到端向量图的统一框架。我们的关键思想是一种新颖的统一表示,称为“原始图”的不同拓扑的形状,这是一组形状原语及其成对关系矩阵。然后,我们将向量形状的预测,正则化和拓扑重构转换为独特的原始图学习问题。具体而言,GraphMapper是一个基于多头注意的全局形状上下文建模的通用原始图形学习网络。开发了一种嵌入式空间排序方法,用于准确的原始关系建模。我们从经验上证明了GraphMapper对两个具有挑战性的映射任务的有效性,即建立足迹正则化和道路网络拓扑重建。我们的模型在公共基准上的两项任务中都优于最先进的方法。所有代码将公开可用。
translated by 谷歌翻译
Fully convolutional neural networks (FCNs) have shown their advantages in the salient object detection task. However, most existing FCNs-based methods still suffer from coarse object boundaries. In this paper, to solve this problem, we focus on the complementarity between salient edge information and salient object information. Accordingly, we present an edge guidance network (EGNet) for salient object detection with three steps to simultaneously model these two kinds of complementary information in a single network. In the first step, we extract the salient object features by a progressive fusion way. In the second step, we integrate the local edge information and global location information to obtain the salient edge features. Finally, to sufficiently leverage these complementary features, we couple the same salient edge features with salient object features at various resolutions. Benefiting from the rich edge information and location information in salient edge features, the fused features can help locate salient objects, especially their boundaries more accurately. Experimental results demonstrate that the proposed method performs favorably against the state-of-the-art methods on six widely used datasets without any pre-processing and post-processing. The source code is available at http: //mmcheng.net/egnet/.
translated by 谷歌翻译
我们提出了一种使用持久性同源性(pH)的新的更有效的方法,一种方法来比较两个数据集的拓扑,用于训练深度网络以在空中图像中描绘道路网络和显微镜扫描中的神经元过程。它的本质是一种新的过滤功能,从两个现有技术的融合导出:基于阈值的过滤,以前用于将深网络培训到分段医学图像,并用高度函数过滤,以便在比较2D和3D形状之前使用。我们通过实验证明,深入的网络培训了我们的持久性同源性的损失,即道路网络和神经元过程的重建,这些过程比现有的拓扑和非拓扑损失功能更好地保持原件的连接性。
translated by 谷歌翻译
深度学习方法为多级医学图像细分实现了令人印象深刻的表现。但是,它们的编码不同类别(例如遏制和排除)之间拓扑相互作用的能力受到限制。这些约束自然出现在生物医学图像中,对于提高分割质量至关重要。在本文中,我们介绍了一个新型的拓扑交互模块,将拓扑相互作用编码为深神经网络。该实施完全基于卷积,因此非常有效。这使我们有能力将约束结合到端到端培训中,并丰富神经网络的功能表示。该方法的功效在不同类型的相互作用上得到了验证。我们还证明了该方法在2D和3D设置以及跨越CT和超声之类的不同模式中的专有和公共挑战数据集上的普遍性。代码可在以下网址找到:https://github.com/topoxlab/topointeraction
translated by 谷歌翻译
Deep learning based methods have significantly boosted the study of automatic building extraction from remote sensing images. However, delineating vectorized and regular building contours like a human does remains very challenging, due to the difficulty of the methodology, the diversity of building structures, and the imperfect imaging conditions. In this paper, we propose the first end-to-end learnable building contour extraction framework, named BuildMapper, which can directly and efficiently delineate building polygons just as a human does. BuildMapper consists of two main components: 1) a contour initialization module that generates initial building contours; and 2) a contour evolution module that performs both contour vertex deformation and reduction, which removes the need for complex empirical post-processing used in existing methods. In both components, we provide new ideas, including a learnable contour initialization method to replace the empirical methods, dynamic predicted and ground truth vertex pairing for the static vertex correspondence problem, and a lightweight encoder for vertex information extraction and aggregation, which benefit a general contour-based method; and a well-designed vertex classification head for building corner vertices detection, which casts light on direct structured building contour extraction. We also built a suitable large-scale building dataset, the WHU-Mix (vector) building dataset, to benefit the study of contour-based building extraction methods. The extensive experiments conducted on the WHU-Mix (vector) dataset, the WHU dataset, and the CrowdAI dataset verified that BuildMapper can achieve a state-of-the-art performance, with a higher mask average precision (AP) and boundary AP than both segmentation-based and contour-based methods.
translated by 谷歌翻译
我们提出了一项针对一项名为DiChotomous Image Segmentation(DIS)的新任务的系统研究,该任务旨在从自然图像中划分高度准确的对象。为此,我们收集了第一个称为DIS5K的大规模DIS​​数据集,其中包含5,470个高分辨率(例如2K,4K或4K或更大的图像,涵盖了遮盖,明显或细致的物体,在各种背景中。 DIS带有非常细粒的标签注释。此外,我们使用功能级和面具级别的模型培训指南介绍了一个简单的中间监督基线(IS-NET)。 IS-NET在拟议的DIS5K上的表现优于各种尖端基线,使其成为一个普遍的自学监督网络,可以促进未来的DIS研究。此外,我们设计了一个称为人类纠正工作(HCE)的新指标,该指标近似于纠正误报和假否定的鼠标点击操作的数量。 HCE用于测量模型和现实世界应用之间的差距,因此可以补充现有指标。最后,我们进行了最大规模的基准测试,评估了16个代表性分割模型,提供了有关对象复杂性的更深入的讨论,并显示了几种潜在的应用(例如,背景删除,艺术设计,3D重建)。希望这些努力能为学术和行业开辟有希望的方向。项目页面:https://xuebinqin.github.io/dis/index.html。
translated by 谷歌翻译
利用深度学习的水提取需要精确的像素级标签。然而,在像素级别标记高分辨率遥感图像非常困难。因此,我们研究如何利用点标签来提取水体并提出一种名为邻居特征聚合网络(NFANET)的新方法。与PixelLevel标签相比,Point标签更容易获得,但它们会失去许多信息。在本文中,我们利用了局部水体的相邻像素之间的相似性,并提出了邻居采样器来重塑遥感图像。然后,将采样的图像发送到网络以进行特征聚合。此外,我们使用改进的递归训练算法进一步提高提取精度,使水边界更加自然。此外,我们的方法利用相邻特征而不是全局或本地特征来学习更多代表性。实验结果表明,所提出的NFANET方法不仅优于其他研究的弱监管方法,而且还获得与最先进的结果相似。
translated by 谷歌翻译
显着对象检测(SOD)在图像分析中具有若干应用。基于深度学习的SOD方法是最有效的,但它们可能会错过具有相似颜色的前景部分。为了规避问题,我们介绍了一个后处理方法,名为\ Texit {SuperPixel Materionity}(Sess)的后期处理方法,其交替地执行两个操作,以便显着完成:基于对象的SuperPixel分段和基于SuperPixel的显着性估算。 Sess使用输入显着图来估算超像素描绘的种子,并在前景和背景中定义超顶盒查询。新的显着性图是由查询和超像素之间的颜色相似性产生的。对于给定数量的迭代的过程重复,使得所有产生的显着性图通过蜂窝自动机组合成单个。最后,使用其平均值合并后处理和初始映射。我们展示SES可以始终如一地,并在五个图像数据集上一致而大大提高三种基于深度学习的SOD方法的结果。
translated by 谷歌翻译
Image segmentation is a key topic in image processing and computer vision with applications such as scene understanding, medical image analysis, robotic perception, video surveillance, augmented reality, and image compression, among many others. Various algorithms for image segmentation have been developed in the literature. Recently, due to the success of deep learning models in a wide range of vision applications, there has been a substantial amount of works aimed at developing image segmentation approaches using deep learning models. In this survey, we provide a comprehensive review of the literature at the time of this writing, covering a broad spectrum of pioneering works for semantic and instance-level segmentation, including fully convolutional pixel-labeling networks, encoder-decoder architectures, multi-scale and pyramid based approaches, recurrent networks, visual attention models, and generative models in adversarial settings. We investigate the similarity, strengths and challenges of these deep learning models, examine the most widely used datasets, report performances, and discuss promising future research directions in this area.
translated by 谷歌翻译
人类生理学中的各种结构遵循特异性形态,通常在非常细的尺度上表达复杂性。这种结构的例子是胸前气道,视网膜血管和肝血管。可以观察到可以观察到可以观察到可以观察到可以观察到空间排列的磁共振成像(MRI),计算机断层扫描(CT),光学相干断层扫描(OCT)等医学成像模式(MRI),计算机断层扫描(CT),可以观察到空间排列的大量2D和3D图像的集合。这些结构在医学成像中的分割非常重要,因为对结构的分析提供了对疾病诊断,治疗计划和预后的见解。放射科医生手动标记广泛的数据通常是耗时且容易出错的。结果,在过去的二十年中,自动化或半自动化的计算模型已成为医学成像的流行研究领域,迄今为止,许多计算模型已经开发出来。在这项调查中,我们旨在对当前公开可用的数据集,细分算法和评估指标进行全面审查。此外,讨论了当前的挑战和未来的研究方向。
translated by 谷歌翻译
组织学图像中核和腺体的实例分割是用于癌症诊断,治疗计划和生存分析的计算病理学工作流程中的重要一步。随着现代硬件的出现,大规模质量公共数据集的最新可用性以及社区组织的宏伟挑战已经看到了自动化方法的激增,重点是特定领域的挑战,这对于技术进步和临床翻译至关重要。在这项调查中,深入分析了过去五年(2017-2022)中发表的原子核和腺体实例细分的126篇论文,进行了深入分析,讨论了当前方法的局限性和公开挑战。此外,提出了潜在的未来研究方向,并总结了最先进方法的贡献。此外,还提供了有关公开可用数据集的概括摘要以及关于说明每种挑战的最佳性能方法的巨大挑战的详细见解。此外,我们旨在使读者现有研究的现状和指针在未来的发展方向上开发可用于临床实践的方法,从而可以改善诊断,分级,预后和癌症的治疗计划。据我们所知,以前没有工作回顾了朝向这一方向的组织学图像中的实例细分。
translated by 谷歌翻译
边界是人类和计算机视觉系统使用的主要视觉提示之一。边界检测的关键问题之一是标签表示,这通常会导致类不平衡,因此,较厚的边界需要稀疏的非差异后处理步骤。在本文中,我们将边界重新解释为1D表面,并制定一对一的向量变换功能,允许训练边界预测完全避免了类不平衡问题。具体而言,我们在任何点定义边界表示,因为单位向量指向最接近的边界表面。我们的问题表述可导致方向的估计以及边界的更丰富的上下文信息,如果需要,在训练时也可以使用零像素薄边界。我们的方法在训练损失中不使用超参数和推断时固定的稳定的高参数。我们提供有关向量变换表示的理论理由/讨论。我们使用标准体系结构评估了提出的损失方法,并显示了几个数据集上其他损失和表示的出色性能。代码可在https://github.com/edomel/boundaryvt上找到。
translated by 谷歌翻译
X-ray imaging technology has been used for decades in clinical tasks to reveal the internal condition of different organs, and in recent years, it has become more common in other areas such as industry, security, and geography. The recent development of computer vision and machine learning techniques has also made it easier to automatically process X-ray images and several machine learning-based object (anomaly) detection, classification, and segmentation methods have been recently employed in X-ray image analysis. Due to the high potential of deep learning in related image processing applications, it has been used in most of the studies. This survey reviews the recent research on using computer vision and machine learning for X-ray analysis in industrial production and security applications and covers the applications, techniques, evaluation metrics, datasets, and performance comparison of those techniques on publicly available datasets. We also highlight some drawbacks in the published research and give recommendations for future research in computer vision-based X-ray analysis.
translated by 谷歌翻译