在组织表征和癌症诊断中,多式联运成像已成为一种强大的技术。由于计算进步,可以利用大型数据集来改善病理中的诊断和发现模式。但是,这需要高效且可扩展的图像检索方法。跨型号图像检索特别要求,因为在不同方式捕获的相同内容的图像可以显示很少的常见信息。我们提出了一种基于内容的图像检索系统(CBIR),用于反向(子)图像搜索,以给定个模态中的显微镜图像给出给定由不同的模态捕获的相应图像,其中图像不对齐并且仅共享少量结构。我们建议将深度学习结合生成嵌入共同空间中的模型的陈述,具有经典,快速,强大的特征提取器(Sift,Surf),以创建一个用于有效可靠的检索的文字模型。我们独立的自主方法显示了有希望的明菲尔德和二次谐波产生显微镜图像的公共数据集。我们获得75.4%和83.6%的前10名检索成功,以便在一个或另一个方向中检索。我们所提出的方法显着优于原始多模式(子)图像的直接检索,以及它们对相应的生成对抗网络(GaN)的图像到图像转换。我们确定所提出的方法与最近的子图像检索工具包,GAN的图像到图像翻译和用于跨模型图像检索的下游任务的学习特征提取器更好。我们突出了后一种方法的缺点,并遵守CBIR管道中学习陈述和特征提取器的体征和不变性属性的重要性。代码将在github.com/mida-group上获得。
translated by 谷歌翻译
在这项工作中,我们提出了一种具有里程碑意义的检索方法,该方法利用了全球和本地功能。暹罗网络用于全球功能提取和度量学习,该网络对具有里程碑意义的搜索进行了初步排名。我们利用暹罗体系结构的提取特征图作为本地描述符,然后使用本地描述符之间的余弦相似性进一步完善搜索结果。我们对Google Landmark数据集进行了更深入的分析,该数据集用于评估,并增加数据集以处理各种类内差异。此外,我们进行了几项实验,以比较转移学习和度量学习的影响以及使用其他局部描述符的实验。我们表明,使用本地功能的重新排列可以改善搜索结果。我们认为,使用余弦相似性的拟议的本地特征提取是一种简单的方法,可以扩展到许多其他检索任务。
translated by 谷歌翻译
近年来,已经产生了大量的视觉内容,并从许多领域共享,例如社交媒体平台,医学成像和机器人。这种丰富的内容创建和共享引入了新的挑战,特别是在寻找类似内容内容的图像检索(CBIR)-A的数据库中,即长期建立的研究区域,其中需要改进的效率和准确性来实时检索。人工智能在CBIR中取得了进展,并大大促进了实例搜索过程。在本调查中,我们审查了最近基于深度学习算法和技术开发的实例检索工作,通过深网络架构类型,深度功能,功能嵌入方法以及网络微调策略组织了调查。我们的调查考虑了各种各样的最新方法,在那里,我们识别里程碑工作,揭示各种方法之间的联系,并呈现常用的基准,评估结果,共同挑战,并提出未来的未来方向。
translated by 谷歌翻译
我们提出了一种Saimaa环形密封(Pusa hispida saimensis)的方法。通过摄像机捕获和众包访问大型图像量,为动物监测和保护提供了新的可能性,并呼吁自动分析方法,特别是在重新识别图像中的单个动物时。所提出的方法通过PELAGE模式聚合(NORPPA)重新识别新型环形密封件,利用Saimaa环形密封件的永久和独特的毛线模式和基于内容的图像检索技术。首先,对查询图像进行了预处理,每个密封实例都进行了分段。接下来,使用基于U-NET编码器解码器的方法提取密封件的层模式。然后,将基于CNN的仿射不变特征嵌入并聚集到Fisher载体中。最后,使用Fisher载体之间的余弦距离用于从已知个体数据库中找到最佳匹配。我们在新的挑战性Saimaa环形密封件重新识别数据集上对该方法进行了各种修改的广泛实验。在与替代方法的比较中,提出的方法显示出在我们的数据集上产生最佳的重新识别精度。
translated by 谷歌翻译
Image descriptors based on activations of Convolutional Neural Networks (CNNs) have become dominant in image retrieval due to their discriminative power, compactness of representation, and search efficiency. Training of CNNs, either from scratch or fine-tuning, requires a large amount of annotated data, where a high quality of annotation is often crucial. In this work, we propose to fine-tune CNNs for image retrieval on a large collection of unordered images in a fully automated manner. Reconstructed 3D models obtained by the state-of-the-art retrieval and structure-from-motion methods guide the selection of the training data. We show that both hard-positive and hard-negative examples, selected by exploiting the geometry and the camera positions available from the 3D models, enhance the performance of particular-object retrieval. CNN descriptor whitening discriminatively learned from the same training data outperforms commonly used PCA whitening. We propose a novel trainable Generalized-Mean (GeM) pooling layer that generalizes max and average pooling and show that it boosts retrieval performance. Applying the proposed method to the VGG network achieves state-of-the-art performance on the standard benchmarks: Oxford Buildings, Paris, and Holidays datasets.
translated by 谷歌翻译
尽管提取了通过手工制作和基于学习的描述符实现的本地特征的进步,但它们仍然受到不符合非刚性转换的不变性的限制。在本文中,我们提出了一种计算来自静止图像的特征的新方法,该特征对于非刚性变形稳健,以避免匹配可变形表面和物体的问题。我们的变形感知当地描述符,命名优惠,利用极性采样和空间变压器翘曲,以提供旋转,尺度和图像变形的不变性。我们通过将等距非刚性变形应用于模拟环境中的对象作为指导来提供高度辨别的本地特征来培训模型架构端到端。该实验表明,我们的方法优于静止图像中的实际和现实合成可变形对象的不同数据集中的最先进的手工制作,基于学习的图像和RGB-D描述符。描述符的源代码和培训模型在https://www.verlab.dcc.ufmg.br/descriptors/neUrips2021上公开可用。
translated by 谷歌翻译
组织病理学癌症诊断是基于对染色组织载玻片的视觉检查。苏木精和曙红(H \&E)是全球常规使用的标准污渍。它很容易获取和成本效益,但是细胞和组织成分与深蓝色和粉红色的色调相对低,从而使视觉评估,数字图像分析和定量变得困难。这些局限性可以通过IHC的靶蛋白的IHC染色来克服。 IHC提供了细胞和组织成分的选择性高对比度成像,但是它们的使用在很大程度上受到了更为复杂的实验室处理和高成本的限制。我们提出了一个条件周期(CCGAN)网络,以将H \&E染色的图像转换为IHC染色图像,从而促进同一幻灯片上的虚拟IHC染色。这种数据驱动的方法仅需要有限的标记数据,但会生成像素级分割结果。提出的CCGAN模型通过添加类别条件并引入两个结构性损失函数,改善了原始网络\ cite {Zhu_unpaired_2017},从而实现多重辅助翻译并提高了翻译精度。 %需要在这里给出理由。实验表明,所提出的模型在不配对的图像翻译中胜过具有多材料的原始方法。我们还探索了未配对的图像对图像翻译方法的潜力,该方法应用于其他组织学图像与不同染色技术相关的任务。
translated by 谷歌翻译
组织病理学依赖于微观组织图像的分析来诊断疾病。组织制备的关键部分正在染色,从而使染料用于使显着的组织成分更具区分。但是,实验室协议和扫描设备的差异导致相应图像的显着混淆外观变化。这种变异增加了人类错误和评估者间的变异性,并阻碍了自动或半自动方法的性能。在本文中,我们引入了一个无监督的对抗网络,以在多个数据采集域中翻译(因此使)整个幻灯片图像。我们的关键贡献是:(i)一种对抗性体系结构,该架构使用信息流分支通过单个发电机 - 歧视器网络在多个域中学习,该信息流分支优化可感知损失,以及(ii)在培训过程中包含一个附加功能提取网络,以指导指导指导的额外功能提取网络。转换网络以保持组织图像中的所有结构特征完整。我们:(i)首先证明了提出的方法对120例肾癌的H \&e幻灯片的有效性,以及(ii)显示了该方法对更一般问题的好处,例如基于灵活照明的自然图像增强功能和光源适应。
translated by 谷歌翻译
横梁面部识别(CFR)旨在识别个体,其中比较面部图像源自不同的感测模式,例如红外与可见的。虽然CFR由于与模态差距相关的面部外观的显着变化,但CFR具有比经典的面部识别更具挑战性,但它在具有有限或挑战的照明的场景中,以及在呈现攻击的情况下,它是优越的。与卷积神经网络(CNNS)相关的人工智能最近的进展使CFR的显着性能提高了。由此激励,这项调查的贡献是三倍。我们提供CFR的概述,目标是通过首先正式化CFR然后呈现具体相关的应用来比较不同光谱中捕获的面部图像。其次,我们探索合适的谱带进行识别和讨论最近的CFR方法,重点放在神经网络上。特别是,我们提出了提取和比较异构特征以及数据集的重新访问技术。我们枚举不同光谱和相关算法的优势和局限性。最后,我们讨论了研究挑战和未来的研究线。
translated by 谷歌翻译
高质量注释的医学成像数据集的稀缺性是一个主要问题,它与医学成像分析领域的机器学习应用相撞并阻碍了其进步。自我监督学习是一种最近的培训范式,可以使学习强大的表示无需人类注释,这可以被视为有效的解决方案,以解决带注释的医学数据的稀缺性。本文回顾了自我监督学习方法的最新研究方向,用于图像数据,并将其专注于其在医学成像分析领域的应用。本文涵盖了从计算机视野领域的最新自我监督学习方法,因为它们适用于医学成像分析,并将其归类为预测性,生成性和对比性方法。此外,该文章涵盖了40个在医学成像分析中自学学习领域的最新研究论文,旨在阐明该领域的最新创新。最后,本文以该领域的未来研究指示结束。
translated by 谷歌翻译
本文的目的是证明,通过简单地用可符合的CNN替换骨干CNN,可以使旋转更具旋转状态,以使其与翻译和图像旋转一样。实验表明,这种提升是在不降低普通照明和观点匹配序列上的性能的情况下获得的。
translated by 谷歌翻译
We tackle the problem of large scale visual place recognition, where the task is to quickly and accurately recognize the location of a given query photograph. We present the following three principal contributions. First, we develop a convolutional neural network (CNN) architecture that is trainable in an end-to-end manner directly for the place recognition task. The main component of this architecture, NetVLAD, is a new generalized VLAD layer, inspired by the "Vector of Locally Aggregated Descriptors" image representation commonly used in image retrieval. The layer is readily pluggable into any CNN architecture and amenable to training via backpropagation. Second, we develop a training procedure, based on a new weakly supervised ranking loss, to learn parameters of the architecture in an end-to-end manner from images depicting the same places over time downloaded from Google Street View Time Machine. Finally, we show that the proposed architecture significantly outperforms non-learnt image representations and off-the-shelf CNN descriptors on two challenging place recognition benchmarks, and improves over current stateof-the-art compact image representations on standard image retrieval benchmarks.
translated by 谷歌翻译
数字病理学的最新进展导致了对通过活检图像的数据库搜索的组织病理学图像检索(HIR)系统,以找到与给定查询图像的类似情况。这些HIR系统允许病理学家毫不费力地和有效地访问数千个先前诊断的病例,以便利用相应的病理报告中的知识。由于HIR系统可能需要处理数百万千兆像素图像,因此必须使用紧凑型图像特征的提取以允许有效准确的检索。在本文中,我们提出了克条形码的应用作为HIR系统的图像特征。与大多数特征生成方案不同,Gram条形码基于高阶统计,通过总结卷积神经网络层中的不同特征图之间的相关性来描述组织纹理。我们使用预先训练的VGG19网络在三个公共数据集中运行HIR实验,用于Gram条形码生成,展示高度竞争的结果。
translated by 谷歌翻译
近年来,机器人社区已经广泛检查了关于同时定位和映射应用范围内的地点识别任务的方法。这篇文章提出了一种基于外观的循环闭合检测管道,命名为“fild ++”(快速和增量环闭合检测) .First,系统由连续图像馈送,并且通过通过单个卷积神经网络通过两次,通过单个卷积神经网络来提取全局和局部深度特征。灵活,分级导航的小世界图逐步构建表示机器人遍历路径的可视数据库基于计算的全局特征。最后,每个时间步骤抓取查询映像,被设置为在遍历的路线上检索类似的位置。遵循的图像到图像配对,它利用本地特征来评估空间信息。因此,在拟议的文章中,我们向全球和本地特征提取提出了一个网络与我们之前的一个网络工作(FILD),而在生成的深度本地特征上采用了彻底搜索验证过程,避免利用哈希代码。关于11个公共数据集的详尽实验表现出系统的高性能(实现其中八个的最高召回得分)和低执行时间(在新学院平均22.05毫秒,这是与其他国家相比包含52480图像的最大版本) - 最艺术方法。
translated by 谷歌翻译
我们研究了人类视觉系统(HVS)〜-〜形状,纹理和颜色〜-〜对对象分类的三个重要特征的贡献。我们构建了人形视觉引擎(HVE),该引擎明确和单独计算图像中的形状,纹理和颜色特征。然后将所得的特征向量连接以支持最终分类。我们表明,HVE可以总结和排序排序对对象识别的三个功能的贡献。我们使用人类实验来确认HVE和人类主要使用一些特定特征来支持特定类别的分类(例如,纹理是将斑马与其他四足动物区分开的主要特征,包括人类和HVE)。借助HVE的帮助,给定任何环境(数据集),我们可以总结整个任务的最重要功能(特定于任务的; (特定于类;为了证明HVE的更有用,我们使用它来模拟没有属性标签的人类的开放世界零射击学习能力。最后,我们表明HVE还可以通过不同特征的组合来模拟人类的想象力。我们将开源HVE引擎和相应的数据集。
translated by 谷歌翻译
Visual localization plays an important role for intelligent robots and autonomous driving, especially when the accuracy of GNSS is unreliable. Recently, camera localization in LiDAR maps has attracted more and more attention for its low cost and potential robustness to illumination and weather changes. However, the commonly used pinhole camera has a narrow Field-of-View, thus leading to limited information compared with the omni-directional LiDAR data. To overcome this limitation, we focus on correlating the information of 360 equirectangular images to point clouds, proposing an end-to-end learnable network to conduct cross-modal visual localization by establishing similarity in high-dimensional feature space. Inspired by the attention mechanism, we optimize the network to capture the salient feature for comparing images and point clouds. We construct several sequences containing 360 equirectangular images and corresponding point clouds based on the KITTI-360 dataset and conduct extensive experiments. The results demonstrate the effectiveness of our approach.
translated by 谷歌翻译
数字整体幻灯片图像包含大量信息,为开发自动图像分析工具提供了强大的动力。在数字病理领域的各种任务方面,特别是深层神经网络具有很高的潜力。但是,典型的深度学习算法除了大量图像数据之外还需要(手动)注释以实现有效的培训,这是一个限制。多个实例学习在没有完全注释的数据的情况下展示了一个强大的工具,可在情况下学习深神网络。这些方法在该域中特别有效,因为通常通常会捕获完整的整个幻灯片图像的标签,而用于斑块,区域或像素的标签则没有。这种潜力已经导致大量出版物,在过去三年中发表了多数。除了从医学的角度使用数据的可用性和高度动机外,功能强大的图形处理单元的可用性在该领域表现出加速器。在本文中,我们概述了广泛有效地使用了使用的深层实例学习方法,最新进展以及批判性地讨论剩余挑战和未来潜力的概念。
translated by 谷歌翻译
Deep convolutional networks have proven to be very successful in learning task specific features that allow for unprecedented performance on various computer vision tasks. Training of such networks follows mostly the supervised learning paradigm, where sufficiently many input-output pairs are required for training. Acquisition of large training sets is one of the key challenges, when approaching a new task. In this paper, we aim for generic feature learning and present an approach for training a convolutional network using only unlabeled data. To this end, we train the network to discriminate between a set of surrogate classes. Each surrogate class is formed by applying a variety of transformations to a randomly sampled 'seed' image patch. In contrast to supervised network training, the resulting feature representation is not class specific. It rather provides robustness to the transformations that have been applied during training. This generic feature representation allows for classification results that outperform the state of the art for unsupervised learning on several popular datasets . While such generic features cannot compete with class specific features from supervised training on a classification task, we show that they are advantageous on geometric matching problems, where they also outperform the SIFT descriptor.
translated by 谷歌翻译
在数字病理学中,许多图像分析任务是挑战,需要大量的耗时的手动数据注释来应对图像域中的各种可变性来源。基于图像到图像转换的无监督域适应在没有手动开销的情况下通过解决变量,在此字段中获得重要性。在这里,我们通过无监督的污渍到污渍翻译来解决不同组织污渍的变化,以实现深度学习分割模型的无关适用性。我们在肾组织病理学中使用污渍到染色翻译的自行合物,并提出了两种提高平移效果的新方法。首先,我们通过语义指导将先前的分段网络集成到自我监督,以自我监督的应用方向优化的翻译中的优化,第二个,我们将额外的通道纳入翻译输出,以隐含地单独分开的人工元信息,以外地编码用于解决问题。重建。后者对未修饰的Cycreatiman进行了部分优异的性能,但前者在所有污渍中表现最佳,提供了大多数肾脏结构的78%和92%的含量为78%至92%,例如肾小球,小管和静脉。然而,Cyclegans在其他结构的翻译中仅显示了有限的性能,例如,动脉。与原始污渍中的分割相比,我们的研究也发现所有污渍中的所有结构的性能稍低。我们的研究表明,随着目前无监督的技术,似乎不太可能生产通常适用的假污渍。
translated by 谷歌翻译
Segmenting the fine structure of the mouse brain on magnetic resonance (MR) images is critical for delineating morphological regions, analyzing brain function, and understanding their relationships. Compared to a single MRI modality, multimodal MRI data provide complementary tissue features that can be exploited by deep learning models, resulting in better segmentation results. However, multimodal mouse brain MRI data is often lacking, making automatic segmentation of mouse brain fine structure a very challenging task. To address this issue, it is necessary to fuse multimodal MRI data to produce distinguished contrasts in different brain structures. Hence, we propose a novel disentangled and contrastive GAN-based framework, named MouseGAN++, to synthesize multiple MR modalities from single ones in a structure-preserving manner, thus improving the segmentation performance by imputing missing modalities and multi-modality fusion. Our results demonstrate that the translation performance of our method outperforms the state-of-the-art methods. Using the subsequently learned modality-invariant information as well as the modality-translated images, MouseGAN++ can segment fine brain structures with averaged dice coefficients of 90.0% (T2w) and 87.9% (T1w), respectively, achieving around +10% performance improvement compared to the state-of-the-art algorithms. Our results demonstrate that MouseGAN++, as a simultaneous image synthesis and segmentation method, can be used to fuse cross-modality information in an unpaired manner and yield more robust performance in the absence of multimodal data. We release our method as a mouse brain structural segmentation tool for free academic usage at https://github.com/yu02019.
translated by 谷歌翻译