智能论文笔记

Visual Microfossil Identificationvia Deep Metric Learning

Tayfun Karaderi , Tilo Burghardt , Allison Y. Hsiang , Jacob Ramaer , Daniela N. Schmidt

分类：计算机视觉

2021-12-17

我们第一次将深度度量学习应用于微观图像上分类塑料传染媒体壳的ProB-LEM。该物种识别任务是重建过去气候的重要信息源和科学柱子。所有Foraminifer CNN识别管道在文献中产生的黑匣子分类器缺乏人类专家的可视化选项，不能应用于开放的设定问题。这里，我们对这些管道进行基准度学习，产生表型塑料综合体形态空间的第一个科学可视化，并证明公制学习可用于在训练期间进行群体看不见。我们展示了在该域中的所有已发布的基于CNN的最新的基于CNN的最先进的基准。我们评估了我们在35个现代综合素粉末类别的45张无尽的福特公共图书馆的34,640专家注释图像上的方法。我们对此数据的结果显示，在培训中从未遇到的聚类物种在从未遇到过66.5％的精度（0.70 f1-score）中，在再现专家标签中发出92％的精度（0.84 f1分）。我们得出结论，度量学习对该领域非常有效，并作为对微泡沫识别专家自动化自动化的重要工具。用本文发布了关键代码，网络权重和数据分离，以满足全重复性。

translated by 谷歌翻译

Towards Individual Grevy's Zebra Identification via Deep 3D Fitting and Metric Learning

Maria Stennett , Daniel I. Rubenstein , Tilo Burghardt

分类：计算机视觉 | 机器学习

2022-06-05

本文结合了一条管道中的物种检测，3D模型拟合和度量学习的深度学习技术，通过利用独特的外套图案来从照片中进行单个动物识别。这是尝试此操作的第一项工作，与传统的2D边界框或基于CNN的CNN识别管道相比，该方法提供了有效且明确的视图标准化，并可以直接对学习的生物特征识别人群空间进行直接可视化。请注意，由于使用度量，该管道也很容易适用于打开集和零射击重新识别方案。我们将提出的方法应用于单个Grevy的斑马（Equus Grevyi）识别，并在一项有关Smalst数据集的小型研究中显示，使用3D模型拟合确实可以使性能受益。特别是，与数据集的2D边界框方法相比，来自3D拟合模型的背面纹理将识别精度从48.0％提高到56.8％。尽管该研究的准确程度太小，无法估算大型现实应用程序设置可实现的全部性能潜力，并且与抛光工具相比，我们的工作为下一步的动物生物识别技术奠定了概念和实用的基础，以深度度量学习在开放的人口环境中驱动的，完全3D感知的动物识别。我们将网络权重和相关的促进源代码与本文发布，以完全可重复性，并作为进一步研究的灵感。

translated by 谷歌翻译

GeoCLR: Georeference Contrastive Learning for Efficient Seafloor Image Interpretation

Takaki Yamada , Adam Prügel-Bennett , Stefan B. Williams , Oscar Pizarro , Blair Thornton

分类：计算机视觉

2021-08-13

本文介绍了视觉表示（GEOCLR）的地理化对比度学习，以有效地训练深度学习卷积神经网络（CNN）。该方法通过使用附近位置拍摄的图像生成相似的图像对来利用地理网络信息，并将这些图像与相距遥远的图像对进行对比。基本的假设是，在近距离内收集的图像更可能具有相似的视觉外观，在海底机器人成像应用中可以合理地满足图像，在这些应用中，图像足迹仅限于几米的边缘长度，并将其重叠以使其重叠沿着车辆的轨迹，而海底底物和栖息地的斑块大小要大得多。这种方法的一个关键优点是它是自我监督的，并且不需要任何人类的CNN培训投入。该方法在计算上是有效的，可以使用在大多数海洋现场试验中可以访问的计算资源在多天AUV任务中之间的潜水之间产生结果。我们将GEOCLR应用于数据集上的栖息地分类，该数据集由使用自动水下车辆（AUV）收集的〜86K图像组成。我们演示了GEOCLR产生的潜在表示如何有效地指导人类注释工作，而与使用相同的CNN和同一CNN和最先进的SIMCLR相比，半监督框架平均将分类精度提高了10.2％。等效的人类注释培训。

translated by 谷歌翻译

Applications of Deep Learning in Fish Habitat Monitoring: A Tutorial and Survey

Alzayat Saleh , Marcus Sheaves , Dean Jerry , Mostafa Rahimi Azghadi

分类：计算机视觉

2022-06-11

海洋生态系统及其鱼类栖息地越来越重要，因为它们在提供有价值的食物来源和保护效果方面的重要作用。由于它们的偏僻且难以接近自然，因此通常使用水下摄像头对海洋环境和鱼类栖息地进行监测。这些相机产生了大量数字数据，这些数据无法通过当前的手动处理方法有效地分析，这些方法涉及人类观察者。 DL是一种尖端的AI技术，在分析视觉数据时表现出了前所未有的性能。尽管它应用于无数领域，但仍在探索其在水下鱼类栖息地监测中的使用。在本文中，我们提供了一个涵盖DL的关键概念的教程，该教程可帮助读者了解对DL的工作原理的高级理解。该教程还解释了一个逐步的程序，讲述了如何为诸如水下鱼类监测等挑战性应用开发DL算法。此外，我们还提供了针对鱼类栖息地监测的关键深度学习技术的全面调查，包括分类，计数，定位和细分。此外，我们对水下鱼类数据集进行了公开调查，并比较水下鱼类监测域中的各种DL技术。我们还讨论了鱼类栖息地加工深度学习的新兴领域的一些挑战和机遇。本文是为了作为希望掌握对DL的高级了解，通过遵循我们的分步教程而为其应用开发的海洋科学家的教程，并了解如何发展其研究，以促进他们的研究。努力。同时，它适用于希望调查基于DL的最先进方法的计算机科学家，以进行鱼类栖息地监测。

translated by 谷歌翻译

Ensembles of Vision Transformers as a New Paradigm for Automated Classification in Ecology

S. Kyathanahally , T. Hardeman , M. Reyes , E. Merz , T. Bulas , P. Brun , F. Pomati , M. Baity-Jesi

分类：计算机视觉 | 机器学习

2022-03-03

监测生物多样性对于管理和保护自然资源至关重要，尤其是在全球变化时期。通过大型时间或空间尺度收集生物的图像是一种有前途的实践，可以监测和研究自然生态系统的生物多样性变化，从而提供大量数据，并且对环境的干扰最少。目前，深度学习模型用于将生物分类自动化为分类单元。但是，这些分类器中的不精确性引入了难以控制的测量噪声，并且可能会大大阻碍数据的分析和解释。在我们的研究中，我们表明，可以通过数据效率高的图像变压器（DEIT）的集合来克服这种限制，从而极大地表现了先前的艺术状态（SOTA）。我们验证了各种各样的生态成像数据集的结果，以及从浮游生物到昆虫，鸟类，狗品种，野生动物和珊瑚的研究生物。在我们测试的所有数据集中，我们都实现了新的SOTA，并且根据数据集的不同，相对于先前的SOTA的错误从18.48％到87.50％不等，并且通常可以实现非常接近完美分类的性能。 Deits的合奏表现更好的主要原因不是由于Deits的单模性能，而是由于独立模型的预测具有较小的重叠，这可以最大程度地获得结合的利润。这将DEIT定位为生物多样性监测中图像分类的最佳候选者。

translated by 谷歌翻译

Single Morphing Attack Detection using Siamese Network and Few-shot Learning

Juan Tapia , Daniel Schulz , Christoph Busch

分类：计算机视觉

2022-06-22

面部变形攻击检测具有挑战性，并为面部验证系统带来了具体和严重的威胁。此类攻击的可靠检测机制已通过强大的跨数据库协议和未知的变形工具进行了测试，这仍然是一项研究挑战。本文提出了一个框架，遵循了几次射击学习方法，该方法使用三胞胎 - 硬性损坏共享基于暹罗网络的图像信息，以应对变形攻击检测并增强聚类分类过程。该网络比较了真正的或潜在的变形图像与变形和真正的面部图像的三胞胎。我们的结果表明，这个新的网络将数据点群集成，并将它们分配给类，以便在跨数据库方案中获得较低的相等错误率，仅共享来自未知数据库的小图像编号。几乎没有学习的学习有助于增强学习过程。使用FRGCV2训练并使用FERET和AMSL开放式数据库测试的跨数据库的实验结果将BPCer10使用RESNET50和5.50％的MobileNETV2从43％降低到4.91％。

translated by 谷歌翻译

Embracing Annotation Efficient Learning (AEL) for Digital Pathology and Natural Images

Eu Wern Teh

分类：计算机视觉

2022-12-01

Jitendra Malik once said, "Supervision is the opium of the AI researcher". Most deep learning techniques heavily rely on extreme amounts of human labels to work effectively. In today's world, the rate of data creation greatly surpasses the rate of data annotation. Full reliance on human annotations is just a temporary means to solve current closed problems in AI. In reality, only a tiny fraction of data is annotated. Annotation Efficient Learning (AEL) is a study of algorithms to train models effectively with fewer annotations. To thrive in AEL environments, we need deep learning techniques that rely less on manual annotations (e.g., image, bounding-box, and per-pixel labels), but learn useful information from unlabeled data. In this thesis, we explore five different techniques for handling AEL.

translated by 谷歌翻译

A Machine Learning Enhanced Approach for Automated Sunquake Detection in Acoustic Emission Maps

Vanessa Mercea , Alin Razvan Paraschiv , Daniela Adriana Lacatus , Anca Marginean , Diana Besliu-Ionescu

分类：计算机视觉 | 机器学习

2022-12-13

Sunquakes are seismic emissions visible on the solar surface, associated with some solar flares. Although discovered in 1998, they have only recently become a more commonly detected phenomenon. Despite the availability of several manual detection guidelines, to our knowledge, the astrophysical data produced for sunquakes is new to the field of Machine Learning. Detecting sunquakes is a daunting task for human operators and this work aims to ease and, if possible, to improve their detection. Thus, we introduce a dataset constructed from acoustic egression-power maps of solar active regions obtained for Solar Cycles 23 and 24 using the holography method. We then present a pedagogical approach to the application of machine learning representation methods for sunquake detection using AutoEncoders, Contrastive Learning, Object Detection and recurrent techniques, which we enhance by introducing several custom domain-specific data augmentation transformations. We address the main challenges of the automated sunquake detection task, namely the very high noise patterns in and outside the active region shadow and the extreme class imbalance given by the limited number of frames that present sunquake signatures. With our trained models, we find temporal and spatial locations of peculiar acoustic emission and qualitatively associate them to eruptive and high energy emission. While noting that these models are still in a prototype stage and there is much room for improvement in metrics and bias levels, we hypothesize that their agreement on example use cases has the potential to enable detection of weak solar acoustic manifestations.

translated by 谷歌翻译

Magnification-independent Histopathological Image Classification with Similarity-based Multi-scale Embeddings

Yibao Sun , Xingru Huang , Yaqi Wang , Huiyu Zhou , Qianni Zhang

分类：计算机视觉

2021-07-02

在癌症诊断和病理研究中，组织病理学图像的分类均具有巨大的价值。但是，多种原因（例如由放大因素和阶级失衡引起的变化）使其成为一项艰巨的任务，在许多情况下，从图像标签数据集中学习的常规方法在许多情况下都无法令人满意。我们观察到同一类的肿瘤通常具有共同的形态学模式。为了利用这一事实，我们提出了一种方法，该方法可以学习基于相似性的多尺度嵌入（SMSE），以实现非放大依赖性的组织病理学图像分类。特别是，利用了一对损失和三胞胎损失，以从图像对或图像三联体中学习基于相似性的嵌入。学到的嵌入提供了对图像之间相似性的准确测量，这被认为是组织病理学形态比正常图像特征更有效的表示形式。此外，为了确保生成的模型独立于放大，以不同放大因素获取的图像在学习多尺度嵌入过程中同时被馈送到网络中。除了SMSE之外，我们还消除了类不平衡的影响，而不是使用凭直觉丢弃一些简单样品的硬采矿策略，我们引入了新的增强局灶性损失，以同时惩罚硬误分类的样品，同时抑制了容易分类良好的样品。实验结果表明，与以前的方法相比，SMSE改善了乳腺癌和肝癌的组织病理图像分类任务的性能。特别是，与使用传统功能相比，SMSE在Breakhis基准测试中取得了最佳性能，其改善范围从5％到18％。

translated by 谷歌翻译

DeepVerge: Classification of Roadside Verge Biodiversity and Conservation Potential

Andrew Perrett , Charlie Barnes , Mark Schofield , Lan Qie , Petra Bosilj , James M. Brown

分类：计算机视觉

2022-06-09

开放的太空草地越来越耕种或建造，导致针对路边边缘的保护工作逐渐增加。在该国500,000公里的道路上，大约有一半的英国草原物种可以找到，约有91种威胁要么受到威胁。因此，仔细管理这些“野生动植物走廊”对于防止物种灭绝和维持草地栖息地的生物多样性至关重要。野生动植物信托基金经常获得志愿者的支持，以调查路边的边缘，并确定新的“当地野生动植物场所”是具有高保护潜力的地区。使用来自3,900公里的路边潮流的志愿者调查数据以及公开可用的街景图像，我们介绍Deepverge；一种基于深度学习的方法，可以通过检测阳性指标物种的存在来自动调查路边的段。 Deepverge使用来自林肯郡农村县的图像和地面真相调查数据的平均准确性为88％。地方当局可以使用这种方法来确定新的当地野生动植物站点，并根据法律和政府的政策义务一致，援助管理和环境计划，从而节省了数千小时的体力劳动。

translated by 谷歌翻译

Gaussian Mixture Variational Autoencoder with Contrastive Learning for Multi-Label Classification

Junwen Bai , Shufeng Kong , Carla P. Gomes

分类：机器学习

2021-12-02

多标签分类（MLC）是一个预测任务，其中每个样本可以具有多个标签。我们提出了一种基于高斯混合变分性AutoEncoder（C-GMVAE）的新型对比度学习促进的多标签预测模型，其学习多模式现有空间并采用对比损耗。除了预测模块之外，许多现有方法引入了额外的复杂神经模块以捕获标签相关性。我们发现，通过在监督环境中使用对比学习，我们可以有效利用标签信息，并学习有意义的功能和标签嵌入，捕获标签相关性和预测功率，而无需额外的神经模块。我们的方法还采用了学习和对齐功能和标签的潜在空间的想法。 C-GMVAE对潜伏空间的高斯混合结构施加了高斯混合结构，以减轻后塌陷和过正规的问题，与先前的单峰的作品相比。 C-GMVAE优先于多个公共数据集上的现有方法，通常可以匹配其他模型的完整性能，只有50％的训练数据。此外，我们表明学习的嵌入提供了对标签标签交互的解释的见解。

translated by 谷歌翻译

Going Deeper than Tracking: a Survey of Computer-Vision Based Recognition of Animal Pain and Affective States

Sofia Broomé , Marcelo Feighelstein , Anna Zamansky , Gabriel Carreira Lencioni , Pia Haubro Andersen , Francisca Pessanha , Marwa Mahmoud , Hedvig Kjellström , Albert Ali Salah

分类：计算机视觉

2022-06-16

动物运动跟踪和姿势识别的进步一直是动物行为研究的游戏规则改变者。最近，越来越多的作品比跟踪“更深”，并解决了对动物内部状态（例如情绪和痛苦）的自动认识，目的是改善动物福利，这使得这是对该领域进行系统化的及时时刻。本文对基于计算机的识别情感状态和动物的疼痛的研究进行了全面调查，并涉及面部行为和身体行为分析。我们总结了迄今为止在这个主题中所付出的努力 - 对它们进行分类，从不同的维度进行分类，突出挑战和研究差距，并提供最佳实践建议，以推进该领域以及一些未来的研究方向。

translated by 谷歌翻译

Small or Far Away? Exploiting Deep Super-Resolution and Altitude Data for Aerial Animal Surveillance

Mowen Xue , Theo Greenslade , Majid Mirmehdi , Tilo Burghardt

分类：计算机视觉

2021-11-12

高飞空中无人机捕获的视觉似乎越来越多地用于评估全球生物多样性和动物人口动态。然而，尽管超高分辨率相机，挑战采集场景和空气传播图像中的小型动物描绘，但到目前为止，这一直是利用高信心地应用计算机视觉探测器的因素。在本文中，我们首次通过将具有超级分辨率技术和高度数据组合的深度对象探测器来解决问题。特别是，我们表明，整体关注网络的超级分辨率方法和定制的海拔高度数据剥削网络进入标准识别管道，可以大大提高现实世界中的检测效率。我们评估两个公共，大型空中捕获动物数据集，Savmap和AED系统。我们发现所提出的方法可以一致地改善烧蚀的基线和两个数据集的最先进的性能。此外，我们对动物分辨率与检测性能之间的关系提供了系统分析。我们得出结论，超级分辨率和高度知识利用技术可以显着增加环境的基准，因此，在检测到空中图像中的微小解决的动物时应常规使用。

translated by 谷歌翻译

A Unified Survey on Anomaly, Novelty, Open-Set, and Out-of-Distribution Detection: Solutions and Future Challenges

Mohammadreza Salehi , Hossein Mirzaei , Dan Hendrycks , Yixuan Li , Mohammad Hossein Rohban , Mohammad Sabokrou

分类：计算机视觉 | 机器学习

2021-10-26

机器学习模型通常会遇到与训练分布不同的样本。无法识别分布（OOD）样本，因此将该样本分配给课堂标签会显着损害模型的可靠性。由于其对在开放世界中的安全部署模型的重要性，该问题引起了重大关注。由于对所有可能的未知分布进行建模的棘手性，检测OOD样品是具有挑战性的。迄今为止，一些研究领域解决了检测陌生样本的问题，包括异常检测，新颖性检测，一级学习，开放式识别识别和分布外检测。尽管有相似和共同的概念，但分别分布，开放式检测和异常检测已被独立研究。因此，这些研究途径尚未交叉授粉，创造了研究障碍。尽管某些调查打算概述这些方法，但它们似乎仅关注特定领域，而无需检查不同领域之间的关系。这项调查旨在在确定其共同点的同时，对各个领域的众多著名作品进行跨域和全面的审查。研究人员可以从不同领域的研究进展概述中受益，并协同发展未来的方法。此外，据我们所知，虽然进行异常检测或单级学习进行了调查，但没有关于分布外检测的全面或最新的调查，我们的调查可广泛涵盖。最后，有了统一的跨域视角，我们讨论并阐明了未来的研究线，打算将这些领域更加紧密地融为一体。

translated by 谷歌翻译

Weed Recognition using Deep Learning Techniques on Class-imbalanced Imagery

A S M Mahmudul Hasan , Ferdous Sohel , Dean Diepeveen , Hamid Laga , Michael G. K. Jones

分类：计算机视觉 | 人工智能

2021-12-15

大多数杂草物种都会通过竞争高价值作物所需的营养而产生对农业生产力的不利影响。手动除草对于大型种植区不实用。已经开展了许多研究，为农业作物制定了自动杂草管理系统。在这个过程中，其中一个主要任务是识别图像中的杂草。但是，杂草的认可是一个具有挑战性的任务。它是因为杂草和作物植物的颜色，纹理和形状类似，可以通过成像条件，当记录图像时的成像条件，地理或天气条件进一步加剧。先进的机器学习技术可用于从图像中识别杂草。在本文中，我们调查了五个最先进的深神经网络，即VGG16，Reset-50，Inception-V3，Inception-Resnet-V2和MobileNetv2，并评估其杂草识别的性能。我们使用了多种实验设置和多个数据集合组合。特别是，我们通过组合几个较小的数据集，通过数据增强构成了一个大型DataSet，缓解了类别不平衡，并在基于深度神经网络的基准测试中使用此数据集。我们通过保留预先训练的权重来调查使用转移学习技术来利用作物和杂草数据集的图像提取特征和微调它们。我们发现VGG16比小规模数据集更好地执行，而ResET-50比其他大型数据集上的其他深网络更好地执行。

translated by 谷歌翻译

Improved deep metric learning with multi-class n-pair loss objective

分类：

Deep metric learning has gained much popularity in recent years, following the success of deep learning. However, existing frameworks of deep metric learning based on contrastive loss and triplet loss often suffer from slow convergence, partially because they employ only one negative example while not interacting with the other negative classes in each update. In this paper, we propose to address this problem with a new metric learning objective called multi-class N -pair loss. The proposed objective function firstly generalizes triplet loss by allowing joint comparison among more than one negative examples -more specifically, N -1 negative examples -and secondly reduces the computational burden of evaluating deep embedding vectors via an efficient batch construction strategy using only N pairs of examples, instead of (N +1)×N . We demonstrate the superiority of our proposed loss to the triplet loss as well as other competing loss functions for a variety of tasks on several visual recognition benchmark, including fine-grained object recognition and verification, image clustering and retrieval, and face verification and identification.

translated by 谷歌翻译

Computer Vision on X-ray Data in Industrial Production and Security Applications: A survey

Mehdi Rafiei , Jenni Raitoharju , Alexandros Iosifidis

分类：计算机视觉

2022-11-10

X-ray imaging technology has been used for decades in clinical tasks to reveal the internal condition of different organs, and in recent years, it has become more common in other areas such as industry, security, and geography. The recent development of computer vision and machine learning techniques has also made it easier to automatically process X-ray images and several machine learning-based object (anomaly) detection, classification, and segmentation methods have been recently employed in X-ray image analysis. Due to the high potential of deep learning in related image processing applications, it has been used in most of the studies. This survey reviews the recent research on using computer vision and machine learning for X-ray analysis in industrial production and security applications and covers the applications, techniques, evaluation metrics, datasets, and performance comparison of those techniques on publicly available datasets. We also highlight some drawbacks in the published research and give recommendations for future research in computer vision-based X-ray analysis.

translated by 谷歌翻译

Proceedings of the 3rd International Workshop on Reading Music Systems

Jorge Calvo-Zaragoza , Alexander Pacha

分类：计算机视觉 | 机器学习

2022-12-01

The International Workshop on Reading Music Systems (WoRMS) is a workshop that tries to connect researchers who develop systems for reading music, such as in the field of Optical Music Recognition, with other researchers and practitioners that could benefit from such systems, like librarians or musicologists. The relevant topics of interest for the workshop include, but are not limited to: Music reading systems; Optical music recognition; Datasets and performance evaluation; Image processing on music scores; Writer identification; Authoring, editing, storing and presentation systems for music scores; Multi-modal systems; Novel input-methods for music to produce written music; Web-based Music Information Retrieval services; Applications and projects; Use-cases related to written music. These are the proceedings of the 3rd International Workshop on Reading Music Systems, held in Alicante on the 23rd of July 2021.

translated by 谷歌翻译

Anchoring to Exemplars for Training Mixture-of-Expert Cell Embeddings

Siqi Wang , Manyuan Lu , Nikita Moshkov , Juan C. Caicedo , Bryan A. Plummer

分类：机器学习

2021-12-06

分析显微镜图像中细胞的形态可以为化合物或基因的功能提供洞察。解决此任务需要不仅可以从图像中提取生物信息的方法，而且还忽略了技术变异，即，用于收集显微镜图像的设备之间的实验过程或差异的变化。我们提出了与专家混合（团队）的嵌入学习方法提出了治疗计划，该方法学习了一组专家，专门专门捕获我们的培训集中的技术变异，然后在测试时间汇总专家的预测。因此，通过最大限度地减少每个专家的噪声，团队可以通过更少的技术变化偏差来学习强大的嵌入。要培训我们的模型，我们利用了处理样本，使我们的方法能够在每个小靶中捕获整个数据集的分布，同时仍然适用于GPU存储器。我们在三个数据集中评估了我们的方法，如药物发现，促进了识别细胞治疗的真实作用机制的表现，通过最先进的5.5-11％。

translated by 谷歌翻译

Demystifying Unsupervised Semantic Correspondence Estimation

Mehmet Aygün , Oisin Mac Aodha

分类：计算机视觉 | 机器学习

2022-07-11

我们通过无监督学习的角度探索语义对应估计。我们使用标准化的评估协议彻底评估了最近提出的几种跨多个挑战数据集的无监督方法，在该协议中，我们会改变诸如骨干架构，预训练策略以及预训练和填充数据集等因素。为了更好地了解这些方法的故障模式，并为了提供更清晰的改进途径，我们提供了一个新的诊断框架以及一个新的性能指标，该指标更适合于语义匹配任务。最后，我们引入了一种新的无监督的对应方法，该方法利用了预训练的功能的强度，同时鼓励在训练过程中进行更好的比赛。与当前的最新方法相比，这会导致匹配性能明显更好。

translated by 谷歌翻译