智能论文笔记

Localization and Classification of Parasitic Eggs in Microscopic Images Using an EfficientDet Detector

Nouar AlDahoul , Hezerul Abdul Karim , Shaira Limson Kee , Myles Joshua Toledo Tan

分类：计算机视觉 | 机器学习

2022-08-03

原生动物和蠕虫寄生虫引起的IPI是人类在LMIC中最常见的感染之一。他们被认为是严重的公共卫生问题，因为它们会引起各种各样的潜在有害健康状况。研究人员一直在开发模式识别技术，用于在微观图像中自动鉴定寄生虫卵。现有解决方案仍然需要改进以减少诊断错误并产生快速，高效和准确的结果。我们的论文解决了这一点，并提出了一个多模式学习探测器，以将寄生卵定位并将其分为11个类别。实验是在新型的Chula-Parasiteegg-11数据集上进行的，该数据集用于训练具有有效网络V2主链和有效网络-B7+SVM的效率电脑模型。该数据集有来自11个类别的11,000个显微镜培训图像。我们的结果显示出强劲的性能，精度为92％，F1得分为93％。此外，IO分布说明了检测器的高定位能力。

translated by 谷歌翻译

ICIP 2022 Challenge on Parasitic Egg Detection and Classification in Microscopic Images: Dataset, Methods and Results

Nantheera Anantrasirichai , Thanarat H. Chalidabhongse , Duangdao Palasuwan , Korranat Naruenatthanaset , Thananop Kobchaisawat , Nuntiporn Nunthanasup , Kanyarat Boonpeng , Xudong Ma , Alin Achim

分类：计算机视觉

2022-08-11

手动检查粪便涂片样品以鉴定寄生卵的存在非常耗时，只能由专家进行。因此，需要自动化系统来解决此问题，因为它可以与严重的肠道寄生虫感染有关。本文回顾了微观图像中关于寄生卵检测和分类的ICIP 2022挑战。我们描述了此应用程序的新数据集，该数据集是同类数据集的最大数据集。参与者在挑战中使用的方法及其结果及其结果进行了汇总和讨论。

translated by 谷歌翻译

AlertTrap: A study on object detection in remote insects trap monitoring system using on-the-edge deep learning platform

An D. Le , Duy A. Pham , Dong T. Pham , Hien B. Vo

分类：计算机视觉

2021-12-26

水果苍蝇是果实产量最有害的昆虫物种之一。在AlertTrap中，使用不同的最先进的骨干功能提取器（如MobiLenetv1和MobileNetv2）的SSD架构的实现似乎是实时检测问题的潜在解决方案。SSD-MobileNetv1和SSD-MobileNetv2表现良好并导致AP至0.5分别为0.957和1.0。YOLOV4-TINY优于SSD家族，在AP@0.5中为1.0;但是，其吞吐量速度略微慢。

translated by 谷歌翻译

Computer Vision on X-ray Data in Industrial Production and Security Applications: A survey

Mehdi Rafiei , Jenni Raitoharju , Alexandros Iosifidis

分类：计算机视觉

2022-11-10

X-ray imaging technology has been used for decades in clinical tasks to reveal the internal condition of different organs, and in recent years, it has become more common in other areas such as industry, security, and geography. The recent development of computer vision and machine learning techniques has also made it easier to automatically process X-ray images and several machine learning-based object (anomaly) detection, classification, and segmentation methods have been recently employed in X-ray image analysis. Due to the high potential of deep learning in related image processing applications, it has been used in most of the studies. This survey reviews the recent research on using computer vision and machine learning for X-ray analysis in industrial production and security applications and covers the applications, techniques, evaluation metrics, datasets, and performance comparison of those techniques on publicly available datasets. We also highlight some drawbacks in the published research and give recommendations for future research in computer vision-based X-ray analysis.

translated by 谷歌翻译

Comparison of Object Detection Algorithms for Street-level Objects

Martinus Grady Naftali , Jason Sebastian Sulistyawan , Kelvin Julian

分类：计算机视觉 | 机器学习

2022-08-24

从汽车和交通检测到自动驾驶汽车系统，可以将街道对象的对象检测应用于各种用例。因此，找到最佳的对象检测算法对于有效应用它至关重要。已经发布了许多对象检测算法，许多对象检测算法比较了对象检测算法，但是很少有人比较了最新的算法，例如Yolov5，主要是侧重于街道级对象。本文比较了各种单阶段探测器算法； SSD MobilenetV2 FPN-Lite 320x320，Yolov3，Yolov4，Yolov5L和Yolov5S在实时图像中用于街道级对象检测。该实验利用了带有3,169张图像的修改后的自动驾驶汽车数据集。数据集分为火车，验证和测试；然后，使用重新处理，色相转移和噪音对其进行预处理和增强。然后对每种算法进行训练和评估。基于实验，算法根据推论时间及其精度，召回，F1得分和平均平均精度（MAP）产生了不错的结果。结果还表明，Yolov5L的映射@.5 of 0.593，MobileNetV2 FPN-Lite的推理时间最快，而其他推理时间仅为3.20ms。还发现Yolov5s是最有效的，其具有Yolov5L精度和速度几乎与MobilenetV2 FPN-Lite一样快。这表明各种算法适用于街道级对象检测，并且足够可行，可以用于自动驾驶汽车。

translated by 谷歌翻译

Situation Awareness for Automated Surgical Check-listing in AI-Assisted Operating Room

Tochukwu Onyeogulu , Amirul Islam , Salman Khan , Izzeddin Teeti , Fabio Cuzzolin

分类：计算机视觉

2022-09-12

如今，使用微创手术（MIS）进行了更多的手术程序。这是由于其许多好处，例如最小的术后问题，较少的出血，较小的疤痕和快速的康复。但是，MIS的视野，小手术室和对操作场景的间接查看可能导致手术工具发生冲突并可能损害人体器官或组织。因此，通过使用内窥镜视频饲料实时检测和监视手术仪器，可以大大减少MIS问题，并且可以提高手术程序的准确性和成功率。在本文中，研究，分析和评估了对Yolov5对象检测器的一系列改进，以增强手术仪器的检测。在此过程中，我们进行了基于性能的消融研究，探索了改变Yolov5模型的骨干，颈部和锚固结构元素的影响，并注释了独特的内窥镜数据集。此外，我们将消融研究的有效性与其他四个SOTA对象探测器（Yolov7，Yolor，Scaled-Yolov4和Yolov3-SPP）进行了比较。除了Yolov3-SPP（在MAP中具有98.3％的模型性能和相似的推理速度）外，我们的所有基准模型（包括原始的Yolov5）在使用新的内窥镜数据集的实验中超过了我们的顶级精制模型。

translated by 谷歌翻译

A Comparison Study of Deep CNN Architecture in Detecting of Pneumonia

Al Mohidur Rahman Porag , Md. Mahedi Hasan , Dr. Md Taimur Ahad

分类：计算机视觉 | 机器学习

2022-12-30

Pneumonia, a respiratory infection brought on by bacteria or viruses, affects a large number of people, especially in developing and impoverished countries where high levels of pollution, unclean living conditions, and overcrowding are frequently observed, along with insufficient medical infrastructure. Pleural effusion, a condition in which fluids fill the lung and complicate breathing, is brought on by pneumonia. Early detection of pneumonia is essential for ensuring curative care and boosting survival rates. The approach most usually used to diagnose pneumonia is chest X-ray imaging. The purpose of this work is to develop a method for the automatic diagnosis of bacterial and viral pneumonia in digital x-ray pictures. This article first presents the authors' technique, and then gives a comprehensive report on recent developments in the field of reliable diagnosis of pneumonia. In this study, here tuned a state-of-the-art deep convolutional neural network to classify plant diseases based on images and tested its performance. Deep learning architecture is compared empirically. VGG19, ResNet with 152v2, Resnext101, Seresnet152, Mobilenettv2, and DenseNet with 201 layers are among the architectures tested. Experiment data consists of two groups, sick and healthy X-ray pictures. To take appropriate action against plant diseases as soon as possible, rapid disease identification models are preferred. DenseNet201 has shown no overfitting or performance degradation in our experiments, and its accuracy tends to increase as the number of epochs increases. Further, DenseNet201 achieves state-of-the-art performance with a significantly a smaller number of parameters and within a reasonable computing time. This architecture outperforms the competition in terms of testing accuracy, scoring 95%. Each architecture was trained using Keras, using Theano as the backend.

translated by 谷歌翻译

Rice Leaf Disease Classification and Detection Using YOLOv5

Md Ershadul Haque , Ashikur Rahman , Iftekhar Junaeid , Samiul Ul Hoque , Manoranjan Paul

分类：计算机视觉 | 人工智能

2022-09-04

全球一百多个国家的主食是大米（Oryza sativa）。大米的种植对于全球经济增长至关重要。但是，农业产业面临的主要问题是水稻疾病。农作物的质量和数量下降了，这是主要原因。由于任何国家的农民对水稻疾病都没有太多了解，因此他们无法正确诊断稻叶疾病。这就是为什么他们不能适当照顾米叶的原因。结果，生产正在减少。从文献调查中，Yolov5表现出更好的结果与其他深度学习方法相比。由于对象检测技术的不断发展，Yolo家族算法具有非常高的精度和更好的速度，已在各种场景识别任务中使用，以构建稻叶疾病监测系统。我们已经注释了1500个收集的数据集，并提出了基于Yolov5深学习的水稻疾病分类和检测方法。然后，我们训练并评估了Yolov5模型。模拟结果显示了本文提出的增强Yolov5网络的对象检测结果的改进。所需的识别精度，召回，MAP值和F1得分的水平分别为90 \％，67 \％，76 \％和81 \％\％被视为性能指标。

translated by 谷歌翻译

A Survey on Masked Facial Detection Methods and Datasets for Fighting Against COVID-19

Bingshu Wang , Jiangbin Zheng , C. L. Philip Chen

分类：计算机视觉 | 机器学习

2022-01-13

2019年冠状病毒疾病（Covid-19）继续自爆发以来对世界产生巨大挑战。为了对抗这种疾病，开发了一系列人工智能（AI）技术，并应用于现实世界的情景，如安全监测，疾病诊断，感染风险评估，Covid-19 CT扫描的病变细分等。 Coronavirus流行病迫使人们佩戴面膜来抵消病毒的传播，这也带来了监控戴着面具的大群人群的困难。在本文中，我们主要关注蒙面面部检测和相关数据集的AI技术。从蒙面面部检测数据集的描述开始，我们调查了最近的进步。详细描述并详细讨论了十三可用数据集。然后，该方法大致分为两类：传统方法和基于神经网络的方法。常规方法通常通过用手工制作的特征升高算法来训练，该算法占少比例。基于神经网络的方法根据处理阶段的数量进一步归类为三个部分。详细描述了代表性算法，与一些简要描述的一些典型技术耦合。最后，我们总结了最近的基准测试结果，讨论了关于数据集和方法的局限性，并扩大了未来的研究方向。据我们所知，这是关于蒙面面部检测方法和数据集的第一次调查。希望我们的调查可以提供一些帮助对抗流行病的帮助。

translated by 谷歌翻译

A Comprehensive Study of Real-Time Object Detection Networks Across Multiple Domains: A Survey

Elahe Arani , Shruthi Gowda , Ratnajit Mukherjee , Omar Magdy , Senthilkumar Kathiresan , Bahram Zonooz

分类：计算机视觉 | 人工智能

2022-08-23

深神网络的对象探测器正在不断发展，并用于多种应用程序，每个应用程序都有自己的要求集。尽管关键安全应用需要高准确性和可靠性，但低延迟任务需要资源和节能网络。不断提出了实时探测器，在高影响现实世界中是必需的，但是它们过分强调了准确性和速度的提高，而其他功能（例如多功能性，鲁棒性，资源和能源效率）则被省略。现有网络的参考基准不存在，设计新网络的标准评估指南也不存在，从而导致比较模棱两可和不一致的比较。因此，我们对广泛的数据集进行了多个实时探测器（基于锚点，关键器和变压器）的全面研究，并报告了一系列广泛指标的结果。我们还研究了变量，例如图像大小，锚固尺寸，置信阈值和架构层对整体性能的影响。我们分析了检测网络的鲁棒性，以防止分配变化，自然腐败和对抗性攻击。此外，我们提供了校准分析来评估预测的可靠性。最后，为了强调现实世界的影响，我们对自动驾驶和医疗保健应用进行了两个独特的案例研究。为了进一步衡量关键实时应用程序中网络的能力，我们报告了在Edge设备上部署检测网络后的性能。我们广泛的实证研究可以作为工业界对现有网络做出明智选择的指南。我们还希望激发研究社区的设计和评估网络的新方向，该网络着重于更大而整体的概述，以实现深远的影响。

translated by 谷歌翻译

An Improved Lightweight YOLOv5 Model Based on Attention Mechanism for Face Mask Detection

Sheng Xu , Zhanyu Guo , Yuchi Liu , Jingwei Fan , Xuxu Liu

分类：计算机视觉 | 机器学习

2022-03-30

2019年冠状病毒为全球社会稳定和公共卫生带来了严重的挑战。遏制流行病的一种有效方法是要求人们在公共场所戴口罩，并通过使用合适的自动探测器来监视戴口罩状态。但是，现有的基于深度学习的模型努力同时达到高精度和实时性能的要求。为了解决这个问题，我们提出了基于Yolov5的改进的轻质面膜探测器，该检测器可以实现精确和速度的良好平衡。首先，提出了将ShuffleNetV2网络与协调注意机制相结合的新型骨干轮弹工具作为骨干。之后，将有效的路径攻击网络BIFPN作为特征融合颈应用。此外，在模型训练阶段，定位损失被α-CIOU取代，以获得更高质量的锚。还利用了一些有价值的策略，例如数据增强，自适应图像缩放和锚点群集操作。 Aizoo面膜数据集的实验结果显示了所提出模型的优越性。与原始的Yolov5相比，提出的模型将推理速度提高28.3％，同时仍将精度提高0.58％。与其他七个现有型号相比，它的最佳平均平均精度为95.2％，比基线高4.4％。

translated by 谷歌翻译

Weed Recognition using Deep Learning Techniques on Class-imbalanced Imagery

A S M Mahmudul Hasan , Ferdous Sohel , Dean Diepeveen , Hamid Laga , Michael G. K. Jones

分类：计算机视觉 | 人工智能

2021-12-15

大多数杂草物种都会通过竞争高价值作物所需的营养而产生对农业生产力的不利影响。手动除草对于大型种植区不实用。已经开展了许多研究，为农业作物制定了自动杂草管理系统。在这个过程中，其中一个主要任务是识别图像中的杂草。但是，杂草的认可是一个具有挑战性的任务。它是因为杂草和作物植物的颜色，纹理和形状类似，可以通过成像条件，当记录图像时的成像条件，地理或天气条件进一步加剧。先进的机器学习技术可用于从图像中识别杂草。在本文中，我们调查了五个最先进的深神经网络，即VGG16，Reset-50，Inception-V3，Inception-Resnet-V2和MobileNetv2，并评估其杂草识别的性能。我们使用了多种实验设置和多个数据集合组合。特别是，我们通过组合几个较小的数据集，通过数据增强构成了一个大型DataSet，缓解了类别不平衡，并在基于深度神经网络的基准测试中使用此数据集。我们通过保留预先训练的权重来调查使用转移学习技术来利用作物和杂草数据集的图像提取特征和微调它们。我们发现VGG16比小规模数据集更好地执行，而ResET-50比其他大型数据集上的其他深网络更好地执行。

translated by 谷歌翻译

A DCNN-based Arbitrarily-Oriented Object Detector for Quality Control and Inspection Application

Kai Yao , Alberto Ortiz , Francisco Bonnin-Pascual

分类：计算机视觉

2021-01-19

遵循机器视觉系统在线自动化质量控制和检查过程的成功之后，这项工作中为两个不同的特定应用提供了一种对象识别解决方案，即，在医院准备在医院进行消毒的手术工具箱中检测质量控制项目，以及检测血管船体中的缺陷，以防止潜在的结构故障。该解决方案有两个阶段。首先，基于单镜头多伯克斯检测器（SSD）的特征金字塔体系结构用于改善检测性能，并采用基于地面真实的统计分析来选择一系列默认框的参数。其次，利用轻量级神经网络使用回归方法来实现定向检测结果。该方法的第一阶段能够检测两种情况下考虑的小目标。在第二阶段，尽管很简单，但在保持较高的运行效率的同时，检测细长目标是有效的。

translated by 谷歌翻译

1st Workshop on Maritime Computer Vision (MaCVi) 2023: Challenge Results

Benjamin Kiefer , Matej Kristan , Janez Perš , Lojze Žust , Fabio Poiesi , Fabio Augusto de Alcantara Andrade , Alexandre Bernardino , Matthew Dawkins , Jenni Raitoharju , Yitong Quan

分类：计算机视觉 | 人工智能 | 机器学习 | 机器人

2022-11-24

The 1$^{\text{st}}$ Workshop on Maritime Computer Vision (MaCVi) 2023 focused on maritime computer vision for Unmanned Aerial Vehicles (UAV) and Unmanned Surface Vehicle (USV), and organized several subchallenges in this domain: (i) UAV-based Maritime Object Detection, (ii) UAV-based Maritime Object Tracking, (iii) USV-based Maritime Obstacle Segmentation and (iv) USV-based Maritime Obstacle Detection. The subchallenges were based on the SeaDronesSee and MODS benchmarks. This report summarizes the main findings of the individual subchallenges and introduces a new benchmark, called SeaDronesSee Object Detection v2, which extends the previous benchmark by including more classes and footage. We provide statistical and qualitative analyses, and assess trends in the best-performing methodologies of over 130 submissions. The methods are summarized in the appendix. The datasets, evaluation code and the leaderboard are publicly available at https://seadronessee.cs.uni-tuebingen.de/macvi.

translated by 谷歌翻译

Breast Cancer Classification Based on Histopathological Images Using a Deep Learning Capsule Network

Hayder A. Khikani , Naira Elazab , Ahmed Elgarayhi , Mohammed Elmogy , Mohammed Sallah

分类：计算机视觉

2022-08-01

乳腺癌是女性可能发生的最严重的癌症之一。通过分析组织学图像（HIS）来自动诊断乳腺癌对患者及其预后很重要。他的分类为临床医生提供了对疾病的准确了解，并使他们可以更有效地治疗患者。深度学习（DL）方法已成功地用于各种领域，尤其是医学成像，因为它们有能力自动提取功能。这项研究旨在使用他的乳腺癌对不同类型的乳腺癌进行分类。在这项研究中，我们提出了一个增强的胶囊网络，该网络使用RES2NET块和四个额外的卷积层提取多尺度特征。此外，由于使用了小的卷积内核和RES2NET块，因此所提出的方法具有较少的参数。结果，新方法的表现优于旧方法，因为它会自动学习最佳功能。测试结果表明该模型的表现优于先前的DL方法。

translated by 谷歌翻译

Malaria Parasitic Detection using a New Deep Boosted and Ensemble Learning Framework

Saddam Hussain Khan

分类：计算机视觉 | 机器学习

2022-12-05

Malaria is a potentially fatal plasmodium parasite injected by female anopheles mosquitoes that infect red blood cells and millions worldwide yearly. However, specialists' manual screening in clinical practice is laborious and prone to error. Therefore, a novel Deep Boosted and Ensemble Learning (DBEL) framework, comprising the stacking of new Boosted-BR-STM convolutional neural networks (CNN) and ensemble classifiers, is developed to screen malaria parasite images. The proposed STM-SB-BRNet is based on a new dilated-convolutional block-based split transform merge (STM) and feature-map Squeezing-Boosting (SB) ideas. Moreover, the new STM block uses regional and boundary operations to learn the malaria parasite's homogeneity, heterogeneity, and boundary with patterns. Furthermore, the diverse boosted channels are attained by employing Transfer Learning-based new feature-map SB in STM blocks at the abstract, medium, and conclusion levels to learn minute intensity and texture variation of the parasitic pattern. The proposed DBEL framework implicates the stacking of prominent and diverse boosted channels and provides the generated discriminative features of the developed Boosted-BR-STM to the ensemble of ML classifiers. The proposed framework improves the discrimination ability and generalization of ensemble learning. Moreover, the deep feature spaces of the developed Boosted-BR-STM and customized CNNs are fed into ML classifiers for comparative analysis. The proposed DBEL framework outperforms the existing techniques on the NIH malaria dataset that are enhanced using discrete wavelet transform to enrich feature space. The proposed DBEL framework achieved accuracy (98.50%), sensitivity (0.9920), F-score (0.9850), and AUC (0.997), which suggest it to be utilized for malaria parasite screening.

translated by 谷歌翻译

Detect Faces Efficiently: A Survey and Evaluations

Yuantao Feng , Shiqi Yu , Hanyang Peng , Yan-Ran Li , Jianguo Zhang

分类：计算机视觉 | 人工智能

2021-12-03

面部检测是为了在图像中搜索面部的所有可能区域，并且如果有任何情况，则定位面部。包括面部识别，面部表情识别，面部跟踪和头部姿势估计的许多应用假设面部的位置和尺寸在图像中是已知的。近几十年来，研究人员从Viola-Jones脸上检测器创造了许多典型和有效的面部探测器到当前的基于CNN的CNN。然而，随着图像和视频的巨大增加，具有面部刻度的变化，外观，表达，遮挡和姿势，传统的面部探测器被挑战来检测野外面孔的各种“脸部。深度学习技术的出现带来了非凡的检测突破，以及计算的价格相当大的价格。本文介绍了代表性的深度学习的方法，并在准确性和效率方面提出了深度和全面的分析。我们进一步比较并讨论了流行的并挑战数据集及其评估指标。进行了几种成功的基于深度学习的面部探测器的全面比较，以使用两个度量来揭示其效率：拖鞋和延迟。本文可以指导为不同应用选择合适的面部探测器，也可以开发更高效和准确的探测器。

translated by 谷歌翻译

covEcho Resource constrained lung ultrasound image analysis tool for faster triaging and active learning

Jinu Joseph , Mahesh Raveendranatha Panicker , Yale Tung Chen , Kesavadas Chandrasekharan , Vimal Chacko Mondy , Anoop Ayyappan , Jineesh Valakkada , Kiran Vishnu Narayan

分类：计算机视觉

2022-06-21

肺超声（LUS）可能是唯一可用于连续和周期性监测肺的医学成像方式。这对于在肺部感染开始期间跟踪肺表现或跟踪疫苗接种对肺部的影响非常有用，如Covid-19中的肺部作用。有许多尝试将肺严重程度分为各个类别或自动分割各种LUS地标和表现形式的尝试。但是，所有这些方法均基于训练静态机器学习模型，该模型需要大量临床注释的大数据集，并且在计算上是沉重的，并且大部分时间非现实时间。在这项工作中，提出了一种实时重量的基于活跃的学习方法，以在资源约束设置中在COVID-19的受试者中更快地进行分类。该工具基于您看起来仅一次（YOLO）网络，具有基于各种LUS地标，人工制品和表现形式的标识，肺部感染严重程度的预测，基于主动学习的可能性，提供图像质量的能力。临床医生的反馈或图像质量以及对感染严重程度高的重要框架的汇总，以进一步分析。结果表明，对于LUS地标的预测，该提议的工具在联合（IOU）阈值的交叉点上的平均平均精度（MAP）为66％。在Quadro P4000 GPU运行时，14MB轻量级Yolov5S网络可实现123 fps。该工具可根据作者的要求进行使用和分析。

translated by 谷歌翻译

Deep Domain Adaptation for Pavement Crack Detection

Huijun Liu , Chunhua Yang , Ao Li , Yongxin Ge , Sheng Huang , Xin Feng , Zhimin Ruan

分类：计算机视觉

2021-11-19

基于深度学习的路面裂缝检测方法通常需要大规模标签，具有详细的裂缝位置信息来学习准确的预测。然而，在实践中，由于路面裂缝的各种视觉模式，裂缝位置很难被手动注释。在本文中，我们提出了一种基于深域适应的裂缝检测网络（DDACDN），其学会利用源域知识来预测目标域中的多类别裂缝位置信息，其中仅是图像级标签可用的。具体地，DDACDN首先通过双分支权重共享骨干网络从源和目标域中提取裂缝特征。并且在实现跨域自适应的努力中，通过从每个域的特征空间聚合三尺度特征来构建中间域，以使来自源域的裂缝特征适应目标域。最后，该网络涉及两个域的知识，并接受识别和本地化路面裂缝的培训。为了便于准确的培训和验证域适应，我们使用两个具有挑战性的路面裂缝数据集CQu-BPDD和RDD2020。此外，我们构建了一个名为CQu-BPMDD的新型大型沥青路面多标签疾病数据集，其中包含38994个高分辨率路面疾病图像，以进一步评估模型的稳健性。广泛的实验表明，DDACDN优于最先进的路面裂纹检测方法，以预测目标结构域的裂缝位置。

translated by 谷歌翻译

Swin-transformer-yolov5 For Real-time Wine Grape Bunch Detection

Shenglian Lu , Xiaoyu Liu , Zixaun He , Manoj Karkee , Xin Zhang

分类：计算机视觉

2022-08-30

在这项研究中，提出了一种集成检测模型，即Swin-Transformer-Yolov5或Swin-T-Yolov5，用于实时葡萄酒葡萄束检测，以继承Yolov5和Swin-Transformer的优势。该研究是针对2019年7月至9月的两种不同的霞多丽（始终白色或白色混合浆果皮肤）和梅洛（白色或白色混合浆果皮肤）的研究。从2019年7月至9月。 -yolov5，其性能与几个常用/竞争性对象探测器进行了比较，包括更快的R-CNN，Yolov3，Yolov4和Yolov5。在不同的测试条件下评估了所有模型，包括两个不同的天气条件（阳光和多云），两个不同的浆果成熟度（不成熟和成熟）以及三个不同的阳光方向/强度（早晨，中午和下午）进行全面比较。此外，Swin-t-Yolov5的预测葡萄束数量与地面真实值进行了比较，包括在注释过程中的现场手动计数和手动标记。结果表明，拟议的SWIN-T-YOLOV5的表现优于所有其他研究的葡萄束检测模型，当天气多云时，最高平均平均精度（MAP）和0.89的F1得分的97％。该地图分别比更快的R-CNN，Yolov3，Yolov4和Yolov5大约大约44％，18％，14％和4％。当检测到未成熟的浆果时，Swin-T-Yolov5获得了最低的地图（90％）和F1分数（0.82），其中该地图大约比相同的浆果大约40％，5％，3％和1％。此外，在将预测与地面真相进行比较时，Swin-T-Yolov5在Chardonnay品种上的表现更好，最多可达到R2的0.91和2.36根均方根误差（RMSE）。但是，它在Merlot品种上的表现不佳，仅达到R2和3.30的RMSE的0.70。

translated by 谷歌翻译