我们介绍了一种有效的策略来产生可用于培训深层学习模型的培养皿的微生物图像的合成数据集。开发的发电机采用传统的计算机视觉算法以及用于数据增强的神经风格传输方法。我们表明该方法能够合成可用于培训能够定位,分割和分类五种不同微生物物种的神经网络模型的现实看起来的数据集。我们的方法需要更少的资源来获取有用的数据集,而不是收集和标记具有注释的整个大型真实图像。我们表明,只有100个真实图像开始,我们可以生成数据以培训一个探测器,该探测器实现了相同的探测器,而是在真实的,几十次更大的数据集上培训。我们证明了微生物检测和分割方法的有用性,但我们预计它是一般而灵活的,也可以适用于其他科学和工业领域来检测各种物体。
translated by 谷歌翻译
X-ray imaging technology has been used for decades in clinical tasks to reveal the internal condition of different organs, and in recent years, it has become more common in other areas such as industry, security, and geography. The recent development of computer vision and machine learning techniques has also made it easier to automatically process X-ray images and several machine learning-based object (anomaly) detection, classification, and segmentation methods have been recently employed in X-ray image analysis. Due to the high potential of deep learning in related image processing applications, it has been used in most of the studies. This survey reviews the recent research on using computer vision and machine learning for X-ray analysis in industrial production and security applications and covers the applications, techniques, evaluation metrics, datasets, and performance comparison of those techniques on publicly available datasets. We also highlight some drawbacks in the published research and give recommendations for future research in computer vision-based X-ray analysis.
translated by 谷歌翻译
水果和蔬菜的检测,分割和跟踪是精确农业的三个基本任务,实现了机器人的收获和产量估计。但是,现代算法是饥饿的数据,并非总是有可能收集足够的数据来运用最佳性能的监督方法。由于数据收集是一项昂贵且繁琐的任务,因此在农业中使用计算机视觉的能力通常是小企业无法实现的。在此背景下的先前工作之后,我们提出了一种初始弱监督的解决方案,以减少在精确农业应用程序中获得最新检测和细分所需的数据,在这里,我们在这里改进该系统并探索跟踪果实的问题果园。我们介绍了拉齐奥南部(意大利)葡萄的葡萄园案例,因为葡萄由于遮挡,颜色和一般照明条件而难以分割。当有一些可以用作源数据的初始标记数据(例如,葡萄酒葡萄数据)时,我们会考虑这种情况,但与目标数据有很大不同(例如表格葡萄数据)。为了改善目标数据的检测和分割,我们建议使用弱边界框标签训练分割算法,而对于跟踪,我们从运动算法中利用3D结构来生成来自已标记样品的新标签。最后,将两个系统组合成完整的半监督方法。与SOTA监督解决方案的比较表明,我们的方法如何能够训练以很少的标记图像和非常简单的标签来实现高性能的新型号。
translated by 谷歌翻译
本文介绍了用于合成近红外(NIR)图像生成和边界盒水平检测系统的数据集。不可否认的是,诸如Tensorflow或Pytorch之类的高质量机器学习框架以及大规模的Imagenet或可可数据集借助于加速GPU硬件,已将机器学习技术的极限推向了数十多年。在这些突破中,高质量的数据集是可以在模型概括和数据驱动的深神经网络的部署方面取得成功的基本构件之一。特别是,综合数据生成任务通常比其他监督方法需要更多的培训样本。因此,在本文中,我们共享从两个公共数据集(即Nirscene和Sen12ms)和我们的新颖NIR+RGB甜椒(辣椒(辣椒)数据集)重新处理的NIR+RGB数据集。我们定量和定性地证明了这些NIR+RGB数据集足以用于合成NIR图像生成。对于NIRSCENE1,SEN12MS和SEWT PEPPER数据集,我们实现了第11.36、26.53、26.53、26.53和40.15的距离(FID)。此外,我们发布了11个水果边界盒的手动注释,可以使用云服务将其作为各种格式导出。四个新添加的水果[蓝莓,樱桃,猕猴桃和小麦]化合物11新颖的边界盒数据集,在我们先前的DeepFruits项目中提出的作品[Apple,Appsicum,Capsicum,Capsicum,Mango,Orange,Rockmelon,Strawberry]。数据集的边界框实例总数为162K,可以从云服务中使用。为了评估数据集,YOLOV5单阶段检测器被利用并报告了令人印象深刻的平均水平前期,MAP [0.5:0.95]的结果为[min:0.49,最大:0.812]。我们希望这些数据集有用,并作为未来研究的基准。
translated by 谷歌翻译
许多历史地图表将公开可用于需要长期历史地理数据的研究。这些地图的制图设计包括地图符号和文本标签的组合。从地图图像自动读取文本标签可以大大加快地图解释,并有助于生成描述地图内容的丰富元数据。已经提出了许多文本检测算法以自动定位地图图像中的文本区域,但大多数算法都在Off-Offain数据集(例如,景区图像)上培训。培训数据确定机器学习模型的质量,并在地图图像中手动注释文本区域是劳动力广泛且耗时的。另一方面,现有的地理数据源(例如Open-StreetMap(OSM))包含机器可读地图图层,允许我们分开文本图层并轻松获取文本标签注释。但是,OSM地图瓷砖和历史地图之间的制图样式显着不同。本文提出了一种自动生成无限量的注释历史地图图像的方法,用于训练文本检测模型。我们使用风格转移模型将当代地图图像转换为历史风格,并将文本标签放在上面。我们表明,最先进的文本检测模型(例如,PSENET)可以从合成历史地图中受益,并对历史地图文本检测进行显着改进。
translated by 谷歌翻译
海洋生态系统及其鱼类栖息地越来越重要,因为它们在提供有价值的食物来源和保护效果方面的重要作用。由于它们的偏僻且难以接近自然,因此通常使用水下摄像头对海洋环境和鱼类栖息地进行监测。这些相机产生了大量数字数据,这些数据无法通过当前的手动处理方法有效地分析,这些方法涉及人类观察者。 DL是一种尖端的AI技术,在分析视觉数据时表现出了前所未有的性能。尽管它应用于无数领域,但仍在探索其在水下鱼类栖息地监测中的使用。在本文中,我们提供了一个涵盖DL的关键概念的教程,该教程可帮助读者了解对DL的工作原理的高级理解。该教程还解释了一个逐步的程序,讲述了如何为诸如水下鱼类监测等挑战性应用开发DL算法。此外,我们还提供了针对鱼类栖息地监测的关键深度学习技术的全面调查,包括分类,计数,定位和细分。此外,我们对水下鱼类数据集进行了公开调查,并比较水下鱼类监测域中的各种DL技术。我们还讨论了鱼类栖息地加工深度学习的新兴领域的一些挑战和机遇。本文是为了作为希望掌握对DL的高级了解,通过遵循我们的分步教程而为其应用开发的海洋科学家的教程,并了解如何发展其研究,以促进他们的研究。努力。同时,它适用于希望调查基于DL的最先进方法的计算机科学家,以进行鱼类栖息地监测。
translated by 谷歌翻译
准确地测量纳米颗粒的大小,形态和结构非常重要,因为它们在许多应用中都非常依赖其特性。在本文中,我们提出了一种基于深度学习的方法,用于根据扫描透射电子显微镜图像的少量数据集训练的纳米颗粒测量和分类。我们的方法由两个阶段组成:本地化,即检测纳米颗粒和分类,即其超微结构的分类。对于每个阶段,我们通过分析不同最新神经网络的分析来优化分割和分类。我们展示了如何使用图像处理或使用各种图像产生神经网络的合成图像的产生来改善两个阶段的结果。最后,将算法应用于双金属纳米颗粒,证明了大小分布的自动数据收集,包括复杂超微结构的分类。开发的方法可以轻松地转移到其他材料系统和纳米颗粒结构中。
translated by 谷歌翻译
车辆分类是一台热电电脑视觉主题,研究从地面查看到顶视图。在遥感中,顶视图的使用允许了解城市模式,车辆集中,交通管理等。但是,在瞄准像素方面的分类时存在一些困难:(a)大多数车辆分类研究使用对象检测方法,并且最公开的数据集设计用于此任务,(b)创建实例分段数据集是费力的,并且(C )传统的实例分段方法由于对象很小,因此在此任务上执行此任务。因此,本研究目标是:(1)提出使用GIS软件的新型半监督迭代学习方法,(2)提出一种自由盒实例分割方法,(3)提供城市规模的车辆数据集。考虑的迭代学习程序:(1)标记少数车辆,(2)在这些样本上列车,(3)使用模型对整个图像进行分类,(4)将图像预测转换为多边形shapefile,(5 )纠正有错误的一些区域,并将其包含在培训数据中,(6)重复,直到结果令人满意。为了单独的情况,我们考虑了车辆内部和车辆边界,DL模型是U-Net,具有高效网络B7骨架。当移除边框时,车辆内部变为隔离,允许唯一的对象识别。要恢复已删除的1像素边框,我们提出了一种扩展每个预测的简单方法。结果显示与掩模-RCNN(IOU中67%的82%)相比的更好的像素 - 明智的指标。关于每个对象分析,整体准确性,精度和召回大于90%。该管道适用于任何遥感目标,对分段和生成数据集非常有效。
translated by 谷歌翻译
通过丘陵形成的现场制备是一种常用的造林治疗,通过机械地创建称为丘的植物植物物质来改善树木生长条件。在现场准备之后,下一个关键步骤是计算土墩的数量,该堆积的数量为森林经理提供了对给定种植园块所需的幼苗数量的精确估计。计算土墩数量通常是通过林业工人的手动现场调查来进行的,林业工人昂贵且容易出错,尤其是在大面积地区。为了解决这个问题,我们提出了一个新颖的框架,利用无人机成像和计算机视觉的进步,以准确估计种植块上的土墩数量。提出的框架包括两个主要组件。首先,我们利用基于深度学习算法的视觉识别方法来通过基于像素的分割来进行多个对象检测。这使得可见的土墩以及其他经常看到的物体(例如树木,碎屑,水的积累)的初步计数可用于表征种植块。其次,由于视觉识别可能会受到几个扰动因子(例如丘陵侵蚀,遮挡)的限制,因此我们采用机器学习估计功能,该功能可预测基于第一阶段提取的局部块属性的最终数量。我们在新的无人机数据集上评估了所提出的框架,该数据集代表具有不同功能的众多种植块。所提出的方法在相对计数精度方面优于手动计数方法,表明它在困难情况下具有有利和有效的潜力。
translated by 谷歌翻译
许多开放世界应用程序需要检测新的对象,但最先进的对象检测和实例分段网络在此任务中不屈服。关键问题在于他们假设没有任何注释的地区应被抑制为否定,这教导了将未经讨犯的对象视为背景的模型。为了解决这个问题,我们提出了一个简单但令人惊讶的强大的数据增强和培训方案,我们呼唤学习来检测每件事(LDET)。为避免抑制隐藏的对象,背景对象可见但未标记,我们粘贴在从原始图像的小区域采样的背景图像上粘贴带有的注释对象。由于仅对这种综合增强的图像培训遭受域名,我们将培训与培训分为两部分:1)培训区域分类和回归头在增强图像上,2)在原始图像上训练掩模头。通过这种方式,模型不学习将隐藏对象作为背景分类,同时概括到真实图像。 LDET导致开放式世界实例分割任务中的许多数据集的重大改进,表现出CoCo上的交叉类别概括的基线,以及对UVO和城市的交叉数据集评估。
translated by 谷歌翻译
鲁棒和准确的核心检测对于了解荧光显微镜图像中的生物结构是重要的。现有的自动核本地化方法面临三个主要挑战:(1)大多数物体检测方法仅在2D图像上工作,并且难以延伸到3D卷; (2)基于分段的模型可以在3D卷上使用,但对于大型显微镜卷是计算昂贵的,并且它们难以区分不同的物体实例; (3)手注释的地面真理限于3D显微镜体积。为了解决这些问题,我们提出了一种可扩展方法,用于3D显微镜卷的核质心检测。我们描述了RCNN-SliceNet以检测来自不同方向的每个体积的2D核质心,并且3D聚集等级聚类(AHC)用于估计体积中核的3D质心。使用空间约束的周期 - 一致的对冲网络(SPCyclegan)进行的合成显微镜数据接受培训,并在不同类型的真实3D显微镜数据上进行测试。广泛的实验结果表明,我们的提出方法可以准确地计数并检测3D显微镜体积中的核质心。
translated by 谷歌翻译
The goal of this paper is to estimate the 6D pose and dimensions of unseen object instances in an RGB-D image. Contrary to "instance-level" 6D pose estimation tasks, our problem assumes that no exact object CAD models are available during either training or testing time. To handle different and unseen object instances in a given category, we introduce Normalized Object Coordinate Space (NOCS)-a shared canonical representation for all possible object instances within a category. Our region-based neural network is then trained to directly infer the correspondence from observed pixels to this shared object representation (NOCS) along with other object information such as class label and instance mask. These predictions can be combined with the depth map to jointly estimate the metric 6D pose and dimensions of multiple objects in a cluttered scene. To train our network, we present a new contextaware technique to generate large amounts of fully annotated mixed reality data. To further improve our model and evaluate its performance on real data, we also provide a fully annotated real-world dataset with large environment and instance variation. Extensive experiments demonstrate that the proposed method is able to robustly estimate the pose and size of unseen object instances in real environments while also achieving state-of-the-art performance on standard 6D pose estimation benchmarks.
translated by 谷歌翻译
在非结构化环境中工作的机器人必须能够感知和解释其周围环境。机器人技术领域基于深度学习模型的主要障碍之一是缺乏针对不同工业应用的特定领域标记数据。在本文中,我们提出了一种基于域随机化的SIM2REAL传输学习方法,用于对象检测,可以自动生成任意大小和对象类型的标记的合成数据集。随后,对最先进的卷积神经网络Yolov4进行了训练,以检测不同类型的工业对象。通过提出的域随机化方法,我们可以在零射击和单次转移的情况下分别缩小现实差距,分别达到86.32%和97.38%的MAP50分数,其中包含190个真实图像。在GEFORCE RTX 2080 TI GPU上,数据生成过程的每图像少于0.5 s,培训持续约12H,这使其方便地用于工业使用。我们的解决方案符合工业需求,因为它可以通过仅使用1个真实图像进行培训来可靠地区分相似的对象类别。据我们所知,这是迄今为止满足这些约束的唯一工作。
translated by 谷歌翻译
综合产生的内容的广泛扩散是一种需要紧急对策的严重威胁。合成含量的产生不限于多媒体数据,如视频,照片或音频序列,但涵盖了可以包括生物图像的显着大面积,例如西幕和微观图像。在本文中,我们专注于检测综合生成的西幕图像。生物医学文献在很大程度上探讨了西部污染图像,已经表明了如何通过目视检查或标准取证检测器轻松地伪造这些图像。为了克服缺乏公开可用的数据集,我们创建了一个包含超过14k原始的西幕图像和18K合成的Western-Blot图像的新数据集,由三种不同的最先进的生成方法产生。然后,我们调查不同的策略来检测合成的Western印迹,探索二进制分类方法以及单级探测器。在这两种情况下,我们从不利用培训阶段的合成纤维图像。所达到的结果表明,即使在这些科学图像的合成版本未优化利用检测器,综合生成的西幕图像也可以具有良好的精度。
translated by 谷歌翻译
基础设施检查是一个非常昂贵的任务,需要技术人员访问远程或难以到达的地方。这是电力传动塔的情况,这些塔稀疏地定位,需要培训的工人爬上它们以寻找损坏。最近,在行业中使用无人机或直升机进行遥控录音,使技术人员进行这种危险的任务。然而,这留下了分析大量图像的问题,这具有很大的自动化潜力。由于几个原因,这是一个具有挑战性的任务。首先,缺乏可自由的培训数据和难以收集它的问题。另外,构成损坏的界限是模糊的,在数据​​标记中引入了一定程度的主观性。图像中的不平衡类分布也在增加任务的难度方面发挥作用。本文解决了传输塔中结构损伤检测的问题,解决了这些问题。我们的主要贡献是在远程获取的无人机图像上开发损坏检测,应用技术来克服数据稀缺和歧义的问题,以及评估这种方法解决这个特殊问题的方法的可行性。
translated by 谷歌翻译
The International Workshop on Reading Music Systems (WoRMS) is a workshop that tries to connect researchers who develop systems for reading music, such as in the field of Optical Music Recognition, with other researchers and practitioners that could benefit from such systems, like librarians or musicologists. The relevant topics of interest for the workshop include, but are not limited to: Music reading systems; Optical music recognition; Datasets and performance evaluation; Image processing on music scores; Writer identification; Authoring, editing, storing and presentation systems for music scores; Multi-modal systems; Novel input-methods for music to produce written music; Web-based Music Information Retrieval services; Applications and projects; Use-cases related to written music. These are the proceedings of the 3rd International Workshop on Reading Music Systems, held in Alicante on the 23rd of July 2021.
translated by 谷歌翻译
Recently, the use of synthetic training data has been on the rise as it offers correctly labelled datasets at a lower cost. The downside of this technique is that the so-called domain gap between the real target images and synthetic training data leads to a decrease in performance. In this paper, we attempt to provide a holistic overview of how to use synthetic data for object detection. We analyse aspects of generating the data as well as techniques used to train the models. We do so by devising a number of experiments, training models on the Dataset of Industrial Metal Objects (DIMO). This dataset contains both real and synthetic images. The synthetic part has different subsets that are either exact synthetic copies of the real data or are copies with certain aspects randomised. This allows us to analyse what types of variation are good for synthetic training data and which aspects should be modelled to closely match the target data. Furthermore, we investigate what types of training techniques are beneficial towards generalisation to real data, and how to use them. Additionally, we analyse how real images can be leveraged when training on synthetic images. All these experiments are validated on real data and benchmarked to models trained on real data. The results offer a number of interesting takeaways that can serve as basic guidelines for using synthetic data for object detection. Code to reproduce results is available at https://github.com/EDM-Research/DIMO_ObjectDetection.
translated by 谷歌翻译
视觉图形,例如绘图,图表和数字,广泛用于传达统计结论。直接从这种可视化提取信息是通过科学语料库,事实检查和数据提取有效搜索的关键子问题。本文介绍了自动提取与统计图表的比较变量的框架。由于图表样式,库和工具的多样性和变化,我们利用基于计算机视觉的框架来自动识别和本地化线图中的可视化面部,散点图或条形图,并且可以包括每个图的多个系列。该框架在Matplotlib图表的大型综合生成的语料库上培训,我们在其他图表数据集中评估培训的模型。在受控实验中,我们的框架能够以87.5%的准确性进行分类,图表变量与每个图形,不同颜色和实线样式的图表之间的相关性。部署在从互联网上刮掉的真实图表上,它的精度72.8%(排除“硬”图表时的准确性为72.8%)。部署在图答数据集上时,它的准确性准确度为84.7%。
translated by 谷歌翻译
详细研究了图像上微生物对象的密度图(DM)方法的统计特性。DM由U $^2 $ -NET给出。使用了深层神经网络的两种统计方法:引导程序和蒙特卡洛(MC)辍学。对DM预测的不确定性的详细分析导致对DM模型的缺陷有了更深入的了解。根据我们的调查,我们提出了网络中的自称模块。改进的网络模型,称为\ textIt {自称密度映射}(SNDM),可以单独校正其输出密度映射,以准确预测图像中对象的总数。SNDM体系结构优于原始模型。此外,两个统计框架(Bootstrap和MC脱落)都对SNDM均具有一致的统计结果,在原始模型中未观察到。SNDM效率与检测器碱模型相当,例如更快和级联R-CNN检测器。
translated by 谷歌翻译
现有的计算机视觉系统可以与人类竞争,以理解物体的可见部分,但在描绘部分被遮挡物体的无形部分时,仍然远远远远没有达到人类。图像Amodal的完成旨在使计算机具有类似人类的Amodal完成功能,以了解完整的对象,尽管该对象被部分遮住。这项调查的主要目的是对图像Amodal完成领域的研究热点,关键技术和未来趋势提供直观的理解。首先,我们对这个新兴领域的最新文献进行了全面的评论,探讨了图像Amodal完成中的三个关键任务,包括Amodal形状完成,Amodal外观完成和订单感知。然后,我们检查了与图像Amodal完成有关的流行数据集及其共同的数据收集方法和评估指标。最后,我们讨论了现实世界中的应用程序和未来的研究方向,以实现图像的完成,从而促进了读者对现有技术和即将到来的研究趋势的挑战的理解。
translated by 谷歌翻译