卷积神经网络(CNN)的泛化性能受训练图像的数量,质量和品种的影响。必须注释训练图像,这是耗时和昂贵的。我们工作的目标是减少培训CNN所需的注释图像的数量,同时保持其性能。我们假设通过确保该组训练图像包含大部分难以分类的图像,可以更快地提高CNN的性能。我们的研究目的是使用活动学习方法测试这个假设,可以自动选择难以分类的图像。我们开发了一种基于掩模区域的CNN(掩模R-CNN)的主动学习方法,并命名此方法Maskal。 Maskal涉及掩模R-CNN的迭代训练,之后培训的模型用于选择一组未标记的图像,该模型是不确定的。然后将所选择的图像注释并用于恢复掩模R-CNN,并且重复这一点用于许多采样迭代。在我们的研究中,掩模R-CNN培训由由12个采样迭代选择的2500个硬花甘蓝图像,从训练组14,000个硬花甘蓝图像的训练组中选择了12个采样迭代。对于所有采样迭代,Maskal比随机采样显着更好。此外,在抽样900图像之后,屏蔽具有相同的性能,随着随机抽样在2300张图像之后。与在整个培训集(14,000张图片)上培训的面具R-CNN模型相比,Maskal达到其性能的93.9%,其培训数据的17.9%。随机抽样占其性能的81.9%,占其培训数据的16.4%。我们得出结论,通过使用屏马,可以减少注释工作对于在西兰花的数据集上训练掩模R-CNN。我们的软件可在https://github.com/pieterblok/maskal上找到。
translated by 谷歌翻译
昂贵注释的要求是培训良好的实例细分模型的重大负担。在本文中,我们提出了一个经济活跃的学习环境,称为主动监督实例细分(API),该实例分段(API)从框级注释开始,并迭代地在盒子内划分一个点,并询问它是否属于对象。API的关键是找到最大程度地提高分段准确性的最佳点,以有限的注释预算。我们制定此设置,并提出几种基于不确定性的抽样策略。与其他学习策略相比,使用这些策略开发的模型可以在具有挑战性的MS-Coco数据集上获得一致的性能增长。结果表明,API集成了主动学习和基于点的监督的优势,是标签有效实例分割的有效学习范式。
translated by 谷歌翻译
自动基于图像的疾病严重程度估计通常使用离散(即量化)严重性标签。由于图像含糊不清,因此通常很难注释离散标签。一个更容易的替代方法是使用相对注释,该注释比较图像对之间的严重程度。通过使用带有相对注释的学习对框架,我们可以训练一个神经网络,该神经网络估计与严重程度相关的等级分数。但是,所有可能对的相对注释都是过敏的,因此,适当的样品对选择是强制性的。本文提出了深层贝叶斯的主动学习与级别,该级别训练贝叶斯卷积神经网络,同时自动选择合适的对进行相对注释。我们通过对溃疡性结肠炎的内窥镜图像进行实验证实了该方法的效率。此外,我们确认我们的方法即使在严重的类失衡中也很有用,因为它可以自动从次要类中选择样本。
translated by 谷歌翻译
语义图像分割是手术中的背景知识和自治机器人的重要前提。本领域的状态专注于在微创手术期间获得的传统RGB视频数据,但基于光谱成像数据的全景语义分割并在开放手术期间获得几乎没有注意到日期。为了解决文献中的这种差距,我们正在研究基于在开放手术环境中获得的猪的高光谱成像(HSI)数据的以下研究问题:(1)基于神经网络的HSI数据的充分表示是完全自动化的器官分割,尤其是关于数据的空间粒度(像素与Superpixels与Patches与完整图像)的空间粒度? (2)在执行语义器官分割时,是否有利用HSI数据使用HSI数据,即RGB数据和处理的HSI数据(例如氧合等组织参数)?根据基于20猪的506个HSI图像的全面验证研究,共注释了19个类,基于深度的学习的分割性能 - 贯穿模态 - 与输入数据的空间上下文一致。未处理的HSI数据提供优于RGB数据或来自摄像机提供商的处理数据,其中优势随着输入到神经网络的输入的尺寸而增加。最大性能(应用于整个图像的HSI)产生了0.89(标准偏差(SD)0.04)的平均骰子相似度系数(DSC),其在帧间间变异性(DSC为0.89(SD 0.07)的范围内。我们得出结论,HSI可以成为全自动手术场景理解的强大的图像模型,其具有传统成像的许多优点,包括恢复额外功能组织信息的能力。
translated by 谷歌翻译
As an important data selection schema, active learning emerges as the essential component when iterating an Artificial Intelligence (AI) model. It becomes even more critical given the dominance of deep neural network based models, which are composed of a large number of parameters and data hungry, in application. Despite its indispensable role for developing AI models, research on active learning is not as intensive as other research directions. In this paper, we present a review of active learning through deep active learning approaches from the following perspectives: 1) technical advancements in active learning, 2) applications of active learning in computer vision, 3) industrial systems leveraging or with potential to leverage active learning for data iteration, 4) current limitations and future research directions. We expect this paper to clarify the significance of active learning in a modern AI model manufacturing process and to bring additional research attention to active learning. By addressing data automation challenges and coping with automated machine learning systems, active learning will facilitate democratization of AI technologies by boosting model production at scale.
translated by 谷歌翻译
标记数据可以是昂贵的任务,因为它通常由域专家手动执行。对于深度学习而言,这是繁琐的,因为它取决于大型标记的数据集。主动学习(AL)是一种范式,旨在通过仅使用二手车型认为最具信息丰富的数据来减少标签努力。在文本分类设置中,在AL上完成了很少的研究,旁边没有涉及最近的最先进的自然语言处理(NLP)模型。在这里,我们介绍了一个实证研究,可以将基于不确定性的基于不确定性的算法与Bert $ _ {base} $相比,作为使用的分类器。我们评估两个NLP分类数据集的算法:斯坦福情绪树木银行和kvk-Front页面。此外,我们探讨了旨在解决不确定性的al的预定问题的启发式;即,它是不可规范的,并且易于选择异常值。此外,我们探讨了查询池大小对al的性能的影响。虽然发现,AL的拟议启发式没有提高AL的表现;我们的结果表明,使用BERT $ _ {Base} $概率使用不确定性的AL。随着查询池大小变大,性能的这种差异可以减少。
translated by 谷歌翻译
Object detection requires substantial labeling effort for learning robust models. Active learning can reduce this effort by intelligently selecting relevant examples to be annotated. However, selecting these examples properly without introducing a sampling bias with a negative impact on the generalization performance is not straightforward and most active learning techniques can not hold their promises on real-world benchmarks. In our evaluation paper, we focus on active learning techniques without a computational overhead besides inference, something we refer to as zero-cost active learning. In particular, we show that a key ingredient is not only the score on a bounding box level but also the technique used for aggregating the scores for ranking images. We outline our experimental setup and also discuss practical considerations when using active learning for object detection.
translated by 谷歌翻译
Recent aerial object detection models rely on a large amount of labeled training data, which requires unaffordable manual labeling costs in large aerial scenes with dense objects. Active learning is effective in reducing the data labeling cost by selectively querying the informative and representative unlabelled samples. However, existing active learning methods are mainly with class-balanced setting and image-based querying for generic object detection tasks, which are less applicable to aerial object detection scenario due to the long-tailed class distribution and dense small objects in aerial scenes. In this paper, we propose a novel active learning method for cost-effective aerial object detection. Specifically, both object-level and image-level informativeness are considered in the object selection to refrain from redundant and myopic querying. Besides, an easy-to-use class-balancing criterion is incorporated to favor the minority objects to alleviate the long-tailed class distribution problem in model training. To fully utilize the queried information, we further devise a training loss to mine the latent knowledge in the undiscovered image regions. Extensive experiments are conducted on the DOTA-v1.0 and DOTA-v2.0 benchmarks to validate the effectiveness of the proposed method. The results show that it can save more than 75% of the labeling cost to reach the same performance compared to the baselines and state-of-the-art active object detection methods. Code is available at https://github.com/ZJW700/MUS-CDB
translated by 谷歌翻译
接受注释较弱的对象探测器是全面监督者的负担得起的替代方案。但是,它们之间仍然存在显着的性能差距。我们建议通过微调预先训练的弱监督检测器来缩小这一差距,并使用``Box-In-box''(bib'(bib)自动从训练集中自动选择了一些完全注销的样品,这是一种新颖的活跃学习专门针对弱势监督探测器的据可查的失败模式而设计的策略。 VOC07和可可基准的实验表明,围嘴表现优于其他活跃的学习技术,并显着改善了基本的弱监督探测器的性能,而每个类别仅几个完全宣布的图像。围嘴达到了完全监督的快速RCNN的97%,在VOC07上仅10%的全已通量图像。在可可(COCO)上,平均每类使用10张全面通量的图像,或同等的训练集的1%,还减少了弱监督检测器和完全监督的快速RCN之间的性能差距(In AP)以上超过70% ,在性能和数据效率之间表现出良好的权衡。我们的代码可在https://github.com/huyvvo/bib上公开获取。
translated by 谷歌翻译
深度神经网络变得越来越强大,大大,并且始终需要培训更多标记的数据。但是,由于注释数据是耗时的,因此现在有必要开发在学习有限数据时显示出良好性能的系统。必须正确选择这些数据以获得仍然有效的模型。为此,系统必须能够确定应注释哪些数据以获得最佳结果。在本文中,我们提出了四个估计器来估计对象检测预测的信心。前两个基于蒙特卡洛辍学,第三个基于描述性统计,最后一个是检测器后验概率。在主动学习框架中,与随机选择图像相比,三个第一估计器在检测文档物理页面和文本线的性能方面有显着改善。我们还表明,基于描述性统计的提议估计器可以替代MC辍学,从而降低了计算成本而不会损害性能。
translated by 谷歌翻译
海洋生态系统及其鱼类栖息地越来越重要,因为它们在提供有价值的食物来源和保护效果方面的重要作用。由于它们的偏僻且难以接近自然,因此通常使用水下摄像头对海洋环境和鱼类栖息地进行监测。这些相机产生了大量数字数据,这些数据无法通过当前的手动处理方法有效地分析,这些方法涉及人类观察者。 DL是一种尖端的AI技术,在分析视觉数据时表现出了前所未有的性能。尽管它应用于无数领域,但仍在探索其在水下鱼类栖息地监测中的使用。在本文中,我们提供了一个涵盖DL的关键概念的教程,该教程可帮助读者了解对DL的工作原理的高级理解。该教程还解释了一个逐步的程序,讲述了如何为诸如水下鱼类监测等挑战性应用开发DL算法。此外,我们还提供了针对鱼类栖息地监测的关键深度学习技术的全面调查,包括分类,计数,定位和细分。此外,我们对水下鱼类数据集进行了公开调查,并比较水下鱼类监测域中的各种DL技术。我们还讨论了鱼类栖息地加工深度学习的新兴领域的一些挑战和机遇。本文是为了作为希望掌握对DL的高级了解,通过遵循我们的分步教程而为其应用开发的海洋科学家的教程,并了解如何发展其研究,以促进他们的研究。努力。同时,它适用于希望调查基于DL的最先进方法的计算机科学家,以进行鱼类栖息地监测。
translated by 谷歌翻译
缺陷增加了建筑项目的成本和持续时间。自动缺陷检测将减少文档工作,这是降低延迟建筑项目的缺陷风险所必需的。由于混凝土是一种广泛使用的建筑材料,因此这项工作着重于检测蜂窝,这是混凝土结构的实质缺陷,甚至可能影响结构完整性。首先,比较图像是从网络上刮下来或从实际实践中获得的。结果表明,Web图像仅代表蜂窝的选择,并且不会捕获完整的差异。其次,对MASK R-CNN和EFIDENENET-B0进行了培训,用于评估实例分割和基于斑块的分类,分别达到47.7%的精度和34.2%的召回率以及68.5%的精度和55.7%的召回率。尽管这些模型的性能不足以完全自动化缺陷检测,但这些模型可用于积极学习中,集成到缺陷文档系统中。总之,CNN可以帮助检测混凝土中的蜂窝。
translated by 谷歌翻译
Active learning as a paradigm in deep learning is especially important in applications involving intricate perception tasks such as object detection where labels are difficult and expensive to acquire. Development of active learning methods in such fields is highly computationally expensive and time consuming which obstructs the progression of research and leads to a lack of comparability between methods. In this work, we propose and investigate a sandbox setup for rapid development and transparent evaluation of active learning in deep object detection. Our experiments with commonly used configurations of datasets and detection architectures found in the literature show that results obtained in our sandbox environment are representative of results on standard configurations. The total compute time to obtain results and assess the learning behavior can thereby be reduced by factors of up to 14 when comparing with Pascal VOC and up to 32 when comparing with BDD100k. This allows for testing and evaluating data acquisition and labeling strategies in under half a day and contributes to the transparency and development speed in the field of active learning for object detection.
translated by 谷歌翻译
Even though active learning forms an important pillar of machine learning, deep learning tools are not prevalent within it. Deep learning poses several difficulties when used in an active learning setting. First, active learning (AL) methods generally rely on being able to learn and update models from small amounts of data. Recent advances in deep learning, on the other hand, are notorious for their dependence on large amounts of data. Second, many AL acquisition functions rely on model uncertainty, yet deep learning methods rarely represent such model uncertainty. In this paper we combine recent advances in Bayesian deep learning into the active learning framework in a practical way. We develop an active learning framework for high dimensional data, a task which has been extremely challenging so far, with very sparse existing literature. Taking advantage of specialised models such as Bayesian convolutional neural networks, we demonstrate our active learning techniques with image data, obtaining a significant improvement on existing active learning approaches. We demonstrate this on both the MNIST dataset, as well as for skin cancer diagnosis from lesion images (ISIC2016 task).
translated by 谷歌翻译
大型,注释的数据集在医学图像分析中不广泛使用,这是由于时间,成本和标记大型数据集相关的挑战。未标记的数据集更容易获取,在许多情况下,专家可以为一小部分图像提供标签是可行的。这项工作提出了一个信息理论的主动学习框架,该框架可以根据评估数据集中最大化预期信息增益(EIG)来指导未标记池的最佳图像选择。实验是在两个不同的医学图像分类数据集上进行的:多类糖尿病性视网膜病变量表分类和多级皮肤病变分类。结果表明,通过调整EIG来说明班级不平衡,我们提出的适应预期信息增益(AEIG)的表现优于几个流行的基线,包括基于多样性的核心和基于不确定性的最大熵抽样。具体而言,AEIG仅占总体表现的95%,只有19%的培训数据,而其他活跃的学习方法则需要约25%。我们表明,通过仔细的设计选择,我们的模型可以集成到现有的深度学习分类器中。
translated by 谷歌翻译
在设计可持续和弹性的城市建造环境的同时,越来越多地促进了世界各地的,重大的数据差距对压迫可持续性问题挑战开展的研究。已知人行道具有强大的经济和环境影响;然而,由于数据收集的成本持久和耗时的性质,大多数城市缺乏它们的表面的空间目录。计算机愿景的最新进展与街道级别图像的可用性一起为城市提供了新的机会,以利用较低的实施成本和更高的准确性提取大规模建筑环境数据。在本文中,我们提出了一个基于主动学习的框架,利用计算机视觉技术来使用广泛可用的街道图像进行分类的计算机视觉技术。我们培训了来自纽约市和波士顿的图像的框架,评价结果显示了90.5%的Miou评分。此外,我们使用六个不同城市的图像评估框架,表明它可以应用于具有不同城市面料的区域,即使在培训数据的领域之外。 Citysurfaces可以为研究人员和城市代理商提供低成本,准确,可扩展的方法来收集人行道材料数据,在寻求主要可持续性问题方面发挥着关键作用,包括气候变化和地表水管理。
translated by 谷歌翻译
水果和蔬菜的检测,分割和跟踪是精确农业的三个基本任务,实现了机器人的收获和产量估计。但是,现代算法是饥饿的数据,并非总是有可能收集足够的数据来运用最佳性能的监督方法。由于数据收集是一项昂贵且繁琐的任务,因此在农业中使用计算机视觉的能力通常是小企业无法实现的。在此背景下的先前工作之后,我们提出了一种初始弱监督的解决方案,以减少在精确农业应用程序中获得最新检测和细分所需的数据,在这里,我们在这里改进该系统并探索跟踪果实的问题果园。我们介绍了拉齐奥南部(意大利)葡萄的葡萄园案例,因为葡萄由于遮挡,颜色和一般照明条件而难以分割。当有一些可以用作源数据的初始标记数据(例如,葡萄酒葡萄数据)时,我们会考虑这种情况,但与目标数据有很大不同(例如表格葡萄数据)。为了改善目标数据的检测和分割,我们建议使用弱边界框标签训练分割算法,而对于跟踪,我们从运动算法中利用3D结构来生成来自已标记样品的新标签。最后,将两个系统组合成完整的半监督方法。与SOTA监督解决方案的比较表明,我们的方法如何能够训练以很少的标记图像和非常简单的标签来实现高性能的新型号。
translated by 谷歌翻译
X-ray imaging technology has been used for decades in clinical tasks to reveal the internal condition of different organs, and in recent years, it has become more common in other areas such as industry, security, and geography. The recent development of computer vision and machine learning techniques has also made it easier to automatically process X-ray images and several machine learning-based object (anomaly) detection, classification, and segmentation methods have been recently employed in X-ray image analysis. Due to the high potential of deep learning in related image processing applications, it has been used in most of the studies. This survey reviews the recent research on using computer vision and machine learning for X-ray analysis in industrial production and security applications and covers the applications, techniques, evaluation metrics, datasets, and performance comparison of those techniques on publicly available datasets. We also highlight some drawbacks in the published research and give recommendations for future research in computer vision-based X-ray analysis.
translated by 谷歌翻译
作物现场边界有助于映射作物类型,预测产量,并向农民提供现场级分析。近年来,已经看到深深学习的成功应用于划定工业农业系统中的现场边界,但由于(1)需要高分辨率卫星图像的小型字段来解除界限和(2)缺乏(2)缺乏用于模型培训和验证的地面标签。在这项工作中,我们结合了转移学习和弱监督来克服这些挑战,我们展示了在印度的成功方法,我们有效地产生了10,000个新的场地标签。我们最好的型号使用1.5亿分辨率的空中客车现货图像作为投入,预先列进法国界限的最先进的神经网络,以及印度标签上的微调,以实现0.86的联盟(iou)中位数交叉口在印度。如果使用4.8M分辨率的行星扫描图像,最好的模型可以实现0.72的中位数。实验还表明,法国的预训练减少了所需的印度现场标签的数量,以便在数据集较小时尽可能多地实现给定的性能水平。这些发现表明我们的方法是划定当前缺乏现场边界数据集的世界区域中的裁剪领域的可扩展方法。我们公开发布了10,000个标签和描绘模型,以方便社区创建现场边界地图和新方法。
translated by 谷歌翻译
机器人的视觉系统根据应用程序的要求不同:它可能需要高精度或可靠性,受到有限的资源的约束或需要快速适应动态变化的环境。在这项工作中,我们专注于实例分割任务,并对不同的技术进行了全面的研究,这些技术允许在存在新对象或不同域的存在下调整对象分割模型。我们为针对数据流入的机器人应用设计的快速实例细分学习提供了一条管道。它基于在预训练的CNN上利用的混合方法,用于特征提取和基于快速培训的基于内核的分类器。我们还提出了一种培训协议,该协议可以通过在数据采集期间执行特征提取来缩短培训时间。我们在两个机器人数据集上基准了提议的管道,然后将其部署在一个真实的机器人上,即iCub类人体。为了这个目的,我们将方法调整为一个增量设置,在该设置中,机器人在线学习新颖对象。复制实验的代码在GitHub上公开可用。
translated by 谷歌翻译