最近在计算机愿景领域的研究强烈侧重于深度学习架构来解决图像处理问题。由于传统的计算机视觉方法由于复杂的关系而昂贵,因此,由于传统的计算机视觉方法昂贵,因此在复杂的图像处理方案中经常被认为是昂贵的。但是,共同批判是需要大的注释数据集来确定强大的参数。通过人体专家注释图像是耗时的,繁重,昂贵。因此,需要支持以简化注释,提高用户效率和注释质量。在本文中,我们提出了一种通用的工作流程来帮助注释过程并讨论抽象水平的方法。因此,我们审查了专注于有前途的样本,图像预处理,预标记,标签检查或注释后处理的可能性。此外,我们通过嵌套在混合触摸屏/笔记本电脑设备中的开发灵活和可扩展的软件原型来提出提案的实施。
translated by 谷歌翻译
通过整合人类的知识和经验,人在循环旨在以最低成本培训准确的预测模型。人类可以为机器学习应用提供培训数据,并直接完成在基于机器的方法中对管道中计算机中的难以实现的任务。在本文中,我们从数据的角度调查了人类循环的现有工作,并将它们分为三类具有渐进关系:(1)从数据处理中提高模型性能的工作,(2)通过介入模型培训提高模型性能,(3)系统的设计独立于循环的设计。使用上述分类,我们总结了该领域的主要方法;随着他们的技术优势/弱点以及自然语言处理,计算机愿景等的简单分类和讨论。此外,我们提供了一些开放的挑战和机遇。本调查打算为人类循环提供高级别的摘要,并激励有兴趣的读者,以考虑设计有效的循环解决方案的方法。
translated by 谷歌翻译
As an important data selection schema, active learning emerges as the essential component when iterating an Artificial Intelligence (AI) model. It becomes even more critical given the dominance of deep neural network based models, which are composed of a large number of parameters and data hungry, in application. Despite its indispensable role for developing AI models, research on active learning is not as intensive as other research directions. In this paper, we present a review of active learning through deep active learning approaches from the following perspectives: 1) technical advancements in active learning, 2) applications of active learning in computer vision, 3) industrial systems leveraging or with potential to leverage active learning for data iteration, 4) current limitations and future research directions. We expect this paper to clarify the significance of active learning in a modern AI model manufacturing process and to bring additional research attention to active learning. By addressing data automation challenges and coping with automated machine learning systems, active learning will facilitate democratization of AI technologies by boosting model production at scale.
translated by 谷歌翻译
The International Workshop on Reading Music Systems (WoRMS) is a workshop that tries to connect researchers who develop systems for reading music, such as in the field of Optical Music Recognition, with other researchers and practitioners that could benefit from such systems, like librarians or musicologists. The relevant topics of interest for the workshop include, but are not limited to: Music reading systems; Optical music recognition; Datasets and performance evaluation; Image processing on music scores; Writer identification; Authoring, editing, storing and presentation systems for music scores; Multi-modal systems; Novel input-methods for music to produce written music; Web-based Music Information Retrieval services; Applications and projects; Use-cases related to written music. These are the proceedings of the 3rd International Workshop on Reading Music Systems, held in Alicante on the 23rd of July 2021.
translated by 谷歌翻译
我们提出了一种新颖的方法,该方法将基于机器学习的交互式图像分割结合在一起,使用Supersoxels与聚类方法结合了用于自动识别大型数据集中类似颜色的图像的聚类方法,从而使分类器的指导重复使用。我们的方法解决了普遍的颜色可变性的问题,并且在生物学和医学图像中通常不可避免,这通常会导致分割恶化和量化精度,从而大大降低了必要的训练工作。效率的这种提高促进了大量图像的量化,从而为高通量成像中的最新技术进步提供了交互式图像分析。所呈现的方法几乎适用于任何图像类型,并代表通常用于图像分析任务的有用工具。
translated by 谷歌翻译
尽管交互式图像分割方法的进展情况,但高质量的像素级注释仍然耗时和费力 - 几个深度学习应用的瓶颈。我们逐步回到由特征空间投影引导的多个图像提出的互动和同时段注释。该策略与现有的交互式分段方法呈现出与现有的交互式分段方法相比,该方法在图像域中进行注释。我们表明要素空间注释在前景分段数据集中使用最先进的方法实现了竞争结果:ICOSEG,DAVIS和屋顶。此外,在语义分割上下文中,它在CityScapes数据集中实现了91.5 \%的准确性,比原始注释程序快74.75倍.Further,我们的贡献揭示了可以与现有方法集成的新颖方向上的灯光。补充材料呈现视频演示。代码在https://github.com/lids-unicamp/rethinking-interactive-image-egation。
translated by 谷歌翻译
我们展示了Pytorch Connectomics(Pytc),一个开源深度学习框架,用于体积显微镜图像的语义和实例分割,基于Pytorch。我们展示了Pytc在Connectomics领域的有效性,其旨在在纳米分辨率下进行线粒体,突触像Mitochondria这样的细胞器,以了解动物脑中的神经元通信,代谢和发育。 Pytc是一个可伸缩且灵活的工具箱,可以在不同的尺度上处理数据集,并支持多任务和半监督学习,以更好地利用昂贵的专家注释和培训期间的大量未标记数据。通过在不编码的情况下改变配置选项并且适用于不同组织和成像方式的其他2D和3D分段任务,可以在Pytc中容易地实现这些功能。定量方面,我们的框架在Cremi挑战中实现了突触裂缝分割的最佳性能(以相对6.1美元\%$)和线粒体和神经元核细胞分割的竞争性能。代码和教程在https://connectomics.readthedocs.io上公开提供。
translated by 谷歌翻译
海洋生态系统及其鱼类栖息地越来越重要,因为它们在提供有价值的食物来源和保护效果方面的重要作用。由于它们的偏僻且难以接近自然,因此通常使用水下摄像头对海洋环境和鱼类栖息地进行监测。这些相机产生了大量数字数据,这些数据无法通过当前的手动处理方法有效地分析,这些方法涉及人类观察者。 DL是一种尖端的AI技术,在分析视觉数据时表现出了前所未有的性能。尽管它应用于无数领域,但仍在探索其在水下鱼类栖息地监测中的使用。在本文中,我们提供了一个涵盖DL的关键概念的教程,该教程可帮助读者了解对DL的工作原理的高级理解。该教程还解释了一个逐步的程序,讲述了如何为诸如水下鱼类监测等挑战性应用开发DL算法。此外,我们还提供了针对鱼类栖息地监测的关键深度学习技术的全面调查,包括分类,计数,定位和细分。此外,我们对水下鱼类数据集进行了公开调查,并比较水下鱼类监测域中的各种DL技术。我们还讨论了鱼类栖息地加工深度学习的新兴领域的一些挑战和机遇。本文是为了作为希望掌握对DL的高级了解,通过遵循我们的分步教程而为其应用开发的海洋科学家的教程,并了解如何发展其研究,以促进他们的研究。努力。同时,它适用于希望调查基于DL的最先进方法的计算机科学家,以进行鱼类栖息地监测。
translated by 谷歌翻译
The International Workshop on Reading Music Systems (WoRMS) is a workshop that tries to connect researchers who develop systems for reading music, such as in the field of Optical Music Recognition, with other researchers and practitioners that could benefit from such systems, like librarians or musicologists. The relevant topics of interest for the workshop include, but are not limited to: Music reading systems; Optical music recognition; Datasets and performance evaluation; Image processing on music scores; Writer identification; Authoring, editing, storing and presentation systems for music scores; Multi-modal systems; Novel input-methods for music to produce written music; Web-based Music Information Retrieval services; Applications and projects; Use-cases related to written music. These are the proceedings of the 2nd International Workshop on Reading Music Systems, held in Delft on the 2nd of November 2019.
translated by 谷歌翻译
主动学习(al)试图通过标记最少的样本来最大限度地提高模型的性能增益。深度学习(DL)是贪婪的数据,需要大量的数据电源来优化大量参数,因此模型了解如何提取高质量功能。近年来,由于互联网技术的快速发展,我们处于信息种类的时代,我们有大量的数据。通过这种方式,DL引起了研究人员的强烈兴趣,并已迅速发展。与DL相比,研究人员对Al的兴趣相对较低。这主要是因为在DL的崛起之前,传统的机器学习需要相对较少的标记样品。因此,早期的Al很难反映其应得的价值。虽然DL在各个领域取得了突破,但大多数这一成功都是由于大量现有注释数据集的宣传。然而,收购大量高质量的注释数据集消耗了很多人力,这在某些领域不允许在需要高专业知识,特别是在语音识别,信息提取,医学图像等领域中, al逐渐受到适当的关注。自然理念是AL是否可用于降低样本注释的成本,同时保留DL的强大学习能力。因此,已经出现了深度主动学习(DAL)。虽然相关的研究非常丰富,但它缺乏对DAL的综合调查。本文要填补这一差距,我们为现有工作提供了正式的分类方法,以及全面和系统的概述。此外,我们还通过申请的角度分析并总结了DAL的发展。最后,我们讨论了DAL中的混乱和问题,为DAL提供了一些可能的发展方向。
translated by 谷歌翻译
为视觉细分标记图像是一项耗时的任务,尤其是在必须由专业专家注释者(例如土木工程)提供标签的应用领域中。在本文中,我们建议使用归因方法来利用专家注释者和在缺陷细分的情况下进行注释的专家注释之间的有价值的相互作用,以视觉检查民用基础架构。具体而言,对分类器进行了训练,可以检测缺陷,并与基于归因的方法和对抗性攀爬相结合,以生成和完善与分类输出相对应的分割掩码。这些用于在辅助标签框架中使用,在该框架中,注释者可以通过决定接受,拒绝或修改它们作为建议分割掩码与它们进行交互,并将交互记录为弱标签以进一步完善分类器。与对缺陷的手动注释相比,我们所提出的方法应用于自动视觉检查桥梁产生的现实数据集。
translated by 谷歌翻译
机器学习和计算机视觉技术近年来由于其自动化,适合性和产生惊人结果的能力而迅速发展。因此,在本文中,我们调查了2014年至2022年之间发表的关键研究,展示了不同的机器学习算法研究人员用来分割肝脏,肝肿瘤和肝脉管结构的研究。我们根据感兴趣的组织(肝果,肝肿瘤或肝毒剂)对被调查的研究进行了划分,强调了同时解决多个任务的研究。此外,机器学习算法被归类为受监督或无监督的,如果属于某个方案的工作量很大,则将进一步分区。此外,对文献和包含上述组织面具的网站发现的不同数据集和挑战进行了彻底讨论,强调了组织者的原始贡献和其他研究人员的贡献。同样,在我们的评论中提到了文献中过度使用的指标,这强调了它们与手头的任务的相关性。最后,强调创新研究人员应对需要解决的差距的关键挑战和未来的方向,例如许多关于船舶分割挑战的研究的稀缺性以及为什么需要早日处理他们的缺席。
translated by 谷歌翻译
深度学习属于人工智能领域,机器执行通常需要某种人类智能的任务。类似于大脑的基本结构,深度学习算法包括一种人工神经网络,其类似于生物脑结构。利用他们的感官模仿人类的学习过程,深入学习网络被送入(感官)数据,如文本,图像,视频或声音。这些网络在不同的任务中优于最先进的方法,因此,整个领域在过去几年中看到了指数增长。这种增长在过去几年中每年超过10,000多种出版物。例如,只有在医疗领域中的所有出版物中覆盖的搜索引擎只能在Q3 2020中覆盖所有出版物的子集,用于搜索术语“深度学习”,其中大约90%来自过去三年。因此,对深度学习领域的完全概述已经不可能在不久的将来获得,并且在不久的将来可能会难以获得难以获得子场的概要。但是,有几个关于深度学习的综述文章,这些文章专注于特定的科学领域或应用程序,例如计算机愿景的深度学习进步或在物体检测等特定任务中进行。随着这些调查作为基础,这一贡献的目的是提供对不同科学学科的深度学习的第一个高级,分类的元调查。根据底层数据来源(图像,语言,医疗,混合)选择了类别(计算机愿景,语言处理,医疗信息和其他工程)。此外,我们还审查了每个子类别的常见架构,方法,专业,利弊,评估,挑战和未来方向。
translated by 谷歌翻译
Video, as a key driver in the global explosion of digital information, can create tremendous benefits for human society. Governments and enterprises are deploying innumerable cameras for a variety of applications, e.g., law enforcement, emergency management, traffic control, and security surveillance, all facilitated by video analytics (VA). This trend is spurred by the rapid advancement of deep learning (DL), which enables more precise models for object classification, detection, and tracking. Meanwhile, with the proliferation of Internet-connected devices, massive amounts of data are generated daily, overwhelming the cloud. Edge computing, an emerging paradigm that moves workloads and services from the network core to the network edge, has been widely recognized as a promising solution. The resulting new intersection, edge video analytics (EVA), begins to attract widespread attention. Nevertheless, only a few loosely-related surveys exist on this topic. A dedicated venue for collecting and summarizing the latest advances of EVA is highly desired by the community. Besides, the basic concepts of EVA (e.g., definition, architectures, etc.) are ambiguous and neglected by these surveys due to the rapid development of this domain. A thorough clarification is needed to facilitate a consensus on these concepts. To fill in these gaps, we conduct a comprehensive survey of the recent efforts on EVA. In this paper, we first review the fundamentals of edge computing, followed by an overview of VA. The EVA system and its enabling techniques are discussed next. In addition, we introduce prevalent frameworks and datasets to aid future researchers in the development of EVA systems. Finally, we discuss existing challenges and foresee future research directions. We believe this survey will help readers comprehend the relationship between VA and edge computing, and spark new ideas on EVA.
translated by 谷歌翻译
为了提高模型透明度并允许用户形成训练有素的ML模型的心理模型,解释对AI和机器学习(ML)社区的兴趣越来越高。但是,解释可以超越这种方式通信作为引起用户控制的机制,因为一旦用户理解,他们就可以提供反馈。本文的目的是介绍研究概述,其中解释与交互式功能相结合,是从头开始学习新模型并编辑和调试现有模型的手段。为此,我们绘制了最先进的概念图,根据其预期目的以及它们如何构建相互作用,突出它们之间的相似性和差异来分组相关方法。我们还讨论开放研究问题并概述可能的方向,希望促使人们对这个开花研究主题进行进一步的研究。
translated by 谷歌翻译
文本分类在许多真实世界的情况下可能很有用,为最终用户节省了很多时间。但是,构建自定义分类器通常需要编码技能和ML知识,这对许多潜在用户构成了重大障碍。为了提高此障碍,我们介绍了标签侦探,这是一种免费的开源系统,用于标记和创建文本分类器。该系统对于(a)是一个无代码系统是独一无二的分类器在几个小时内,(c)开发用于开发人员进行配置和扩展。通过开放采购标签侦探,我们希望建立一个用户和开发人员社区,以扩大NLP模型的利用率。
translated by 谷歌翻译
深层神经网络(DNN)在各种任务中的应用需要应对这些架构的复杂和不透明性质的方法。当有黄金标准可用时,性能评估将DNN视为黑匣子,并根据将预测与地面真相的比较进行计算标准指标。对性能的更深入的了解需要超越此类评估指标来诊断模型行为和预测错误。可以通过两种互补的方式实现此目标。一方面,模型解释技术“打开框”并评估输入,内层和输出之间的关系,以识别最有可能导致性能损失的体系结构模块。另一方面,黑框错误诊断技术研究了模型响应与未用于训练的输入的某些属性之间的相关性,以确定使模型失败的输入的特征。两种方法都提供了有关如何改善体系结构和/或培训过程的提示。本文着重于将DNNS应用于计算机视觉(CV)任务,并介绍了支持Black-Box性能诊断范式的工具的调查。它说明了当前建议的特征和空白,讨论了相关的研究方向,并简要概述了CV以外的其他部门的诊断工具。
translated by 谷歌翻译
如今,由于最近在人工智能(AI)和机器学习(ML)中的近期突破,因此,智能系统和服务越来越受欢迎。然而,机器学习不仅满足软件工程,不仅具有有希望的潜力,而且还具有一些固有的挑战。尽管最近的一些研究努力,但我们仍然没有明确了解开发基于ML的申请和当前行业实践的挑战。此外,目前尚不清楚软件工程研究人员应将其努力集中起来,以更好地支持ML应用程序开发人员。在本文中,我们报告了一个旨在了解ML应用程序开发的挑战和最佳实践的调查。我们合成从80名从业者(以不同的技能,经验和应用领域)获得的结果为17个调查结果;概述ML应用程序开发的挑战和最佳实践。参与基于ML的软件系统发展的从业者可以利用总结最佳实践来提高其系统的质量。我们希望报告的挑战将通知研究界有关需要调查的主题,以改善工程过程和基于ML的申请的质量。
translated by 谷歌翻译
使用(半)自动显微镜生成的大规模电子显微镜(EM)数据集已成为EM中的标准。考虑到大量数据,对所有数据的手动分析都是不可行的,因此自动分析至关重要。自动分析的主要挑战包括分析和解释生物医学图像的注释,并与实现高通量相结合。在这里,我们回顾了自动计算机技术的最新最新技术以及分析细胞EM结构的主要挑战。关于EM数据的注释,分割和可扩展性,讨论了过去五年来开发的高级计算机视觉,深度学习和软件工具。自动图像采集和分析的集成将允许用纳米分辨率对毫米范围的数据集进行高通量分析。
translated by 谷歌翻译
我们介绍了遮阳板,一个新的像素注释的新数据集和一个基准套件,用于在以自我为中心的视频中分割手和活动对象。遮阳板注释Epic-kitchens的视频,其中带有当前视频分割数据集中未遇到的新挑战。具体而言,我们需要确保像素级注释作为对象经历变革性相互作用的短期和长期一致性,例如洋葱被剥皮,切成丁和煮熟 - 我们旨在获得果皮,洋葱块,斩波板,刀,锅以及表演手的准确像素级注释。遮阳板引入了一条注释管道,以零件为ai驱动,以进行可伸缩性和质量。总共,我们公开发布257个对象类的272K手册语义面具,990万个插值密集口罩,67K手动关系,涵盖36小时的179个未修剪视频。除了注释外,我们还引入了视频对象细分,互动理解和长期推理方面的三个挑战。有关数据,代码和排行榜:http://epic-kitchens.github.io/visor
translated by 谷歌翻译