智能论文笔记

Organ localisation using supervised and semi supervised approaches combining reinforcement learning with imitation learning

Sankaran Iyer , Alan Blair , Laughlin Dawes , Daniel Moses , Christopher White , Arcot Sowmya

分类：计算机视觉 | 机器学习

2021-12-06

计算机辅助诊断通常需要分析放射学扫描内的感兴趣区域（ROI），并且ROI可以是器官或子机构。虽然深入学习算法具有优于其他方法的能力，但它们依赖于大量注释数据的可用性。通过解决这一限制的需要，这里提出了一种基于监督和半监督学习的多个器官的定位和检测的方法。它借鉴了作者在CT图像中定位胸椎和腰椎区域的工作者。该方法生成六个感兴趣的器官的边界框，然后将其融合到单个边界框。使用受监督和半监督学习（SSL）在CT图像中的脾脏，左和右肾定位的实验结果证明了与其他状态相比，以更小的数据集和更少的注释来解决数据限制的能力。最新方法。使用三种不同的标记和未标记的数据（即30：70,35：65,40：60）评估SSL性能，分别为腰椎，脾脏左和右肾的每种。结果表明，SSL提供了可行的替代方案，特别是在医学成像中，难以获得注释数据。

translated by 谷歌翻译

Dynamic Curriculum Learning for Great Ape Detection in the Wild

Xinyu Yang , Tilo Burghardt , Majid Mirmehdi

分类：计算机视觉

2022-04-30

We propose a novel end-to-end curriculum learning approach for sparsely labelled animal datasets leveraging large volumes of unlabelled data to improve supervised species detectors. We exemplify the method in detail on the task of finding great apes in camera trap footage taken in challenging real-world jungle environments. In contrast to previous semi-supervised methods, our approach adjusts learning parameters dynamically over time and gradually improves detection quality by steering training towards virtuous self-reinforcement. To achieve this, we propose integrating pseudo-labelling with curriculum learning policies and show how learning collapse can be avoided. We discuss theoretical arguments, ablations, and significant performance improvements against various state-of-the-art systems when evaluating on the Extended PanAfrican Dataset holding approx. 1.8M frames. We also demonstrate our method can outperform supervised baselines with significant margins on sparse label versions of other animal datasets such as Bees and Snapshot Serengeti. We note that performance advantages are strongest for smaller labelled ratios common in ecological applications. Finally, we show that our approach achieves competitive benchmarks for generic object detection in MS-COCO and PASCAL-VOC indicating wider applicability of the dynamic learning concepts introduced. We publish all relevant source code, network weights, and data access details for full reproducibility. The code is available at https://github.com/youshyee/DCL-Detection.

translated by 谷歌翻译

Weakly Supervised Scene Text Detection using Deep Reinforcement Learning

Emanuel Metzenthin , Christian Bartz , Christoph Meinel

分类：计算机视觉 | 人工智能 | 机器学习

2022-01-13

场景文本检测的具有挑战性的领域需要复杂的数据注释，这是耗时和昂贵的。弱监管等技术可以减少所需的数据量。本文提出了一种薄弱的现场文本检测监控方法，这是利用加强学习（RL）。RL代理收到的奖励由神经网络估算，而不是从地面真理标签推断出来。首先，我们增强了具有多种培训优化的文本检测的现有监督RL方法，允许我们将性能差距缩放到基于回归的算法。然后，我们将拟议的系统在现实世界数据的漏洞和半监督培训中使用。我们的结果表明，在弱监督环境中培训是可行的。但是，我们发现在半监督设置中使用我们的模型，例如，将标记的合成数据与未经发布的实际数据相结合，产生最佳结果。

translated by 谷歌翻译

Reinforcement Learning in Medical Image Analysis: Concepts, Applications, Challenges, and Future Directions

Mingzhe Hu , Jiahan Zhang , Luke Matkovic , Tian Liu , Xiaofeng Yang

分类：计算机视觉 | 机器学习

2022-06-28

动机：医学图像分析涉及帮助医师对病变或解剖结构进行定性和定量分析的任务，从而显着提高诊断和预后的准确性和可靠性。传统上，这些任务由医生或医学物理学家完成，并带来两个主要问题：（i）低效率；（ii）受个人经验的偏见。在过去的十年中，已经应用了许多机器学习方法来加速和自动化图像分析过程。与受监督和无监督的学习模型的大量部署相比，在医学图像分析中使用强化学习的尝试很少。这篇评论文章可以作为相关研究的垫脚石。意义：从我们的观察结果来看，尽管近年来增强学习逐渐增强了动力，但医学分析领域的许多研究人员发现很难理解和部署在诊所中。一个原因是缺乏组织良好的评论文章，针对缺乏专业计算机科学背景的读者。本文可能没有提供医学图像分析中所有强化学习模型的全面列表，而是可以帮助读者学习如何制定和解决他们的医学图像分析研究作为强化学习问题。方法和结果：我们从Google Scholar和PubMed中选择了已发表的文章。考虑到相关文章的稀缺性，我们还提供了一些出色的最新预印本。根据图像分析任务的类型对论文进行仔细审查和分类。我们首先回顾了强化学习的基本概念和流行模型。然后，我们探讨了增强学习模型在具有里程碑意义的检测中的应用。最后，我们通过讨论审查的强化学习方法的局限性和可能的改进来结束这篇文章。

translated by 谷歌翻译

Detect-and-Segment: a Deep Learning Approach to Automate Wound Image Segmentation

Gaetano Scebba , Jia Zhang , Sabrina Catanzaro , Carina Mihai , Oliver Distler , Martin Berli , Walter Karlen

分类：计算机视觉

2021-11-02

慢性伤口显着影响生活质量。如果没有正确管理，他们可能会严重恶化。基于图像的伤口分析可以通过量化与愈合相关的重要特征来客观地评估伤口状态。然而，伤口类型，图像背景组成和捕获条件的高异质性挑战伤口图像的鲁棒分割。我们呈现了检测和段（DS），深度学习方法，以产生具有高泛化能力的伤口分割图。在我们的方法中，专门的深度神经网络检测到伤口位置，从未经信息背景隔离伤口，并计算伤口分割图。我们使用具有糖尿病脚溃疡图像的一个数据集评估了这种方法。为了进一步测试，使用4个补充独立数据组，具有来自不同体积的较大种类的伤口类型。当以相同的方法组合检测和分割时，在将完整图像上的分割到0.85时，Matthews的相关系数（MCC）从0.29提高到0.29。当从补充数据集汲取的卷绕图像上进行测试时，DS方法将平均MCC从0.17增加到0.85。此外，DS方法使得分段模型的培训能够在保持分割性能的同时培训高达90％的训练数据。

translated by 谷歌翻译

Comparative study of deep learning methods for the automatic segmentation of lung, lesion and lesion type in CT scans of COVID-19 patients

Sofie Tilborghs , Ine Dirks , Lucas Fidon , Siri Willems , Tom Eelbode , Jeroen Bertels , Bart Ilsen , Arne Brys , Adriana Dubbeldam , Nico Buls

分类：计算机视觉

2020-07-29

最近关于Covid-19的研究表明，CT成像提供了评估疾病进展和协助诊断的有用信息，以及帮助理解疾病。有越来越多的研究，建议使用深度学习来使用胸部CT扫描提供快速准确地定量Covid-19。兴趣的主要任务是胸部CT扫描的肺和肺病变的自动分割，确认或疑似Covid-19患者。在这项研究中，我们使用多中心数据集比较12个深度学习算法，包括开源和内部开发的算法。结果表明，合并不同的方法可以提高肺部分割，二元病变分割和多种子病变分割的总体测试集性能，从而分别为0.982,0.724和0.469的平均骰子分别。将得到的二元病变分段为91.3ml的平均绝对体积误差。通常，区分不同病变类型的任务更加困难，分别具有152mL的平均绝对体积差，分别为整合和磨碎玻璃不透明度为0.369和0.523的平均骰子分数。所有方法都以平均体积误差进行二元病变分割，该分段优于人类评估者的视觉评估，表明这些方法足以用于临床实践中使用的大规模评估。

translated by 谷歌翻译

SCPM-Net: An Anchor-free 3D Lung Nodule Detection Network using Sphere Representation and Center Points Matching

Xiangde Luo , Tao Song , Guotai Wang , Jieneng Chen , Yinan Chen , Kang Li , Dimitris N. Metaxas , Shaoting Zhang

分类：计算机视觉

2021-04-12

3D计算机断层扫描扫描的肺结核检测在高效的肺癌筛查中起着至关重要的作用。尽管使用CNNS的基于锚的探测器获得的SOTA性能，但是它们需要预定的锚定参数，例如锚点的尺寸，数量和纵横比，并且在处理具有大量尺寸的肺结节时具有有限的鲁棒性。为了克服这些问题，我们提出了一种基于3D球体表示的中心点匹配的检测网络，该检测网络是无锚的，并且自动预测结节的位置，半径和偏移，而无需手动设计结节/锚参数。 SCPM-Net由两种新颖组件组成：球体表示和中心点匹配。首先，为了匹配临床实践中的结节注释，我们用所提出的边界球体替换常用的边界框，以表示具有质心，半径和3D空间局部偏移的结节。引入兼容的基于球体的交叉口损耗功能，以稳定且有效地培训肺结核检测网络。其次，我们通过设计正中心点选择和匹配过程来赋予网络锚定，自然地丢弃预定的锚箱。在线硬示例挖掘和重新聚焦损失随后使CPM过程能够更加强大，导致更准确的点分配和级别不平衡的缓解。此外，为了更好地捕获用于检测的空间信息和3D上下文，我们建议熔化具有特征提取器的多级空间坐标映射，并将它们与3D挤压和激励的关注模块相结合。 Luna16数据集上的实验结果表明，与肺结核检测的现有锚和锚定方法相比，我们所提出的框架达到卓越的性能。

translated by 谷歌翻译

Improving Localization for Semi-Supervised Object Detection

Leonardo Rossi , Akbar Karimi , Andrea Prati

分类：计算机视觉

2022-06-21

如今，半监督对象检测（SSOD）是一个热门话题，因为虽然收集用于创建新数据集的图像相当容易，但标记它们仍然是一项昂贵且耗时的任务。在半监督学习（SSL）设置上利用原始图像的成功方法之一是卑鄙的教师技术，在其中，老师的伪标记的运作以及从学生到教师的知识转移到教师的情况下进行。但是，通过阈值进行伪标记并不是最好的解决方案，因为置信值与预测不确定性无关，不允许安全过滤预测。在本文中，我们介绍了一个附加的分类任务，以进行边界框定位，以改善预测边界框的过滤并获得更高的学生培训质量。此外，我们从经验上证明，无监督部分上的边界框回归可以同样有助于培训与类别分类一样多。我们的实验表明，我们的IL-NET（改善本地化网）在限量注册方案中可可数据集中的SSOD性能提高了1.14％的AP。该代码可从https://github.com/implabunipr/unbiased-teacher/tree/ilnet获得

translated by 谷歌翻译

Bounding Box Priors for Cell Detection with Point Annotations

Hari Om Aggrawal , Dipam Goswami , Vinti Agarwal

分类：计算机视觉

2022-11-11

The size of an individual cell type, such as a red blood cell, does not vary much among humans. We use this knowledge as a prior for classifying and detecting cells in images with only a few ground truth bounding box annotations, while most of the cells are annotated with points. This setting leads to weakly semi-supervised learning. We propose replacing points with either stochastic (ST) boxes or bounding box predictions during the training process. The proposed "mean-IOU" ST box maximizes the overlap with all the boxes belonging to the sample space with a class-specific approximated prior probability distribution of bounding boxes. Our method trains with both box- and point-labelled images in conjunction, unlike the existing methods, which train first with box- and then point-labelled images. In the most challenging setting, when only 5% images are box-labelled, quantitative experiments on a urine dataset show that our one-stage method outperforms two-stage methods by 5.56 mAP. Furthermore, we suggest an approach that partially answers "how many box-labelled annotations are necessary?" before training a machine learning model.

translated by 谷歌翻译

Teacher-Student Architecture for Mixed Supervised Lung Tumor Segmentation

Vemund Fredriksen , Svein Ole M. Svele , André Pedersen , Thomas Langø , Gabriel Kiss , Frank Lindseth

分类：计算机视觉 | 机器学习

2021-12-21

目的：自动化肺肿瘤定位和放射性图像分割等任务可以为放射科和其他临床人员提供宝贵的时间。卷积神经网络可能适用于这样的任务，但需要大量标记的数据训练。获得标记数据是一个挑战，尤其是在医学领域。方法：本文调查了教师学生设计的使用，利用具有不同类型监督的数据集来训练在计算机断层摄影图像上进行肺肿瘤分割的自动模型。该框架由两种型号组成：执行端到端的自动肿瘤细分的学生和在培训期间提供学生额外的伪注释数据的教师。结果：仅使用小比例的语义标记数据和大量边界框注释数据，我们使用教师学生设计实现了竞争性能。培训的型号培训的大量语义注释并没有比教师注释数据所培训的模型更好。结论：我们的结果展示了利用教师学生设计的潜力来减少注释负荷，因为可以执行较少的监督注释方案，而没有分割精度的任何实际降级。

translated by 谷歌翻译

Semi-Weakly Supervised Object Detection by Sampling Pseudo Ground-Truth Boxes

Akhil Meethal , Marco Pedersoli , Zhongwen Zhu , Francisco Perdigon Romero , Eric Granger

分类：计算机视觉

2022-04-01

半弱监督和监督的学习最近在对象检测文献中引起了很大的关注，因为它们可以减轻成功训练深度学习模型所需的注释成本。半监督学习的最先进方法依赖于使用多阶段过程训练的学生老师模型，并大量数据增强。为弱监督的设置开发了自定义网络，因此很难适应不同的检测器。在本文中，引入了一种弱半监督的训练方法，以减少这些训练挑战，但通过仅利用一小部分全标记的图像，并在弱标记图像中提供信息来实现最先进的性能。特别是，我们基于通用抽样的学习策略以在线方式产生伪基真实（GT）边界框注释，消除了对多阶段培训的需求和学生教师网络配置。这些伪GT框是根据通过得分传播过程累积的对象建议的分类得分从弱标记的图像中采样的。 PASCAL VOC数据集的经验结果表明，使用VOC 2007作为完全标记的拟议方法可提高性能5.0％，而VOC 2012作为弱标记数据。同样，有了5-10％的完全注释的图像，我们观察到MAP中的10％以上的改善，表明对图像级注释的适度投资可以大大改善检测性能。

translated by 谷歌翻译

Semi-supervised Human Pose Estimation in Art-historical Images

Matthias Springstein , Stefanie Schneider , Christian Althaus , Ralph Ewerth

分类：计算机视觉

2022-07-06

自从17世纪以来，理论上就建立了非语言交流的\ Esquote*{Language}的手势。但是，它与视觉艺术的相关性仅偶尔表达。这可能主要是由于传统上必须手工处理的大量数据。但是，随着数字化的稳定进展，越来越多的历史文物被索引并提供给公众，从而需要自动检索具有类似身体星座或姿势的艺术历史图案。由于艺术领域因其风格差异而与现有的人类姿势估计的现实世界数据集有很大不同，因此提出了新的挑战。在本文中，我们提出了一种新颖的方法来估计艺术历史图像中的人类姿势。与以前试图用预训练模型或通过样式转移弥合域间隙的工作相反，我们建议对对象和关键点检测进行半监督学习。此外，我们引入了一个新颖的特定领域艺术数据集，其中包括人物的边界框和关键点注释。与使用预训练模型或样式转移的方法相比，我们的方法取得了明显更好的结果。

translated by 谷歌翻译

Vertebrae localization, segmentation and identification using a graph optimization and an anatomic consistency cycle

Di Meng , Edmond Boyer , Sergi Pujades

分类：计算机视觉

2021-10-23

CT图像中的椎骨定位，分割和识别是众多临床应用的关键。尽管近年来，深度学习策略已为该领域带来了重大改进，但由于其在培训数据集中的代表性不佳，过渡性和病理椎骨仍在困扰大多数现有方法。另外，提出的基于非学习的方法可以利用先验知识来处理这种特定情况。在这项工作中，我们建议将这两种策略结合起来。为此，我们引入了一个迭代循环，在该循环中，单个椎骨被递归地定位，分割和使用深网鉴定，而使用统计先验则实施解剖一致性。在此策略中，通过在图形模型中编码其配置来处理过渡性椎骨识别，该模型将局部深网预测汇总为解剖上一致的最终结果。我们的方法在Verse20挑战基准上取得了最新的结果，并且优于过渡性椎骨的所有方法以及对Verse19挑战基准的概括。此外，我们的方法可以检测和报告不满足解剖学一致性先验的不一致的脊柱区域。我们的代码和模型公开用于研究目的。

translated by 谷歌翻译

Overview of the HECKTOR Challenge at MICCAI 2021: Automatic Head and Neck Tumor Segmentation and Outcome Prediction in PET/CT Images

Vincent Andrearczyk , Valentin Oreiller , Sarah Boughdad , Catherine Chez Le Rest , Hesham Elhalawani , Mario Jreige , John O. Prior , Martin Vallières , Dimitris Visvikis , Mathieu Hatt

分类：计算机视觉

2022-01-11

本文提出了第二版的头部和颈部肿瘤（Hecktor）挑战的概述，作为第24届医学图像计算和计算机辅助干预（Miccai）2021的卫星活动。挑战由三个任务组成与患有头颈癌（H＆N）的患者的PET / CT图像的自动分析有关，专注于oropharynx地区。任务1是FDG-PET / CT图像中H＆N主肿瘤肿瘤体积（GTVT）的自动分割。任务2是来自同一FDG-PET / CT的进展自由生存（PFS）的自动预测。最后，任务3与任务2的任务2与参与者提供的地面真理GTVT注释相同。这些数据从六个中心收集，总共325个图像，分为224个培训和101个测试用例。通过103个注册团队和448个结果提交的重要参与，突出了对挑战的兴趣。在第一任务中获得0.7591的骰子相似度系数（DSC），分别在任务2和3中的0.7196和0.6978的一致性指数（C-Index）。在所有任务中，发现这种方法的简单性是确保泛化性能的关键。 PFS预测性能在任务2和3中的比较表明，提供GTVT轮廓对于实现最佳结果，这表明可以使用完全自动方法。这可能避免了对GTVT轮廓的需求，用于可重复和大规模的辐射瘤研究的开头途径，包括千元潜在的受试者。

translated by 谷歌翻译

A semi-supervised Teacher-Student framework for surgical tool detection and localization

Mansoor Ali , Gilberto Ochoa-Ruiz , Sharib Ali

分类：计算机视觉 | 机器学习

2022-08-21

微创手术中的手术工具检测是计算机辅助干预措施的重要组成部分。当前的方法主要是基于有监督的方法，这些方法需要大量的完全标记的数据来培训监督模型，并且由于阶级不平衡问题而患有伪标签偏见。但是，带有边界框注释的大图像数据集通常几乎无法使用。半监督学习（SSL）最近出现了仅使用适度的注释数据训练大型模型的一种手段。除了降低注释成本。 SSL还显示出希望产生更强大和可推广的模型。因此，在本文中，我们在手术工具检测范式中介绍了半监督学习（SSL）框架，该框架旨在通过知识蒸馏方法来减轻培训数据的稀缺和数据失衡。在拟议的工作中，我们培训了一个标有数据的模型，该模型启动了教师学生的联合学习，在该学习中，学生接受了来自未标记数据的教师生成的伪标签的培训。我们提出了一个多级距离，在检测器的利益区域头部具有基于保证金的分类损失函数，以有效地将前景类别与背景区域隔离。我们在M2CAI16-Tool-locations数据集上的结果表明，我们的方法在不同的监督数据设置（1％，2％，5％，注释数据的10％）上的优越性，其中我们的模型可实现8％，12％和27的总体改善在最先进的SSL方法和完全监督的基线上，MAP中的％（在1％标记的数据上）。该代码可在https://github.com/mansoor-at/semi-supervise-surgical-tool-det上获得

translated by 谷歌翻译

Learning with Limited Annotations: A Survey on Deep Semi-Supervised Learning for Medical Image Segmentation

Rushi Jiao , Yichi Zhang , Le Ding , Rong Cai , Jicong Zhang

分类：计算机视觉

2022-07-28

在许多图像引导的临床方法中，医学图像分割是一个基本和关键的步骤。基于深度学习的细分方法的最新成功通常取决于大量标记的数据，这特别困难且昂贵，尤其是在医学成像领域中，只有专家才能提供可靠和准确的注释。半监督学习已成为一种吸引人的策略，并广泛应用于医学图像分割任务，以训练注释有限的深层模型。在本文中，我们对最近提议的半监督学习方法进行了全面综述，并总结了技术新颖性和经验结果。此外，我们分析和讨论现有方法的局限性和几个未解决的问题。我们希望这篇评论可以激发研究界探索解决这一挑战的解决方案，并进一步促进医学图像细分领域的发展。

translated by 谷歌翻译

Modality specific U-Net variants for biomedical image segmentation: A survey

Narinder Singh Punn , Sonali Agarwal

分类：计算机视觉

2021-07-09

随着深度学习方法的进步，如深度卷积神经网络，残余神经网络，对抗网络的进步。 U-Net架构最广泛利用生物医学图像分割，以解决目标区域或子区域的识别和检测的自动化。在最近的研究中，基于U-Net的方法在不同应用中显示了最先进的性能，以便在脑肿瘤，肺癌，阿尔茨海默，乳腺癌等疾病的早期诊断和治疗中发育计算机辅助诊断系统等，使用各种方式。本文通过描述U-Net框架来提出这些方法的成功，然后通过执行1）型号的U-Net变体进行综合分析，2）模特内分类，建立更好的见解相关的挑战和解决方案。此外，本文还强调了基于U-Net框架在持续的大流行病，严重急性呼吸综合征冠状病毒2（SARS-COV-2）中的贡献也称为Covid-19。最后，分析了这些U-Net变体的优点和相似性以及生物医学图像分割所涉及的挑战，以发现该领域的未来未来的研究方向。

translated by 谷歌翻译

Med-Query: Steerable Parsing of 9-DoF Medical Anatomies with Query Embedding

Heng Guo , Jianfeng Zhang , Ke Yan , Le Lu , Minfeng Xu

分类：计算机视觉

2022-12-05

Automatic parsing of human anatomies at instance-level from 3D computed tomography (CT) scans is a prerequisite step for many clinical applications. The presence of pathologies, broken structures or limited field-of-view (FOV) all can make anatomy parsing algorithms vulnerable. In this work, we explore how to exploit and conduct the prosperous detection-then-segmentation paradigm in 3D medical data, and propose a steerable, robust, and efficient computing framework for detection, identification, and segmentation of anatomies in CT scans. Considering complicated shapes, sizes and orientations of anatomies, without lose of generality, we present the nine degrees-of-freedom (9-DoF) pose estimation solution in full 3D space using a novel single-stage, non-hierarchical forward representation. Our whole framework is executed in a steerable manner where any anatomy of interest can be directly retrieved to further boost the inference efficiency. We have validated the proposed method on three medical imaging parsing tasks of ribs, spine, and abdominal organs. For rib parsing, CT scans have been annotated at the rib instance-level for quantitative evaluation, similarly for spine vertebrae and abdominal organs. Extensive experiments on 9-DoF box detection and rib instance segmentation demonstrate the effectiveness of our framework (with the identification rate of 97.0% and the segmentation Dice score of 90.9%) in high efficiency, compared favorably against several strong baselines (e.g., CenterNet, FCOS, and nnU-Net). For spine identification and segmentation, our method achieves a new state-of-the-art result on the public CTSpine1K dataset. Last, we report highly competitive results in multi-organ segmentation at FLARE22 competition. Our annotations, code and models will be made publicly available at: https://github.com/alibaba-damo-academy/Med_Query.

translated by 谷歌翻译

Orientation Aware Weapons Detection In Visual Data : A Benchmark Dataset

Nazeef Ul Haq , Muhammad Moazam Fraz , Tufail Sajjad Shah Hashmi , Muhammad Shahzad

分类：计算机视觉

2021-12-04

自动检测武器对于改善个人的安全性和福祉是重要的，仍然是由于各种尺寸，武器形状和外观，这是一项艰巨的任务。查看点变化和遮挡也是使这项任务更加困难的原因。此外，目前的物体检测算法处理矩形区域，但是一个细长和长的步枪可以真正地覆盖区域的一部分区域，其余部分可能包含未经紧的细节。为了克服这些问题，我们提出了一种用于定向意识武器检测的CNN架构，其提供具有改进的武器检测性能的面向边界框。所提出的模型不仅通过将角度作为分类问题的角度分成8个类而且提供方向，而是作为回归问题。对于培训我们的武器检测模型，包括总6400件武器图像的新数据集从网上收集，然后用面向定向的边界框手动注释。我们的数据集不仅提供导向的边界框作为地面真相，还提供了水平边界框。我们还以多种现代对象探测器提供我们的数据集，用于在该领域进一步研究。所提出的模型在该数据集上进行评估，并且与搁板对象检测器的比较分析产生了卓越的拟议模型的性能，以标准评估策略测量。数据集和模型实现在此链接上公开可用：https://bit.ly/2tyzicf。

translated by 谷歌翻译

An Experience-based Direct Generation approach to Automatic Image Cropping

Casper Christensen , Aneesh Vartakavi

分类：计算机视觉 | 机器学习

2022-12-30

Automatic Image Cropping is a challenging task with many practical downstream applications. The task is often divided into sub-problems - generating cropping candidates, finding the visually important regions, and determining aesthetics to select the most appealing candidate. Prior approaches model one or more of these sub-problems separately, and often combine them sequentially. We propose a novel convolutional neural network (CNN) based method to crop images directly, without explicitly modeling image aesthetics, evaluating multiple crop candidates, or detecting visually salient regions. Our model is trained on a large dataset of images cropped by experienced editors and can simultaneously predict bounding boxes for multiple fixed aspect ratios. We consider the aspect ratio of the cropped image to be a critical factor that influences aesthetics. Prior approaches for automatic image cropping, did not enforce the aspect ratio of the outputs, likely due to a lack of datasets for this task. We, therefore, benchmark our method on public datasets for two related tasks - first, aesthetic image cropping without regard to aspect ratio, and second, thumbnail generation that requires fixed aspect ratio outputs, but where aesthetics are not crucial. We show that our strategy is competitive with or performs better than existing methods in both these tasks. Furthermore, our one-stage model is easier to train and significantly faster than existing two-stage or end-to-end methods for inference. We present a qualitative evaluation study, and find that our model is able to generalize to diverse images from unseen datasets and often retains compositional properties of the original images after cropping. Our results demonstrate that explicitly modeling image aesthetics or visual attention regions is not necessarily required to build a competitive image cropping algorithm.

translated by 谷歌翻译