智能论文笔记

Two-Stage Mesh Deep Learning for Automated Tooth Segmentation and Landmark Localization on 3D Intraoral Scans

Tai-Hsien Wu , Chunfeng Lian , Sanghee Lee , Matthew Pastewait , Christian Piers , Jie Liu , Fang Wang , Li Wang , Chiung-Ying Chiu , Wenchi Wang

分类：计算机视觉

2021-09-24

精确分割牙齿并识别牙科网格模型上的相应解剖标签在计算机辅助性正畸治疗中是必不可少的。手动执行这两个任务是耗时，繁琐的，更重要的是，由于患者牙齿的异常和大规模差异，高度依赖于矫正者的经验。一些基于机器学习的方法已经设计和应用于正畸场，以自动分割牙科网格（例如，口腔扫描）。相比之下，牙齿地标定位的研究数量仍然有限。本文提出了一种基于网格深度学习（称为TS-MDL）的两级框架，用于联合牙齿标签和原始内部扫描的地标识别。我们的TS-MDL首先采用端到端\ EMPH {i} MeshsegNet方法（即，现有网格孔的变体，具有改进的精度和效率），以在下采样扫描上标记每个牙齿。由分割输出引导，我们的TS-MDL进一步选择原始网格上的每个牙齿的感兴趣区域（ROI），以构造开头的光重变量（即PINTNET-REG），用于回归相应的地标热插块。我们的TS-MDL在实际的数据集上进行了评估，显示了有希望的细分和本地化性能。具体而言，TS-MDL的第一阶段中的\ EMPH {i} Meshsegnet达到了0.964 \ PM0.054 $ 0.964 \ PM0.054 $的平均骰子相似度系数（DSC），显着优于原始的Meshsegnet。在第二阶段，PointNet-Reg实现了0.597 \ PM0.761 \，预测和地面真理之间的平均绝对误差（MAE），以66美元的地标，与地标检测的其他网络相比，比较优越。所有这些结果表明我们在临床实践中的TS-MDL潜在使用。

translated by 谷歌翻译

Dense Representative Tooth Landmark/axis Detection Network on 3D Model

Guangshun Wei , Zhiming Cui , Jie Zhu , Lei Yang , Yuanfeng Zhou , Pradeep Singh , Min Gu , Wenping Wang

分类：人工智能 | 计算机视觉

2021-11-08

人工智能（AI）技术越来越多地用于数字正畸性，但其中一个挑战是自动准确地检测牙齿标志和轴。这部分是因为它们的复杂几何定义，部分原因是各个齿之间的大变化以及跨越不同类型的牙齿。因此，我们提出了一种深入的学习方法，通过专业牙医与标签数据集进行标记的数据集，以对牙齿模型的牙齿地标/轴检测，这对正畸治疗至关重要。我们的方法可以不仅提取点（例如CUSP）的形式提取牙齿地标，而且还可以提取牙齿地标，而且还可以测量牙齿角度和倾斜的轴。所提出的网络作为输入3D齿模型，并预测各种类型的牙齿地标和轴。具体地，我们将地标和轴编码为在齿模型表面上定义的致密字段。这种设计选择和一组添加的组件使得所提出的网络更适合于从给定的3D齿模型提取稀疏地标。对所提出的方法进行广泛评估，在经验丰富的牙医制备的一套牙科模型上进行。结果表明，我们的方法可以高精度地生产牙齿地标。我们通过与最先进的方法以及烧蚀研究进行了研究和证明我们的方法。

translated by 谷歌翻译

Feature Aggregation and Refinement Network for 2D AnatomicalLandmark Detection

Yueyuan Ao , Hong Wu

分类：计算机视觉

2021-11-01

解剖标志的本地化对于临床诊断，治疗计划和研究至关重要。在本文中，我们提出了一种新的深网络，名为特征聚合和细化网络（Farnet），用于自动检测解剖标记。为了减轻医疗领域的培训数据有限的问题，我们的网络采用了在自然图像上预先培训的深网络，因为骨干网络和几个流行的网络进行了比较。我们的FARNET还包括多尺度特征聚合模块，用于多尺度特征融合和用于高分辨率热图回归的特征精制模块。粗细的监督应用于两个模块，以方便端到端培训。我们进一步提出了一种名为指数加权中心损耗的新型损失函数，用于准确的热爱回归，这侧重于地标附近的像素的损失并抑制了远处的损失。我们的网络已经在三个公开的解剖学地标检测数据集中进行了评估，包括头部测量射线照片，手射线照片和脊柱射线照相，并在所有三个数据集上实现最先进的性能。代码可用：\ url {https://github.com/juvenileinwind/farnet}

translated by 谷歌翻译

Relational Reasoning Network (RRN) for Anatomical Landmarking

Neslisah Torosdagli , Syed Anwar , Payal Verma , Denise K Liberton , Janice S. Lee , Wade W. Han , Ulas Bagci

分类：机器学习 | 计算机视觉 | (统计)机器学习

2019-04-08

目的：我们对颅颌面（CMF）骨骼进行解剖地标，而无需明确分割它们。为此，我们提出了一种新的简单而有效的深层网络体系结构，称为\ textit {关系推理网络（RRN）}，以准确地学习CMF骨骼中地标之间的本地和全球关系；具体而言，下颌骨，上颌和鼻骨。方法：拟议的RRN以端到端的方式工作，利用基于密集块单元的地标的学习关系。对于给定的少数地标作为输入，RRN将地标的过程类似于数据推出问题，而数据插图问题被认为缺少了预测的地标。结果：我们将RRN应用于从250名患者获得的锥束计算机断层扫描扫描。使用4倍的交叉验证技术，我们获得了平均均方根误差，每个地标小于2 mm。我们提出的RRN揭示了地标之间的独特关系，这些关系帮助我们推断了关于地标的信息的几个\ textit {推理}。所提出的系统即使骨骼中存在严重的病理或变形，也可以准确地识别缺失的地标性位置。结论：准确识别解剖标志是CMF手术的变形分析和手术计划的关键步骤。实现这一目标而无需明确的骨骼分割解决了基于分割方法的主要局限性，在这种方法中，分割失败（在具有严重病理或变形的骨骼中通常情况下）很容易导致地标不正确。据我们所知，这是使用深度学习发现对象的解剖学关系的第一种此类算法。

translated by 谷歌翻译

Unsupervised Landmark Detection Based Spatiotemporal Motion Estimation for 4D Dynamic Medical Images

Yuyu Guo , Lei Bi , Dongming Wei , Liyun Chen , Zhengbin Zhu , Dagan Feng , Ruiyan Zhang , Qian Wang , Jinman Kim

分类：计算机视觉

2021-09-30

运动估计是用于评估目标器官解剖学和功能的动态医学图像处理的基本步骤。然而，通过评估局部图像相似性通过评估局部图像相似性优化运动场的基于图像的运动估计方法，易于产生令人难以置信的估计，尤其是在大运动的情况下。在这项研究中，我们提供了一种新颖的稀疏密度（DSD）的运动估计框架，其包括两个阶段。在第一阶段，我们处理原始密集图像以提取稀疏地标以表示目标器官解剖拓扑，并丢弃对运动估计不必要的冗余信息。为此目的，我们介绍一个无监督的3D地标检测网络，以提取用于目标器官运动估计的空间稀疏但代表性的地标。在第二阶段，我们从两个不同时间点的两个图像的提取稀疏地标的稀疏运动位移得出。然后，我们通过将稀疏地标位移突出回致密图像域，呈现运动重建网络来构造运动场。此外，我们从我们的两级DSD框架中使用估计的运动场作为初始化，并提高轻量级且有效的迭代优化中的运动估计质量。我们分别评估了两种动态医学成像任务的方法，分别为模型心脏运动和肺呼吸运动。与现有的比较方法相比，我们的方法产生了出色的运动估计精度。此外，广泛的实验结果表明，我们的解决方案可以提取良好代表性解剖标志，而无需手动注释。我们的代码在线公开提供。

translated by 谷歌翻译

Med-Query: Steerable Parsing of 9-DoF Medical Anatomies with Query Embedding

Heng Guo , Jianfeng Zhang , Ke Yan , Le Lu , Minfeng Xu

分类：计算机视觉

2022-12-05

Automatic parsing of human anatomies at instance-level from 3D computed tomography (CT) scans is a prerequisite step for many clinical applications. The presence of pathologies, broken structures or limited field-of-view (FOV) all can make anatomy parsing algorithms vulnerable. In this work, we explore how to exploit and conduct the prosperous detection-then-segmentation paradigm in 3D medical data, and propose a steerable, robust, and efficient computing framework for detection, identification, and segmentation of anatomies in CT scans. Considering complicated shapes, sizes and orientations of anatomies, without lose of generality, we present the nine degrees-of-freedom (9-DoF) pose estimation solution in full 3D space using a novel single-stage, non-hierarchical forward representation. Our whole framework is executed in a steerable manner where any anatomy of interest can be directly retrieved to further boost the inference efficiency. We have validated the proposed method on three medical imaging parsing tasks of ribs, spine, and abdominal organs. For rib parsing, CT scans have been annotated at the rib instance-level for quantitative evaluation, similarly for spine vertebrae and abdominal organs. Extensive experiments on 9-DoF box detection and rib instance segmentation demonstrate the effectiveness of our framework (with the identification rate of 97.0% and the segmentation Dice score of 90.9%) in high efficiency, compared favorably against several strong baselines (e.g., CenterNet, FCOS, and nnU-Net). For spine identification and segmentation, our method achieves a new state-of-the-art result on the public CTSpine1K dataset. Last, we report highly competitive results in multi-organ segmentation at FLARE22 competition. Our annotations, code and models will be made publicly available at: https://github.com/alibaba-damo-academy/Med_Query.

translated by 谷歌翻译

Automatic Tooth Segmentation from 3D Dental Model using Deep Learning: A Quantitative Analysis of what can be learnt from a Single 3D Dental Model

Ananya Jana , Hrebesh Molly Subhash , Dimitris Metaxas

分类：计算机视觉

2022-09-16

3D牙齿分割是数字正畸技术的重要任务。已经提出了几种深度学习方法，用于从3D牙科模型或口腔内扫描中进行自动牙齿分割。这些方法需要注释的3D口内扫描。手动注释3D口腔内扫描是一项费力的任务。一种方法是设计自学方法来减少手动标签工作。与其他类型的点云数据（例如场景点云或形状点云数据）相比，3D牙齿点云数据具有非常规定的结构和强大的形状。我们查看可以从单个3D口内扫描中学到多少代表性信息。我们借助十种不同的方法来定量评估，其中六种是通用点云分割方法，而其他四种是特定于牙齿分割的方法。令人惊讶的是，我们发现，在单个3D口内扫描训练中，骰子得分可以高达0.86，而完整的训练组可得分为0.94。我们得出的结论是，分割方法可以从单个3D牙齿点云扫描中学习大量信息，例如数据增强。我们是第一个从单个3D口内扫描中进行定量评估并证明深度学习方法的表示能力的人。这可以通过最大程度地利用可用的数据来实现在极端数据限制方案下构建牙齿分割的自学方法。

translated by 谷歌翻译

Segmentation of 3D Dental Images Using Deep Learning

Omar Boudraa

分类：计算机视觉

2022-07-19

3D图像分割是许多医学分析和识别方案的最新至关重要的步骤。实际上，由于其重要性和影响力，它代表了一个相关的研究主题和基本挑战。本文提供了一个基于深度学习的系统，该系统杂交了各种有效的方法，以获取最佳的3D分割输出。首先，为了减少数据量并加速处理时间，建议并证明了脱节压缩技术的应用。然后，我们使用CNN模型将牙科图像分为15个分离的类。最后，采用特殊的基于KNN的转换，目的是为了去除孤立的网格和校正牙齿形式。实验证明了在私人临床基准内应用于3D牙科图像的所选框架的精度和鲁棒性。

translated by 谷歌翻译

Vertebrae localization, segmentation and identification using a graph optimization and an anatomic consistency cycle

Di Meng , Edmond Boyer , Sergi Pujades

分类：计算机视觉

2021-10-23

CT图像中的椎骨定位，分割和识别是众多临床应用的关键。尽管近年来，深度学习策略已为该领域带来了重大改进，但由于其在培训数据集中的代表性不佳，过渡性和病理椎骨仍在困扰大多数现有方法。另外，提出的基于非学习的方法可以利用先验知识来处理这种特定情况。在这项工作中，我们建议将这两种策略结合起来。为此，我们引入了一个迭代循环，在该循环中，单个椎骨被递归地定位，分割和使用深网鉴定，而使用统计先验则实施解剖一致性。在此策略中，通过在图形模型中编码其配置来处理过渡性椎骨识别，该模型将局部深网预测汇总为解剖上一致的最终结果。我们的方法在Verse20挑战基准上取得了最新的结果，并且优于过渡性椎骨的所有方法以及对Verse19挑战基准的概括。此外，我们的方法可以检测和报告不满足解剖学一致性先验的不一致的脊柱区域。我们的代码和模型公开用于研究目的。

translated by 谷歌翻译

AGConv: Adaptive Graph Convolution on 3D Point Clouds

Mingqiang Wei , Zeyong Wei , Haoran Zhou , Fei Hu , Huajian Si , Zhilei Chen , Zhe Zhu , Jingbo Qiu , Xuefeng Yan , Yanwen Guo

分类：计算机视觉

2022-06-09

3D点云的卷积经过广泛研究，但在几何深度学习中却远非完美。卷积的传统智慧在3D点之间表现出特征对应关系，这是对差的独特特征学习的内在限制。在本文中，我们提出了自适应图卷积（AGCONV），以供点云分析的广泛应用。 AGCONV根据其动态学习的功能生成自适应核。与使用固定/各向同性核的解决方案相比，AGCONV提高了点云卷积的灵活性，有效，精确地捕获了不同语义部位的点之间的不同关系。与流行的注意力体重方案不同，AGCONV实现了卷积操作内部的适应性，而不是简单地将不同的权重分配给相邻点。广泛的评估清楚地表明，我们的方法优于各种基准数据集中的点云分类和分割的最新方法。同时，AGCONV可以灵活地采用更多的点云分析方法来提高其性能。为了验证其灵活性和有效性，我们探索了基于AGCONV的完成，DeNoing，Upsmpling，注册和圆圈提取的范式，它们与竞争对手相当甚至优越。我们的代码可在https://github.com/hrzhou2/adaptconv-master上找到。

translated by 谷歌翻译

Simulating Realistic MRI variations to Improve Deep Learning model and visual explanations using GradCAM

Muhammad Ilyas Patel , Shrey Singla , Razeem Ahmad Ali Mattathodi , Sumit Sharma , Deepam Gautam , Srinivasa Rao Kundeti

分类：人工智能 | 计算机视觉

2021-11-01

在医学领域，MRI的地标检测在减少扫描计划，图像登记等中的任务中减少医疗技术人员努力方面发挥着重要作用。首先，88个地标在三个相应的观点中分布在三个相应的观点中 - 矢状，冠状动脉和轴向手动注释，专家临床技术人员的后期准则被划分解剖学，以便更好地定位现有地标，以便即使在斜扫描中也定位重要的地图标志性地标。为了克服有限的数据可用性，我们实施现实的数据增强以生成合成3D容量数据。我们使用修改后的HIGHRES3DNET模型来解决脑MRI容量的地标检测问题。为了在视觉上解释我们的培训模型，并从较弱的模型中辨别更强的模型，我们实现了梯度加权类激活映射（GRAC-CAM），它产生突出显示模型聚焦的区域的粗糙定位图。我们的实验表明，该方法显示出有利的结果，并且整个管道可以扩展到可变数量的地标和其他解剖。

translated by 谷歌翻译

Deep Learning for 3D Point Clouds: A Survey

Yulan Guo , Hanyun Wang , Qingyong Hu , Hao Liu , Li Liu , Mohammed Bennamoun

分类：

2019-12-27

Point cloud learning has lately attracted increasing attention due to its wide applications in many areas, such as computer vision, autonomous driving, and robotics. As a dominating technique in AI, deep learning has been successfully used to solve various 2D vision problems. However, deep learning on point clouds is still in its infancy due to the unique challenges faced by the processing of point clouds with deep neural networks. Recently, deep learning on point clouds has become even thriving, with numerous methods being proposed to address different problems in this area. To stimulate future research, this paper presents a comprehensive review of recent progress in deep learning methods for point clouds. It covers three major tasks, including 3D shape classification, 3D object detection and tracking, and 3D point cloud segmentation. It also presents comparative results on several publicly available datasets, together with insightful observations and inspiring future research directions.

translated by 谷歌翻译

SkullEngine: A Multi-stage CNN Framework for Collaborative CBCT Image Segmentation and Landmark Detection

Qin Liu , Han Deng , Chunfeng Lian , Xiaoyang Chen , Deqiang Xiao , Lei Ma , Xu Chen , Tianshu Kuang , Jaime Gateno , Pew-Thian Yap

分类：计算机视觉

2021-10-07

我们提出了一种叫做SkullEngine的多级粗内CNN框架，可通过协作，集成和可扩展的JSD模型和三个分段和地标检测细化模型进行高分辨率分割和大规模地标检测。我们在临床数据集中评估了由170 CBCT / CT图像组成的临床数据集，用于分割2骨骼（Midface和Mabless）的任务，并在骨骼，牙齿和软组织上检测175个临床普通的地标。

translated by 谷歌翻译

Medical Image Analysis on Left Atrial LGE MRI for Atrial Fibrillation Studies: A Review

Lei Li , Veronika A. Zimmer , Julia A. Schnabel , Xiahai Zhuang

分类：计算机视觉

2021-06-18

晚期钆增强磁共振成像（LGE MRI）通常用于可视化和量化左心房（LA）疤痕。疤痕的位置和程度提供了心理生理学和心房颤动进展的重要信息（AF）。因此，LGE MRI的La Scar分段和量化可用于AF患者的计算机辅助诊断和治疗分层。由于手动描绘可能是耗时的，并且经过专家内和专家间变异性，因此非常需要自动化这种计算，这然而仍然仍然具有挑战性和研究。本文旨在为La腔，墙壁，瘢痕和消融差距分割和LGE MRI的定量提供系统审查，以及AF研究的相关文献。具体而言，我们首先总结AF相关的成像技术，特别是LGE MRI。然后，我们详细介绍了四个计算任务的方法，并总结了每个任务中应用的验证策略。最后，概述了未来可能的未来发展，简要调查了上述方法的潜在临床应用。审查表明，该主题的研究仍处于早期阶段。虽然已经提出了几种方法，但特别是对于LA分割，由于与图像采集的高度变化相关的性能问题和图像采集差异有关的性能问题，仍有很大的算法发展。

translated by 谷歌翻译

Medical Image Segmentation Using Deep Learning: A Survey

Risheng Wang , Tao Lei , Ruixia Cui , Bingtao Zhang , Hongying Meng , Asoke K. Nandi

分类：计算机视觉

2020-09-28

深度学习已被广泛用于医学图像分割，并且录制了录制了该领域深度学习的成功的大量论文。在本文中，我们使用深层学习技术对医学图像分割的全面主题调查。本文进行了两个原创贡献。首先，与传统调查相比，直接将深度学习的文献分成医学图像分割的文学，并为每组详细介绍了文献，我们根据从粗略到精细的多级结构分类目前流行的文献。其次，本文侧重于监督和弱监督的学习方法，而不包括无监督的方法，因为它们在许多旧调查中引入而且他们目前不受欢迎。对于监督学习方法，我们分析了三个方面的文献：骨干网络的选择，网络块的设计，以及损耗功能的改进。对于虚弱的学习方法，我们根据数据增强，转移学习和交互式分割进行调查文献。与现有调查相比，本调查将文献分类为比例不同，更方便读者了解相关理由，并将引导他们基于深度学习方法思考医学图像分割的适当改进。

translated by 谷歌翻译

Nuclei & Glands Instance Segmentation in Histology Images: A Narrative Review

Esha Sadia Nasir , Arshi Perviaz , Muhammad Moazam Fraz

分类：计算机视觉

2022-08-26

组织学图像中核和腺体的实例分割是用于癌症诊断，治疗计划和生存分析的计算病理学工作流程中的重要一步。随着现代硬件的出现，大规模质量公共数据集的最新可用性以及社区组织的宏伟挑战已经看到了自动化方法的激增，重点是特定领域的挑战，这对于技术进步和临床翻译至关重要。在这项调查中，深入分析了过去五年（2017-2022）中发表的原子核和腺体实例细分的126篇论文，进行了深入分析，讨论了当前方法的局限性和公开挑战。此外，提出了潜在的未来研究方向，并总结了最先进方法的贡献。此外，还提供了有关公开可用数据集的概括摘要以及关于说明每种挑战的最佳性能方法的巨大挑战的详细见解。此外，我们旨在使读者现有研究的现状和指针在未来的发展方向上开发可用于临床实践的方法，从而可以改善诊断，分级，预后和癌症的治疗计划。据我们所知，以前没有工作回顾了朝向这一方向的组织学图像中的实例细分。

translated by 谷歌翻译

HTML版本

Leveraging Unsupervised Image Registration for Discovery of Landmark Shape Descriptor

Riddhish Bhalodia , Shireen Elhabian , Ladislav Kavan , Ross Whitaker

分类：计算机视觉 | 机器学习

2021-11-13

在目前的生物和医学研究中，统计形状建模（SSM）提供了解剖/形态学表征的基本框架。这种分析通常通过识别群体样本中发现的相对少量的几何一致性特征来驱动。这些特征随后可以提供有关人口形状变化的信息。密集的对应模型可以提供易于计算，并在后面减小时产生可解释的低维形状描述符。然而，用于获得这种对应关系的自动方法通常需要图像分割，然后是显着的预处理，这在计算和人力资源方面都是征税。在许多情况下，分段和后续处理需要手动指导和解剖学特定域专业知识。本文提出了一种自我监督的深度学习方法，用于发现可以直接用作形状描述符的图像中的地标进行分析。我们使用地标驱动的图像登记作为主要任务，以强制神经网络发现井注册图像的地标。我们还提出了一个正则化术语，允许对神经网络的稳健优化进行稳健优化，并确保地标均匀跨越图像域。所提出的方法避免分割和预处理，并直接使用仅2D或3D图像产生可用的形状描述符。此外，我们还提出了在训练损失函数上提出了两个变体，允许将现有的形状信息集成到模型中。我们在几个2D和3D数据集上应用此框架以获取其形状描述符，并分析其实用程序以获取各种应用程序。

translated by 谷歌翻译

ISA-Net: Improved spatial attention network for PET-CT tumor segmentation

Zhengyong Huang , Sijuan Zou , Guoshuai Wang , Zixiang Chen , Hao Shen , Haiyan Wang , Na Zhang , Lu Zhang , Fan Yang , Haining Wangg

分类：计算机视觉

2022-11-04

Achieving accurate and automated tumor segmentation plays an important role in both clinical practice and radiomics research. Segmentation in medicine is now often performed manually by experts, which is a laborious, expensive and error-prone task. Manual annotation relies heavily on the experience and knowledge of these experts. In addition, there is much intra- and interobserver variation. Therefore, it is of great significance to develop a method that can automatically segment tumor target regions. In this paper, we propose a deep learning segmentation method based on multimodal positron emission tomography-computed tomography (PET-CT), which combines the high sensitivity of PET and the precise anatomical information of CT. We design an improved spatial attention network(ISA-Net) to increase the accuracy of PET or CT in detecting tumors, which uses multi-scale convolution operation to extract feature information and can highlight the tumor region location information and suppress the non-tumor region location information. In addition, our network uses dual-channel inputs in the coding stage and fuses them in the decoding stage, which can take advantage of the differences and complementarities between PET and CT. We validated the proposed ISA-Net method on two clinical datasets, a soft tissue sarcoma(STS) and a head and neck tumor(HECKTOR) dataset, and compared with other attention methods for tumor segmentation. The DSC score of 0.8378 on STS dataset and 0.8076 on HECKTOR dataset show that ISA-Net method achieves better segmentation performance and has better generalization. Conclusions: The method proposed in this paper is based on multi-modal medical image tumor segmentation, which can effectively utilize the difference and complementarity of different modes. The method can also be applied to other multi-modal data or single-modal data by proper adjustment.

translated by 谷歌翻译

Automated liver tissues delineation techniques: A systematic survey on machine learning current trends and future orientations

Ayman Al-Kababji , Faycal Bensaali , Sarada Prasad Dakua , Yassine Himeur

分类：计算机视觉 | 机器学习

2021-03-10

机器学习和计算机视觉技术近年来由于其自动化，适合性和产生惊人结果的能力而迅速发展。因此，在本文中，我们调查了2014年至2022年之间发表的关键研究，展示了不同的机器学习算法研究人员用来分割肝脏，肝肿瘤和肝脉管结构的研究。我们根据感兴趣的组织（肝果，肝肿瘤或肝毒剂）对被调查的研究进行了划分，强调了同时解决多个任务的研究。此外，机器学习算法被归类为受监督或无监督的，如果属于某个方案的工作量很大，则将进一步分区。此外，对文献和包含上述组织面具的网站发现的不同数据集和挑战进行了彻底讨论，强调了组织者的原始贡献和其他研究人员的贡献。同样，在我们的评论中提到了文献中过度使用的指标，这强调了它们与手头的任务的相关性。最后，强调创新研究人员应对需要解决的差距的关键挑战和未来的方向，例如许多关于船舶分割挑战的研究的稀缺性以及为什么需要早日处理他们的缺席。

translated by 谷歌翻译

Object Detection with Deep Learning: A Review

Zhong-Qiu Zhao , Peng Zheng , Shou-tao Xu , Xindong Wu

分类：

2018-07-15

Due to object detection's close relationship with video analysis and image understanding, it has attracted much research attention in recent years. Traditional object detection methods are built on handcrafted features and shallow trainable architectures. Their performance easily stagnates by constructing complex ensembles which combine multiple low-level image features with high-level context from object detectors and scene classifiers. With the rapid development in deep learning, more powerful tools, which are able to learn semantic, high-level, deeper features, are introduced to address the problems existing in traditional architectures. These models behave differently in network architecture, training strategy and optimization function, etc. In this paper, we provide a review on deep learning based object detection frameworks. Our review begins with a brief introduction on the history of deep learning and its representative tool, namely Convolutional Neural Network (CNN). Then we focus on typical generic object detection architectures along with some modifications and useful tricks to improve detection performance further. As distinct specific detection tasks exhibit different characteristics, we also briefly survey several specific tasks, including salient object detection, face detection and pedestrian detection. Experimental analyses are also provided to compare various methods and draw some meaningful conclusions. Finally, several promising directions and tasks are provided to serve as guidelines for future work in both object detection and relevant neural network based learning systems.

translated by 谷歌翻译