SKA脉冲星搜索管道将用于实时检测脉冲星。SKA等现代射电望远镜将在其全面运行中生成数据。因此,基于经验和数据驱动的算法对于诸如候选检测等应用是必不可少的。在这里,我们描述了我们的发现,从测试一种称为Mask R-CNN的最先进的对象检测算法来检测SKA PULSAR搜索管道中的候选标志。我们已经训练了蒙版R-CNN模型来检测候选图像。开发了一种自定义注释工具,以有效地标记大型数据集中感兴趣的区域。我们通过检测模拟数据集中的候选签名成功证明了该算法。本文介绍了这项工作的详细信息,并重点介绍了未来的前景。
translated by 谷歌翻译
工业X射线分析在需要保证某些零件的结构完整性的航空航天,汽车或核行业中很常见。但是,射线照相图像的解释有时很困难,可能导致两名专家在缺陷分类上不同意。本文介绍的自动缺陷识别(ADR)系统将减少分析时间,还将有助于减少对缺陷的主观解释,同时提高人类检查员的可靠性。我们的卷积神经网络(CNN)模型达到94.2 \%准确性(MAP@iou = 50 \%),当应用于汽车铝铸件数据集(GDXRAR)时,它被认为与预期的人类性能相似,超过了当前状态该数据集的艺术。在工业环境上,其推理时间少于每个DICOM图像,因此可以安装在生产设施上,不会影响交付时间。此外,还进行了对主要高参数的消融研究,以优化从75 \%映射的初始基线结果最高94.2 \%map的模型准确性。
translated by 谷歌翻译
Due to object detection's close relationship with video analysis and image understanding, it has attracted much research attention in recent years. Traditional object detection methods are built on handcrafted features and shallow trainable architectures. Their performance easily stagnates by constructing complex ensembles which combine multiple low-level image features with high-level context from object detectors and scene classifiers. With the rapid development in deep learning, more powerful tools, which are able to learn semantic, high-level, deeper features, are introduced to address the problems existing in traditional architectures. These models behave differently in network architecture, training strategy and optimization function, etc. In this paper, we provide a review on deep learning based object detection frameworks. Our review begins with a brief introduction on the history of deep learning and its representative tool, namely Convolutional Neural Network (CNN). Then we focus on typical generic object detection architectures along with some modifications and useful tricks to improve detection performance further. As distinct specific detection tasks exhibit different characteristics, we also briefly survey several specific tasks, including salient object detection, face detection and pedestrian detection. Experimental analyses are also provided to compare various methods and draw some meaningful conclusions. Finally, several promising directions and tasks are provided to serve as guidelines for future work in both object detection and relevant neural network based learning systems.
translated by 谷歌翻译
现在,诸如无人机之类的无人机,从捕获和目标检测的各种目的中,从Ariel Imagery等捕获和目标检测的各种目的很大使用。轻松进入这些小的Ariel车辆到公众可能导致严重的安全威胁。例如,可以通过使用无人机在公共公共场合中混合的间谍来监视关键位置。在手中研究提出了一种改进和高效的深度学习自治系统,可以以极大的精度检测和跟踪非常小的无人机。建议的系统由自定义深度学习模型Tiny Yolov3组成,其中一个非常快速的物体检测模型的口味之一,您只能构建并用于检测一次(YOLO)。物体检测算法将有效地检测无人机。与以前的Yolo版本相比,拟议的架构表现出显着更好的性能。在资源使用和时间复杂性方面观察到改进。使用召回和精度分别为93%和91%的测量来测量性能。
translated by 谷歌翻译
海洋生态系统及其鱼类栖息地越来越重要,因为它们在提供有价值的食物来源和保护效果方面的重要作用。由于它们的偏僻且难以接近自然,因此通常使用水下摄像头对海洋环境和鱼类栖息地进行监测。这些相机产生了大量数字数据,这些数据无法通过当前的手动处理方法有效地分析,这些方法涉及人类观察者。 DL是一种尖端的AI技术,在分析视觉数据时表现出了前所未有的性能。尽管它应用于无数领域,但仍在探索其在水下鱼类栖息地监测中的使用。在本文中,我们提供了一个涵盖DL的关键概念的教程,该教程可帮助读者了解对DL的工作原理的高级理解。该教程还解释了一个逐步的程序,讲述了如何为诸如水下鱼类监测等挑战性应用开发DL算法。此外,我们还提供了针对鱼类栖息地监测的关键深度学习技术的全面调查,包括分类,计数,定位和细分。此外,我们对水下鱼类数据集进行了公开调查,并比较水下鱼类监测域中的各种DL技术。我们还讨论了鱼类栖息地加工深度学习的新兴领域的一些挑战和机遇。本文是为了作为希望掌握对DL的高级了解,通过遵循我们的分步教程而为其应用开发的海洋科学家的教程,并了解如何发展其研究,以促进他们的研究。努力。同时,它适用于希望调查基于DL的最先进方法的计算机科学家,以进行鱼类栖息地监测。
translated by 谷歌翻译
我们提出了一种新的四管齐下的方法,在文献中首次建立消防员的情境意识。我们构建了一系列深度学习框架,彼此之叠,以提高消防员在紧急首次响应设置中进行的救援任务的安全性,效率和成功完成。首先,我们使用深度卷积神经网络(CNN)系统,以实时地分类和识别来自热图像的感兴趣对象。接下来,我们将此CNN框架扩展了对象检测,跟踪,分割与掩码RCNN框架,以及具有多模级自然语言处理(NLP)框架的场景描述。第三,我们建立了一个深入的Q学习的代理,免受压力引起的迷失方向和焦虑,能够根据现场消防环境中观察和存储的事实来制定明确的导航决策。最后,我们使用了一种低计算无监督的学习技术,称为张量分解,在实时对异常检测进行有意义的特征提取。通过这些临时深度学习结构,我们建立了人工智能系统的骨干,用于消防员的情境意识。要将设计的系统带入消防员的使用,我们设计了一种物理结构,其中处理后的结果被用作创建增强现实的投入,这是一个能够建议他们所在地的消防员和周围的关键特征,这对救援操作至关重要在手头,以及路径规划功能,充当虚拟指南,以帮助迷彩的第一个响应者恢复安全。当组合时,这四种方法呈现了一种新颖的信息理解,转移和综合方法,这可能会大大提高消防员响应和功效,并降低寿命损失。
translated by 谷歌翻译
X-ray imaging technology has been used for decades in clinical tasks to reveal the internal condition of different organs, and in recent years, it has become more common in other areas such as industry, security, and geography. The recent development of computer vision and machine learning techniques has also made it easier to automatically process X-ray images and several machine learning-based object (anomaly) detection, classification, and segmentation methods have been recently employed in X-ray image analysis. Due to the high potential of deep learning in related image processing applications, it has been used in most of the studies. This survey reviews the recent research on using computer vision and machine learning for X-ray analysis in industrial production and security applications and covers the applications, techniques, evaluation metrics, datasets, and performance comparison of those techniques on publicly available datasets. We also highlight some drawbacks in the published research and give recommendations for future research in computer vision-based X-ray analysis.
translated by 谷歌翻译
Asteroids are an indelible part of most astronomical surveys though only a few surveys are dedicated to their detection. Over the years, high cadence microlensing surveys have amassed several terabytes of data while scanning primarily the Galactic Bulge and Magellanic Clouds for microlensing events and thus provide a treasure trove of opportunities for scientific data mining. In particular, numerous asteroids have been observed by visual inspection of selected images. This paper presents novel deep learning-based solutions for the recovery and discovery of asteroids in the microlensing data gathered by the MOA project. Asteroid tracklets can be clearly seen by combining all the observations on a given night and these tracklets inform the structure of the dataset. Known asteroids were identified within these composite images and used for creating the labelled datasets required for supervised learning. Several custom CNN models were developed to identify images with asteroid tracklets. Model ensembling was then employed to reduce the variance in the predictions as well as to improve the generalisation error, achieving a recall of 97.67%. Furthermore, the YOLOv4 object detector was trained to localize asteroid tracklets, achieving a mean Average Precision (mAP) of 90.97%. These trained networks will be applied to 16 years of MOA archival data to find both known and unknown asteroids that have been observed by the survey over the years. The methodologies developed can be adapted for use by other surveys for asteroid recovery and discovery.
translated by 谷歌翻译
The International Workshop on Reading Music Systems (WoRMS) is a workshop that tries to connect researchers who develop systems for reading music, such as in the field of Optical Music Recognition, with other researchers and practitioners that could benefit from such systems, like librarians or musicologists. The relevant topics of interest for the workshop include, but are not limited to: Music reading systems; Optical music recognition; Datasets and performance evaluation; Image processing on music scores; Writer identification; Authoring, editing, storing and presentation systems for music scores; Multi-modal systems; Novel input-methods for music to produce written music; Web-based Music Information Retrieval services; Applications and projects; Use-cases related to written music. These are the proceedings of the 3rd International Workshop on Reading Music Systems, held in Alicante on the 23rd of July 2021.
translated by 谷歌翻译
计算机愿景中的分类问题很常见。尽管如此,啤酒瓶的分类没有专门的工作。作为主课程深度学习挑战的一部分,创建了一个5207啤酒瓶图像和品牌标签的数据集。图像恰好包含一个啤酒瓶。在本文中,我们提出了一个深入的学习模式,将啤酒瓶的图片分为两步的方法。作为第一步,Faster-R-CNN检测与品牌独立于分类相关的图像部分。在第二步中,相关图像部分由Reset-18分类。具有最高置信度的图像部分作为类标签返回。我们提出了一种模型,我们超越了经典的一步转移学习方法,并在最终测试数据集的挑战期间达到了99.86%的准确性。在挑战结束后,我们能够达到100%的准确性
translated by 谷歌翻译
Deep neural networks (DNNs) are currently widely used for many artificial intelligence (AI) applications including computer vision, speech recognition, and robotics. While DNNs deliver state-of-the-art accuracy on many AI tasks, it comes at the cost of high computational complexity. Accordingly, techniques that enable efficient processing of DNNs to improve energy efficiency and throughput without sacrificing application accuracy or increasing hardware cost are critical to the wide deployment of DNNs in AI systems.This article aims to provide a comprehensive tutorial and survey about the recent advances towards the goal of enabling efficient processing of DNNs. Specifically, it will provide an overview of DNNs, discuss various hardware platforms and architectures that support DNNs, and highlight key trends in reducing the computation cost of DNNs either solely via hardware design changes or via joint hardware design and DNN algorithm changes. It will also summarize various development resources that enable researchers and practitioners to quickly get started in this field, and highlight important benchmarking metrics and design considerations that should be used for evaluating the rapidly growing number of DNN hardware designs, optionally including algorithmic co-designs, being proposed in academia and industry.The reader will take away the following concepts from this article: understand the key design considerations for DNNs; be able to evaluate different DNN hardware implementations with benchmarks and comparison metrics; understand the trade-offs between various hardware architectures and platforms; be able to evaluate the utility of various DNN design techniques for efficient processing; and understand recent implementation trends and opportunities.
translated by 谷歌翻译
由于缺乏自动注释系统,大多数发展城市的城市机构都是数字未标记的。因此,在此类城市中,位置和轨迹服务(例如Google Maps,Uber等)仍然不足。自然场景图像中的准确招牌检测是从此类城市街道检索无错误的信息的最重要任务。然而,开发准确的招牌本地化系统仍然是尚未解决的挑战,因为它的外观包括文本图像和令人困惑的背景。我们提出了一种新型的对象检测方法,该方法可以自动检测招牌,适合此类城市。我们通过合并两种专业预处理方法和一种运行时效高参数值选择算法来使用更快的基于R-CNN的定位。我们采用了一种增量方法,通过使用我们构造的SVSO(Street View Signboard对象)签名板数据集,通过详细评估和与基线进行比较,以达到最终提出的方法,这些方法包含六个发展中国家的自然场景图像。我们在SVSO数据集和Open Image数据集上展示了我们提出的方法的最新性能。我们提出的方法可以准确地检测招牌(即使图像包含多种形状和颜色的多种嘈杂背景的招牌)在SVSO独立测试集上达到0.90 MAP(平均平均精度)得分。我们的实施可在以下网址获得:https://github.com/sadrultoaha/signboard-detection
translated by 谷歌翻译
场景文本检测的具有挑战性的领域需要复杂的数据注释,这是耗时和昂贵的。弱监管等技术可以减少所需的数据量。本文提出了一种薄弱的现场文本检测监控方法,这是利用加强学习(RL)。RL代理收到的奖励由神经网络估算,而不是从地面真理标签推断出来。首先,我们增强了具有多种培训优化的文本检测的现有监督RL方法,允许我们将性能差距缩放到基于回归的算法。然后,我们将拟议的系统在现实世界数据的漏洞和半监督培训中使用。我们的结果表明,在弱监督环境中培训是可行的。但是,我们发现在半监督设置中使用我们的模型,例如,将标记的合成数据与未经发布的实际数据相结合,产生最佳结果。
translated by 谷歌翻译
如今,使用微创手术(MIS)进行了更多的手术程序。这是由于其许多好处,例如最小的术后问题,较少的出血,较小的疤痕和快速的康复。但是,MIS的视野,小手术室和对操作场景的间接查看可能导致手术工具发生冲突并可能损害人体器官或组织。因此,通过使用内窥镜视频饲料实时检测和监视手术仪器,可以大大减少MIS问题,并且可以提高手术程序的准确性和成功率。在本文中,研究,分析和评估了对Yolov5对象检测器的一系列改进,以增强手术仪器的检测。在此过程中,我们进行了基于性能的消融研究,探索了改变Yolov5模型的骨干,颈部和锚固结构元素的影响,并注释了独特的内窥镜数据集。此外,我们将消融研究的有效性与其他四个SOTA对象探测器(Yolov7,Yolor,Scaled-Yolov4和Yolov3-SPP)进行了比较。除了Yolov3-SPP(在MAP中具有98.3%的模型性能和相似的推理速度)外,我们的所有基准模型(包括原始的Yolov5)在使用新的内窥镜数据集的实验中超过了我们的顶级精制模型。
translated by 谷歌翻译
现代领先的物体探测器是从深层CNN的骨干分类器网络重新批准的两阶段或一级网络。YOLOV3是一种这样的非常熟知的最新状态单次检测器,其采用输入图像并将其划分为相等大小的网格矩阵。具有物体中心的网格单元是负责检测特定对象的电池。本文介绍了一种新的数学方法,为准确紧密绑定函数预测分配每个对象的多个网格。我们还提出了一个有效的离线拷贝粘贴数据增强,用于对象检测。我们提出的方法显着优于一些现有的对象探测器,具有进一步更好的性能的前景。
translated by 谷歌翻译
手写数字识别(HDR)是光学特征识别(OCR)领域中最具挑战性的任务之一。不管语言如何,HDR都存在一些固有的挑战,这主要是由于个人跨个人的写作风格的变化,编写媒介和环境的变化,无法在反复编写任何数字等时保持相同的笔触。除此之外,特定语言数字的结构复杂性可能会导致HDR的模棱两可。多年来,研究人员开发了许多离线和在线HDR管道,其中不同的图像处理技术与传统的机器学习(ML)基于基于的和/或基于深度学习(DL)的体系结构相结合。尽管文献中存在有关HDR的广泛审查研究的证据,例如:英语,阿拉伯语,印度,法尔西,中文等,但几乎没有对孟加拉人HDR(BHDR)的调查,这缺乏对孟加拉语HDR(BHDR)的研究,而这些调查缺乏对孟加拉语HDR(BHDR)的研究。挑战,基础识别过程以及可能的未来方向。在本文中,已经分析了孟加拉语手写数字的特征和固有的歧义,以及二十年来最先进的数据集的全面见解和离线BHDR的方法。此外,还详细讨论了一些涉及BHDR的现实应用特定研究。本文还将作为对离线BHDR背后科学感兴趣的研究人员的汇编,煽动了对相关研究的新途径的探索,这可能会进一步导致在不同应用领域对孟加拉语手写数字进行更好的离线认识。
translated by 谷歌翻译
实时机器人掌握,支持随后的精确反对操作任务,是高级高级自治系统的优先目标。然而,尚未找到这样一种可以用时间效率进行充分准确的掌握的算法。本文提出了一种新的方法,其具有2阶段方法,它使用深神经网络结合快速的2D对象识别,以及基于点对特征框架的随后的精确和快速的6D姿态估计来形成实时3D对象识别和抓握解决方案能够多对象类场景。所提出的解决方案有可能在实时应用上稳健地进行,需要效率和准确性。为了验证我们的方法,我们进行了广泛且彻底的实验,涉及我们自己的数据集的费力准备。实验结果表明,该方法在5CM5DEG度量标准中的精度97.37%,平均距离度量分数99.37%。实验结果显示了通过使用该方法的总体62%的相对改善(5cm5deg度量)和52.48%(平均距离度量)。此外,姿势估计执行也显示出运行时间的平均改善47.6%。最后,为了说明系统在实时操作中的整体效率,进行了一个拾取和放置的机器人实验,并显示了90%的准确度的令人信服的成功率。此实验视频可在https://sites.google.com/view/dl-ppf6dpose/上获得。
translated by 谷歌翻译
近年来,地理空间行业一直在稳定发展。这种增长意味着增加卫星星座,每天都会产生大量的卫星图像和其他遥感数据。有时,这些信息,即使在某些情况下我们指的是公开可用的数据,由于它的大小,它也无法占据。从时间和其他资源的角度来看,借助人工或使用传统的自动化方法来处理如此大量的数据并不总是可行的解决方案。在目前的工作中,我们提出了一种方法,用于创建一个由公开可用的遥感数据组成的多模式和时空数据集,并使用ART机器学习(ML)技术进行可行性进行测试。确切地说,卷积神经网络(CNN)模型的用法能够分离拟议数据集中存在的不同类别的植被。在地理信息系统(GIS)和计算机视觉(CV)的背景下,类似方法的受欢迎程度和成功更普遍地表明,应考虑并进一步分析和开发方法。
translated by 谷歌翻译
深度学习属于人工智能领域,机器执行通常需要某种人类智能的任务。类似于大脑的基本结构,深度学习算法包括一种人工神经网络,其类似于生物脑结构。利用他们的感官模仿人类的学习过程,深入学习网络被送入(感官)数据,如文本,图像,视频或声音。这些网络在不同的任务中优于最先进的方法,因此,整个领域在过去几年中看到了指数增长。这种增长在过去几年中每年超过10,000多种出版物。例如,只有在医疗领域中的所有出版物中覆盖的搜索引擎只能在Q3 2020中覆盖所有出版物的子集,用于搜索术语“深度学习”,其中大约90%来自过去三年。因此,对深度学习领域的完全概述已经不可能在不久的将来获得,并且在不久的将来可能会难以获得难以获得子场的概要。但是,有几个关于深度学习的综述文章,这些文章专注于特定的科学领域或应用程序,例如计算机愿景的深度学习进步或在物体检测等特定任务中进行。随着这些调查作为基础,这一贡献的目的是提供对不同科学学科的深度学习的第一个高级,分类的元调查。根据底层数据来源(图像,语言,医疗,混合)选择了类别(计算机愿景,语言处理,医疗信息和其他工程)。此外,我们还审查了每个子类别的常见架构,方法,专业,利弊,评估,挑战和未来方向。
translated by 谷歌翻译
自治机器人目前是最受欢迎的人工智能问题之一,在过去十年中,从自动驾驶汽车和人形系统到交付机器人和无人机,这是一项最受欢迎的智能问题。部分问题是获得一个机器人,以模仿人类的感知,我们的视觉感,用诸如神经网络等数学模型用相机和大脑的眼睛替换眼睛。开发一个能够在没有人为干预的情况下驾驶汽车的AI和一个小型机器人在城市中递送包裹可能看起来像不同的问题,因此来自感知和视觉的观点来看,这两个问题都有几种相似之处。我们目前的主要解决方案通过使用计算机视觉技术,机器学习和各种算法来实现对环境感知的关注,使机器人理解环境或场景,移动,调整其轨迹并执行其任务(维护,探索,等。)无需人为干预。在这项工作中,我们从头开始开发一个小型自动车辆,能够仅使用视觉信息理解场景,通过工业环境导航,检测人员和障碍,或执行简单的维护任务。我们审查了基本问题的最先进问题,并证明了小规模采用的许多方法类似于来自特斯拉或Lyft等公司的真正自动驾驶汽车中使用的方法。最后,我们讨论了当前的机器人和自主驾驶状态以及我们在这一领域找到的技术和道德限制。
translated by 谷歌翻译