基于两阶段Walsh-Hadamard变换(WHT)的用于水下机器人的卷积神经网络(CNN)基于对象分类,提出了新的高效源特征压缩解决方案。在两阶段过程之后首先通过WHT转换对象图像。变换域张量子具有大值集中在RGB通道中矩阵的左上角。通过观察此属性,将变换域矩阵划分为内部和外部区域。因此,在这项工作中提出了两种新的分区方法:(i)固定内部区域和外部区域的尺寸; (ii)每张图像自适应地调节内部区域和外部区域的大小。提案是用来自美国新泽西州新泽西雷塔河捕获的水下对象数据集进行评估。据证明并验证了提案,有效地减少了基于学习的水下对象分类任务的培训时间,并与竞争方法相比增加了准确性。对象分类是基于视觉的水下机器人的重要组成部分,可以感知环境并自主导航。因此,该方法非常适合于水下机器人应用中的高效基于计算机视觉任务。
translated by 谷歌翻译
Deep neural networks (DNNs) are currently widely used for many artificial intelligence (AI) applications including computer vision, speech recognition, and robotics. While DNNs deliver state-of-the-art accuracy on many AI tasks, it comes at the cost of high computational complexity. Accordingly, techniques that enable efficient processing of DNNs to improve energy efficiency and throughput without sacrificing application accuracy or increasing hardware cost are critical to the wide deployment of DNNs in AI systems.This article aims to provide a comprehensive tutorial and survey about the recent advances towards the goal of enabling efficient processing of DNNs. Specifically, it will provide an overview of DNNs, discuss various hardware platforms and architectures that support DNNs, and highlight key trends in reducing the computation cost of DNNs either solely via hardware design changes or via joint hardware design and DNN algorithm changes. It will also summarize various development resources that enable researchers and practitioners to quickly get started in this field, and highlight important benchmarking metrics and design considerations that should be used for evaluating the rapidly growing number of DNN hardware designs, optionally including algorithmic co-designs, being proposed in academia and industry.The reader will take away the following concepts from this article: understand the key design considerations for DNNs; be able to evaluate different DNN hardware implementations with benchmarks and comparison metrics; understand the trade-offs between various hardware architectures and platforms; be able to evaluate the utility of various DNN design techniques for efficient processing; and understand recent implementation trends and opportunities.
translated by 谷歌翻译
Due to object detection's close relationship with video analysis and image understanding, it has attracted much research attention in recent years. Traditional object detection methods are built on handcrafted features and shallow trainable architectures. Their performance easily stagnates by constructing complex ensembles which combine multiple low-level image features with high-level context from object detectors and scene classifiers. With the rapid development in deep learning, more powerful tools, which are able to learn semantic, high-level, deeper features, are introduced to address the problems existing in traditional architectures. These models behave differently in network architecture, training strategy and optimization function, etc. In this paper, we provide a review on deep learning based object detection frameworks. Our review begins with a brief introduction on the history of deep learning and its representative tool, namely Convolutional Neural Network (CNN). Then we focus on typical generic object detection architectures along with some modifications and useful tricks to improve detection performance further. As distinct specific detection tasks exhibit different characteristics, we also briefly survey several specific tasks, including salient object detection, face detection and pedestrian detection. Experimental analyses are also provided to compare various methods and draw some meaningful conclusions. Finally, several promising directions and tasks are provided to serve as guidelines for future work in both object detection and relevant neural network based learning systems.
translated by 谷歌翻译
手写数字识别(HDR)是光学特征识别(OCR)领域中最具挑战性的任务之一。不管语言如何,HDR都存在一些固有的挑战,这主要是由于个人跨个人的写作风格的变化,编写媒介和环境的变化,无法在反复编写任何数字等时保持相同的笔触。除此之外,特定语言数字的结构复杂性可能会导致HDR的模棱两可。多年来,研究人员开发了许多离线和在线HDR管道,其中不同的图像处理技术与传统的机器学习(ML)基于基于的和/或基于深度学习(DL)的体系结构相结合。尽管文献中存在有关HDR的广泛审查研究的证据,例如:英语,阿拉伯语,印度,法尔西,中文等,但几乎没有对孟加拉人HDR(BHDR)的调查,这缺乏对孟加拉语HDR(BHDR)的研究,而这些调查缺乏对孟加拉语HDR(BHDR)的研究。挑战,基础识别过程以及可能的未来方向。在本文中,已经分析了孟加拉语手写数字的特征和固有的歧义,以及二十年来最先进的数据集的全面见解和离线BHDR的方法。此外,还详细讨论了一些涉及BHDR的现实应用特定研究。本文还将作为对离线BHDR背后科学感兴趣的研究人员的汇编,煽动了对相关研究的新途径的探索,这可能会进一步导致在不同应用领域对孟加拉语手写数字进行更好的离线认识。
translated by 谷歌翻译
培训广泛和深度神经网络(DNN)需要大量的存储资源,例如内存,因为在转发传播期间必须在存储器中保存中间激活数据,然后恢复以便向后传播。然而,由于硬件设计约束,诸如GPU之类的最先进的加速器(例如GPU)仅配备了非常有限的存储容量,这显着限制了在训练大规模DNN时的最大批量大小和性能加速。传统的记忆保存技术均受性能开销或受限互连带宽或特定互连技术的约束。在本文中,我们提出了一种新颖的记忆高效的CNN训练框架(称为Comet),利用错误界限的损耗压缩来显着降低训练的内存要求,以允许培训更大的模型或加速培训。不同于采用基于图像的有损压缩机(例如JPEG)的最先进的解决方案来压缩激活数据,我们的框架故意采用严格的错误控制机制来采用错误界限的损耗压缩。具体而言,我们对从改变的激活数据传播到梯度的压缩误差传播的理论分析,并经验探讨改变梯度对训练过程的影响。基于这些分析,我们优化了误报的损耗压缩,并提出了一种用于激活数据压缩的自适应误差控制方案。我们评估我们对最先进的解决方案的设计,其中包含五个广泛采用的CNN和Imagenet DataSet。实验表明,我们所提出的框架可以在基线训练中显着降低13.5倍,并分别在另一个最先进的基于压缩框架上的1.8倍,几乎没有准确性损失。
translated by 谷歌翻译
海洋生态系统及其鱼类栖息地越来越重要,因为它们在提供有价值的食物来源和保护效果方面的重要作用。由于它们的偏僻且难以接近自然,因此通常使用水下摄像头对海洋环境和鱼类栖息地进行监测。这些相机产生了大量数字数据,这些数据无法通过当前的手动处理方法有效地分析,这些方法涉及人类观察者。 DL是一种尖端的AI技术,在分析视觉数据时表现出了前所未有的性能。尽管它应用于无数领域,但仍在探索其在水下鱼类栖息地监测中的使用。在本文中,我们提供了一个涵盖DL的关键概念的教程,该教程可帮助读者了解对DL的工作原理的高级理解。该教程还解释了一个逐步的程序,讲述了如何为诸如水下鱼类监测等挑战性应用开发DL算法。此外,我们还提供了针对鱼类栖息地监测的关键深度学习技术的全面调查,包括分类,计数,定位和细分。此外,我们对水下鱼类数据集进行了公开调查,并比较水下鱼类监测域中的各种DL技术。我们还讨论了鱼类栖息地加工深度学习的新兴领域的一些挑战和机遇。本文是为了作为希望掌握对DL的高级了解,通过遵循我们的分步教程而为其应用开发的海洋科学家的教程,并了解如何发展其研究,以促进他们的研究。努力。同时,它适用于希望调查基于DL的最先进方法的计算机科学家,以进行鱼类栖息地监测。
translated by 谷歌翻译
We propose a deep convolutional neural network architecture codenamed Inception that achieves the new state of the art for classification and detection in the Im-ageNet Large-Scale Visual Recognition Challenge 2014 (ILSVRC14). The main hallmark of this architecture is the improved utilization of the computing resources inside the network. By a carefully crafted design, we increased the depth and width of the network while keeping the computational budget constant. To optimize quality, the architectural decisions were based on the Hebbian principle and the intuition of multi-scale processing. One particular incarnation used in our submission for ILSVRC14 is called GoogLeNet, a 22 layers deep network, the quality of which is assessed in the context of classification and detection.
translated by 谷歌翻译
在离岸部门以及科学界在水下行动方面的迅速发展,水下车辆变得更加复杂。值得注意的是,许多水下任务,包括对海底基础设施的评估,都是在自动水下车辆(AUV)的帮助下进行的。最近在人工智能(AI)方面取得了突破,尤其是深度学习(DL)模型和应用,这些模型和应用在各种领域都广泛使用,包括空中无人驾驶汽车,自动驾驶汽车导航和其他应用。但是,由于难以获得特定应用的水下数据集,它们在水下应用中并不普遍。从这个意义上讲,当前的研究利用DL领域的最新进步来构建从实验室环境中捕获的物品照片产生的定制数据集。通过将收集到的图像与包含水下环境的照片相结合,将生成的对抗网络(GAN)用于将实验室对象数据集转化为水下域。这些发现证明了创建这样的数据集的可行性,因为与现实世界的水下船体船体图像相比,所得图像与真实的水下环境非常相似。因此,水下环境的人工数据集可以克服因对实际水下图像的有限访问而引起的困难,并用于通过水下对象图像分类和检测来增强水下操作。
translated by 谷歌翻译
分布式声音传感器(DAS)是有效的设备,在许多应用区域中广泛使用,用于记录各种事件的信号,这些事件沿光纤沿光纤沿着非常高的空间分辨率。为了正确地检测和识别记录的事件,具有高计算需求的高级信号处理算法至关重要。卷积神经网络是提取空间信息的高功能工具,非常适合DAS中的事件识别应用。长期术语内存(LSTM)是处理顺序数据的有效仪器。在这项研究中,我们提出了一种多输入的多输出,两个阶段特征提取方法,该方法将这些神经网络体系结构的能力与转移学习的能力结合在一起,以将压电传感器应用于光纤上的振动进行分类。首先,我们从相位-OTDR记录中提取了差幅度和相位信息,并将它们存储在时间空间数据矩阵中。然后,我们在第一阶段使用了最先进的预训练的CNN作为特征提取器。在第二阶段,我们使用LSTMS进一步分析了CNN提取的特征。最后,我们使用密集层来对提取的特征进行分类。为了观察使用的CNN体​​系结构的效果,我们通过五个最先进的预训练模型(VGG-16,Resnet-50,Densenet-121,Mobilenet和Inception-V3)测试了模型。结果表明,在我们的框架中使用VGG-16体系结构可以在50个培训中获得100%的分类精度,并在我们的相位数据集中获得最佳结果。这项研究的结果表明,与LSTM结合的预训练的CNN非常适合分析差分振幅和相位信息,在时间空间数据矩阵中表示,这对于DAS应用中的事件识别操作很有希望。
translated by 谷歌翻译
在这项工作中,我们详细描述了深度学习和计算机视觉如何帮助检测AirTender系统的故障事件,AirTender系统是售后摩托车阻尼系统组件。监测飞行员运行的最有效方法之一是在其表面上寻找油污渍。从实时图像开始,首先在摩托车悬架系统中检测到Airtender,然后二进制分类器确定Airtender是否在溢出油。该检测是在YOLO5架构的帮助下进行的,而分类是在适当设计的卷积神经网络油网40的帮助下进行的。为了更清楚地检测油的泄漏,我们用荧光染料稀释了荧光染料,激发波长峰值约为390 nm。然后用合适的紫外线LED照亮飞行员。整个系统是设计低成本检测设置的尝试。船上设备(例如迷你计算机)被放置在悬架系统附近,并连接到全高清摄像头框架架上。板载设备通过我们的神经网络算法,然后能够将AirTender定位并分类为正常功能(非泄漏图像)或异常(泄漏图像)。
translated by 谷歌翻译
自治机器人目前是最受欢迎的人工智能问题之一,在过去十年中,从自动驾驶汽车和人形系统到交付机器人和无人机,这是一项最受欢迎的智能问题。部分问题是获得一个机器人,以模仿人类的感知,我们的视觉感,用诸如神经网络等数学模型用相机和大脑的眼睛替换眼睛。开发一个能够在没有人为干预的情况下驾驶汽车的AI和一个小型机器人在城市中递送包裹可能看起来像不同的问题,因此来自感知和视觉的观点来看,这两个问题都有几种相似之处。我们目前的主要解决方案通过使用计算机视觉技术,机器学习和各种算法来实现对环境感知的关注,使机器人理解环境或场景,移动,调整其轨迹并执行其任务(维护,探索,等。)无需人为干预。在这项工作中,我们从头开始开发一个小型自动车辆,能够仅使用视觉信息理解场景,通过工业环境导航,检测人员和障碍,或执行简单的维护任务。我们审查了基本问题的最先进问题,并证明了小规模采用的许多方法类似于来自特斯拉或Lyft等公司的真正自动驾驶汽车中使用的方法。最后,我们讨论了当前的机器人和自主驾驶状态以及我们在这一领域找到的技术和道德限制。
translated by 谷歌翻译
We propose two efficient approximations to standard convolutional neural networks: Binary-Weight-Networks and XNOR-Networks. In Binary-Weight-Networks, the filters are approximated with binary values resulting in 32× memory saving. In XNOR-Networks, both the filters and the input to convolutional layers are binary. XNOR-Networks approximate convolutions using primarily binary operations. This results in 58× faster convolutional operations (in terms of number of the high precision operations) and 32× memory savings. XNOR-Nets offer the possibility of running state-of-the-art networks on CPUs (rather than GPUs) in real-time. Our binary networks are simple, accurate, efficient, and work on challenging visual tasks. We evaluate our approach on the ImageNet classification task. The classification accuracy with a Binary-Weight-Network version of AlexNet is the same as the full-precision AlexNet. We compare our method with recent network binarization methods, BinaryConnect and BinaryNets, and outperform these methods by large margins on ImageNet, more than 16% in top-1 accuracy. Our code is available at: http://allenai.org/plato/xnornet.
translated by 谷歌翻译
Visual perception plays an important role in autonomous driving. One of the primary tasks is object detection and identification. Since the vision sensor is rich in color and texture information, it can quickly and accurately identify various road information. The commonly used technique is based on extracting and calculating various features of the image. The recent development of deep learning-based method has better reliability and processing speed and has a greater advantage in recognizing complex elements. For depth estimation, vision sensor is also used for ranging due to their small size and low cost. Monocular camera uses image data from a single viewpoint as input to estimate object depth. In contrast, stereo vision is based on parallax and matching feature points of different views, and the application of deep learning also further improves the accuracy. In addition, Simultaneous Location and Mapping (SLAM) can establish a model of the road environment, thus helping the vehicle perceive the surrounding environment and complete the tasks. In this paper, we introduce and compare various methods of object detection and identification, then explain the development of depth estimation and compare various methods based on monocular, stereo, and RDBG sensors, next review and compare various methods of SLAM, and finally summarize the current problems and present the future development trends of vision technologies.
translated by 谷歌翻译
卷积神经网络(CNNS)已被广泛应用。但随着CNN的成长,算术运算和内存占用的数量也增加。此外,典型的非线性激活函数不允许连续层编码的操作的相关性,通过组合它们来防止简化中间步骤。我们提出了一种新的激活函数,允许CNN的顺序层之间的关联性。即使我们的激活函数是非线性的,它也可以通过欧几里德几何形状的共形模型中的一系列线性操作来表示。在此域中,操作,但不限于卷积,平均池和丢失保持线性。我们利用关联性来组合所有的“保形层”并使推理的成本持续,而不管网络的深度如何。
translated by 谷歌翻译
机器人的视觉系统根据应用程序的要求不同:它可能需要高精度或可靠性,受到有限的资源的约束或需要快速适应动态变化的环境。在这项工作中,我们专注于实例分割任务,并对不同的技术进行了全面的研究,这些技术允许在存在新对象或不同域的存在下调整对象分割模型。我们为针对数据流入的机器人应用设计的快速实例细分学习提供了一条管道。它基于在预训练的CNN上利用的混合方法,用于特征提取和基于快速培训的基于内核的分类器。我们还提出了一种培训协议,该协议可以通过在数据采集期间执行特征提取来缩短培训时间。我们在两个机器人数据集上基准了提议的管道,然后将其部署在一个真实的机器人上,即iCub类人体。为了这个目的,我们将方法调整为一个增量设置,在该设置中,机器人在线学习新颖对象。复制实验的代码在GitHub上公开可用。
translated by 谷歌翻译
现代设备(例如智能手机,卫星和医疗设备)中的摄像机能够捕获非常高分辨率的图像和视频。这种高分辨率数据通常需要通过深度学习模型来处理癌症检测,自动化道路导航,天气预测,监视,优化农业过程和许多其他应用。使用高分辨率的图像和视频作为深度学习模型的直接输入,由于其参数数量大,计算成本,推理延迟和GPU内存消耗而造成了许多挑战。简单的方法(例如将图像调整为较低的分辨率大小)在文献中很常见,但是它们通常会显着降低准确性。文献中的几项作品提出了更好的替代方案,以应对高分辨率数据的挑战并提高准确性和速度,同时遵守硬件限制和时间限制。这项调查描述了这种高效的高分辨率深度学习方法,总结了高分辨率深度学习的现实应用程序,并提供了有关可用高分辨率数据集的全面信息。
translated by 谷歌翻译
通过卫星摄像机获取关于地球表面的大面积的信息使我们能够看到远远超过我们在地面上看到的更多。这有助于我们在检测和监测土地使用模式,大气条件,森林覆盖和许多非上市方面的地区的物理特征。所获得的图像不仅跟踪连续的自然现象,而且对解决严重森林砍伐的全球挑战也至关重要。其中亚马逊盆地每年占最大份额。适当的数据分析将有助于利用可持续健康的氛围来限制对生态系统和生物多样性的不利影响。本报告旨在通过不同的机器学习和优越的深度学习模型用大气和各种陆地覆盖或土地使用亚马逊雨林的卫星图像芯片。评估是基于F2度量完成的,而用于损耗函数,我们都有S形跨熵以及Softmax交叉熵。在使用预先训练的ImageNet架构中仅提取功能之后,图像被间接馈送到机器学习分类器。鉴于深度学习模型,通过传输学习使用微调Imagenet预训练模型的集合。到目前为止,我们的最佳分数与F2度量为0.927。
translated by 谷歌翻译
通过利用数据示例多样性,早期的exit网络最近成为一种突出的神经网络体系结构,以加速深度学习推断过程。但是,早期出口的中间分类器会引入其他计算开销,这对于资源约束的边缘人工智能(AI)不利。在本文中,我们提出了一种早期退出预测机制,以减少由早期EXIT网络支持的设备边缘共同指导系统中的设备计算开销。具体而言,我们设计了一个低复杂性模块,即出口预测指标,以指导一些明显的“硬”样品以绕过早期出口的计算。此外,考虑到不同的通信带宽,我们扩展了潜伏期感知的边缘推理的提前退出预测机制,该机制通过一些简单的回归模型适应了出口预测变量的预测阈值和早期EXEST网络的置信阈值。广泛的实验结果证明了退出预测因子在早期EXIT网络的准确性和设备计算开销之间取得更好的权衡。此外,与基线方法相比,在不同的带宽条件下,提出的延迟感知边缘推理的方法可以达到更高的推理精度。
translated by 谷歌翻译
水下结构的维修和维护以及海洋科学在很大程度上依赖于水下对象检测的结果,这是图像处理工作流程的关键部分。尽管已经提出了许多基于计算机视觉的方法,但还没有人开发出一种可靠,准确地检测并对深海中发现的物体和动物进行分类的系统。这主要是由于障碍物在水下环境中散射和吸收光线。随着深度学习的引入,科学家们已经能够解决广泛的问题,包括保护海洋生态系统,在紧急情况下挽救生命,防止水下灾难,并发现,汤匙和识别水下目标。但是,这些深度学习系统的好处和缺点仍然未知。因此,本文的目的是提供在水下对象检测中使用的数据集的概述,并介绍为此目的所采用的算法的优势和缺点的讨论。
translated by 谷歌翻译
卷积神经网络(CNN)在许多计算机视觉任务(例如图像分类和对象检测)中取得了巨大的成功。但是,他们的性能在更艰巨的任务上迅速降低,因为图像是低分辨率或物体很小的。在本文中,我们指出,这根源于现有CNN体系结构中的有缺陷但常见的设计,即使用稳固的卷积和/或汇总层,这导致丢失细粒度的信息和学习较低有效的功能表示形式。为此,我们提出了一个新的CNN构建块,称为SPD-CONV,代替每个稳定的卷积层和每个池层(从而完全消除它们)。 SPD-CONV由一个对深度(SPD)层的组成,然后是非构造卷积(CORV)层,并且可以在大多数(如果不是全部)CNN体系结构中应用。我们在两个最具代表性的计算机视觉任务下解释了这种新设计:对象检测和图像分类。然后,我们通过将SPD-CONV应用于Yolov5和Resnet来创建新的CNN体​​系结构,并从经验上表明,我们的方法显着优于最先进的深度学习模型,尤其是在具有低分辨率图像和小物体的更艰巨的任务上。我们已经在https://github.com/labsaint/spd-conv上开源代码。
translated by 谷歌翻译