Deep learning has arguably achieved tremendous success in recent years. In simple words, deep learning uses the composition of many nonlinear functions to model the complex dependency between input features and labels. While neural networks have a long history, recent advances have greatly improved their performance in computer vision, natural language processing, etc. From the statistical and scientific perspective, it is natural to ask: What is deep learning? What are the new characteristics of deep learning, compared with classical methods? What are the theoretical foundations of deep learning? To answer these questions, we introduce common neural network models (e.g., convolutional neural nets, recurrent neural nets, generative adversarial nets) and training techniques (e.g., stochastic gradient descent, dropout, batch normalization) from a statistical point of view. Along the way, we highlight new characteristics of deep learning (including depth and over-parametrization) and explain their practical and theoretical benefits. We also sample recent results on theories of deep learning, many of which are only suggestive. While a complete understanding of deep learning remains elusive, we hope that our perspectives and discussions serve as a stimulus for new statistical research.
translated by 谷歌翻译
Videos represent the primary source of information for surveillance applications. Video material is often available in large quantities but in most cases it contains little or no annotation for supervised learning. This article reviews the state-of-the-art deep learning based methods for video anomaly detection and categorizes them based on the type of model and criteria of detection. We also perform simple studies to understand the different approaches and provide the criteria of evaluation for spatio-temporal anomaly detection.
translated by 谷歌翻译
到目前为止,深度学习和深层体系结构正在成为许多实际应用中最好的机器学习方法,例如降低数据的维度,图像分类,语音识别或对象分割。事实上,许多领先的技术公司,如谷歌,微软或IBM,正在研究和使用他们系统中的深层架构来取代其他传统模型。因此,提高这些模型的性能可以在机器学习领域产生强烈的影响。然而,深度学习是一个快速发展的研究领域,在过去几年中发现了许多核心方法和范例。本文将首先作为深度学习的简短总结,试图包括本研究领域中所有最重要的思想。基于这一知识,我们提出并进行了一些实验,以研究基于自动编程(ADATE)改进深度学习的可能性。尽管我们的实验确实产生了良好的结果,但由于时间有限以及当前ADATE版本的局限性,我们还有更多的可能性无法尝试。我希望这篇论文可以促进关于这个主题的未来工作,特别是在ADATE的下一个版本中。本文还简要分析了ADATEsystem的功能,这对于想要了解其功能的其他研究人员非常有用。
translated by 谷歌翻译
深度卷积神经网络(CNN)是一种特殊类型的神经网络,它在各种竞争性基准上展示了最先进的结果。通过使用多个非线性特征提取阶段,可以自动从数据中获取分层表示,从而在很大程度上实现了深度CNN的强大学习能力。大量数据的可用性和硬件处理单元的改进加速了CNN中的研究,并且最近报道了非常有趣的深CNN架构。最近在CNN深层架构中用于在具有挑战性的基准测试中实现高性能的竞赛表明,创新的架构思想以及参数优化可以改善各种视觉相关任务的CNN性能。在这方面,已经探索了CNN设计中的不同想法,例如使用不同的激活和损失函数,参数优化,正则化和处理单元的重构。但是,代表能力的重大改进是通过重组加工单位实现的。特别是,使用块作为结构单元而不是层的想法正在获得实质性的认识。因此,该调查侧重于最近报道的CNN架构中存在的内在分类,因此,将CNN架构中的近期创新分为七个不同的类别。这七个类别基于空间利用,深度,多路径,宽度,特征图开发,渠道提升和关注。此外,它涵盖了对CNN组件的基本理解,并阐明了CNN的当前挑战和应用。
translated by 谷歌翻译
声学数据提供从生物学和通信到海洋和地球科学等领域的科学和工程见解。我们调查了机器学习(ML)的进步和变革潜力,包括声学领域的深度学习。 ML是用于自动检测和利用模式印度的广泛的统计技术家族。相对于传统的声学和信号处理,ML是数据驱动的。给定足够的训练数据,ML可以发现特征之间的复杂关系。通过大量的训练数据,ML candiscover模型描述复杂的声学现象,如人类语音和混响。声学中的ML正在迅速发展,具有令人瞩目的成果和未来的重大前景。我们首先介绍ML,然后在五个声学研究领域强调MLdevelopments:语音处理中的源定位,海洋声学中的源定位,生物声学,地震探测和日常场景中的环境声音。
translated by 谷歌翻译
传统的神经网络显示了静态相机获取的视频中背景扣除的强大框架。实际上,众所周知的SOBS方法及其基于神经网络的变体是很长一段时间内大型CDnet 2012数据集的领先方法。最近,采用属于深度学习方法的卷积神经网络进行背景初始化,前景检测和深度学习特征。目前,CDnet2014中的当前最佳背景减法方法基于深度神经网络,其具有较大的性能差距,与基于多特征或多线索策略的传统无监督方法相比较。此外,自2016年Braham和Van Droogenbroeck发表他们的第一部关于CNN的工作以来,发表了大量论文,应用于背景减法,提供了定期的性能提升。在此背景下,我们为初学者和专家提供了深层神经网络概念的第一次回顾,以便分析这一成功并提供进一步的指导。为此,我们首先调查了背景初始化,背景减法和深度学习特征的方法。然后,我们讨论了深度神经网络对背景减法的充分性。最后,实验结果在CDnet 2014dataset上公布。
translated by 谷歌翻译
深度学习提出了希望和期望,作为许多应用程序的一般解决方案;事实证明它已被证明是有效的,但它也显示出对大量数据的强烈依赖性。幸运的是,已经证明,即使数据稀缺,也可以通过重复使用priorknowledge来训练成功的模型。因此,在最广泛的定义中,开发转移学习技术是部署有效和准确的智能系统的关键因素。本文将重点研究一系列适用于视觉目标识别任务的转移学习方法,特别是图像分类。转移学习是一个通用术语,并且特定设置已经给出了特定的名称:当学习者只能访问来自目标域的标记数据和来自不同域(源)的标记数据时,问题被称为“无监督域适应”。 (DA)。这项工作的第一部分将集中在这个设置的三种方法:其中一种方法涉及特征,一种是图像,而第三种方法同时使用两种。第二部分将重点关注机器人感知的现实生活问题,特别是RGB-D识别。机器人平台通常不仅限于色彩感知;他们经常带着Depthcamera。不幸的是,深度模态很少用于视觉识别,因为缺乏预先训练的模型,从中可以传输并且很少有数据从头开始。将提出两种处理这种情况的方法:一种使用合成数据,另一种利用跨模态转移学习。
translated by 谷歌翻译
In this invited paper, my overview material on the same topic as presented in the plenary overview session of APSIPA-2011 and the tutorial material presented in the same conference [1] are expanded and updated to include more recent developments in deep learning. The previous and the updated materials cover both theory and applications, and analyze its future directions. The goal of this tutorial survey is to introduce the emerging area of deep learning or hierarchical learning to the APSIPA community. Deep learning refers to a class of machine learning techniques, developed largely since 2006, where many stages of non-linear information processing in hierarchical architectures are exploited for pattern classification and for feature learning. In the more recent literature, it is also connected to representation learning, which involves a hierarchy of features or concepts where higher-level concepts are defined from lower-level ones and where the same lower-level concepts help to define higher-level ones. In this tutorial survey, a brief history of deep learning research is discussed first. Then, a classificatory scheme is developed to analyze and summarize major work reported in the recent deep learning literature. Using this scheme, I provide a taxonomy-oriented survey on the existing deep architectures and algorithms in the literature, and categorize them into three classes: generative, discriminative, and hybrid. Three representative deep architectures-deep autoencoders, deep stacking networks with their generalization to the temporal domain (recurrent networks), and deep neural networks (pretrained with deep belief networks)-one in each of the three classes, are presented in more detail. Next, selected applications of deep learning are reviewed in broad areas of signal and information processing including audio/speech, image/vision, multimodality, language modeling, natural language processing, and information retrieval. Finally, future directions of deep learning are discussed and analyzed.
translated by 谷歌翻译
Time Series Classification (TSC) is an important and challenging problem in data mining. With the increase of time series data availability, hundreds of TSC algorithms have been proposed. Among these methods, only a few have considered Deep Neural Networks (DNNs) to perform this task. This is surprising as deep learning has seen very successful applications in the last years. DNNs have indeed revolutionized the field of computer vision especially with the advent of novel deeper architectures such as Residual and Convolutional Neural Networks. Apart from images, sequential data such as text and audio can also be processed with DNNs to reach state-of-the-art performance for document classification and speech recognition. In this article, we study the current state-of-the-art performance of deep learning algorithms for TSC by presenting an empirical study of the most recent DNN architectures for TSC. We give an overview of the most successful deep learning applications in various time series domains under a unified taxonomy of DNNs for TSC. We also provide an open source deep learning framework to the TSC community where we implemented each of the compared approaches and evaluated them on a univariate TSC benchmark (the UCR/UEA archive) and 12 multivariate time series datasets. By training 8,730 deep learning models on 97 time series datasets, we propose the most exhaustive study of DNNs for TSC to date.
translated by 谷歌翻译
技术发展旨在生产能够执行复杂任务的几代效率越来越高的机器人。这需要来自科学界的大量努力,以找到解决计算机视觉问题的新算法,例如物体识别。 RGB-Dcameras的传播将研究引向研究能够开发RGB和深度信息的新架构。本文开发的项目涉及实现一种新的端到端架构,用于识别称为RCFusion的RGB-D对象。我们的方法通过组合表示不同抽象级别的互补RGB和深度信息来生成紧凑且高度辨别的多模态特征。我们在标准物体识别数据集,RGB-D物体数据集和JHUIT-50上评估我们的方法。所进行的实验表明,我们的方法优于现有方法,并为这两种数据集建立了新的最新结果。
translated by 谷歌翻译
深度神经网络(DNN)正在成为现代计算应用中的重要工具。加速他们的培训是一项重大挑战,技术范围从分布式算法到低级电路设计。在这项调查中,我们从理论的角度描述了这个问题,然后是并行化的方法。我们介绍了DNN体系结构的趋势以及由此产生的对并行化策略的影响。然后,我们回顾并模拟DNN中不同类型的并发性:从单个运算符,到网络推理和训练中的并行性,再到分布式深度学习。我们讨论异步随机优化,分布式系统架构,通信方案和神经架构搜索。基于这些方法,我们推断了在深度学习中并行性的潜在方向。
translated by 谷歌翻译
Semantic labeling (or pixel-level land-cover classification) in ultra high resolution imagery (< 10cm) requires statistical models able to learn high level concepts from spatial data, with large appearance variations. Convolutional Neural Networks (CNNs) achieve this goal by learning discriminatively a hierarchy of representations of increasing abstraction. In this paper we present a CNN-based system relying on an downsample-then-upsample architecture. Specifically, it first learns a rough spatial map of high-level representations by means of convolutions and then learns to upsample them back to the original resolution by deconvolutions. By doing so, the CNN learns to densely label every pixel at the original resolution of the image. This results in many advantages, including i) state-of-the-art numerical accuracy, ii) improved geometric accuracy of predictions and iii) high efficiency at inference time. We test the proposed system on the Vaihingen and Potsdam sub-decimeter resolution datasets, involving semantic labeling of aerial images of 9cm and 5cm resolution, respectively. These datasets are composed by many large and fully annotated tiles allowing an unbiased evaluation of models making use of spatial information. We do so by comparing two standard CNN architectures to the proposed one: standard patch classification, prediction of local label patches by employing only convolutions and full patch labeling by employing deconvolutions. All the systems compare favorably or outperform a state-of-the-art baseline relying on superpixels and powerful appearance descriptors. The proposed full patch labeling CNN outperforms these models by a large margin, also showing a very appealing inference time.
translated by 谷歌翻译
机器学习具有帮助解决难以手动解决的复杂信息安全问题的悠久传统。机器学习技术从数据表示中学习模型以解决任务。这些数据表示由领域专家手工制作。深度学习是机器学习的子领域,它使用由多个层组成的模型。因此,用于解决任务的表示是从数据中学习而不是手动设计的。在本次调查中,我们研究了在信息安全领域中使用DL技术。我们系统地审阅了77篇论文,并从数据中心的角度进行了介绍。这种以数据为中心的观点反映了DL技术最重要的优势之一 - 域独立性。如果DLL方法成功解决了一个域中数据类型的问题,那么它们最有可能成功地对来自另一个域的类似数据。 DL方法的其他优点是无与伦比的可扩展性和效率,关于可以分析的示例的数量以及输入数据的维度。 DL方法通常能够实现高性能并且很好地概括。但是,信息安全是一个具有独特要求和挑战的领域。根据对我们评论的论文的分析,我们指出DL方法的短期内容符合这些要求,并讨论了进一步的研究机会。
translated by 谷歌翻译
机器学习算法的成功通常取决于数据表示,我们假设这是因为不同的表示可以或多或少地隐藏数据背后变异的不同解释因素。虽然可以使用特定领域知识来帮助设计表示,但也可以使用通用先验学习,并且对AI的追求正在激励设计实现这些先验的更强大的表示 - 学习算法。本文回顾了无监督特征学习和深度学习领域的最新研究成果,涵盖了概率模型,自动编码器,流形学习和深度网络的进步。这激发了关于学习良好表征,计算表示(即推理)以及表示学习,密度估计和流形学习之间的几何联系的适当目标的长期未回答的问题。
translated by 谷歌翻译
基于深度卷积网络的超分辨率是一个快速发展的领域,具有许多实际应用。在本次展览中,我们广泛地比较了30多个最先进的超分辨率卷积神经网络(CNN),超过三个经典和三个最近引入的具有挑战性的数据基准单图像超分辨率。我们引入了基于深度学习的超分辨率网络的分类法,该网络将现有的方法分为包括线性,残差,多分支,递归,渐进,基于注意力和对抗性设计的intonine类别。我们还在网络复杂性,内存足迹,模型输入和输出,学习细节,网络损耗类型和重要架构差异(例如,深度,跳过连接,过滤器)方面提供模型之间的比较。进行了广泛的评估,显示了过去几年中准确性的一致性和快速增长,以及相应的boostin模型复杂性和大规模数据集的可用性。还可以看出,被确定为基准的开创性方法已经被当前的竞争者明显超越。尽管近年来取得了进展,但我们发现了现有技术的一些缺点,并为解决这些开放性问题提供了未来的研究方向。
translated by 谷歌翻译
随着面部表情识别(FER)从实验室控制到具有挑战性的野外条件的转变以及深度学习技术在各个领域的重新获得,深度神经网络越来越多地被用于学习自动FER的判别表示。最近的深度FER系统通常关注两个重要问题:由于缺乏足够的训练数据而引起的过度拟合和与表达无关的变化,例如照明,头部姿势和身份。在本文中,我们提供了深度FER的综合调查,包括数据集和算法,提供了对这些内在问题的见解。首先,我们描述了深度FER系统的标准流水线,并提供了相关的背景知识和每个阶段适用实施的建议。然后,我们介绍了在文献中广泛使用的可用数据集,并为这些数据集提供了可接受的数据选择和评估原则。对于深度FER的现有技术,我们回顾了现有的新型深度神经网络和相关的训练策略,这些策略是针对基于静态图像和动态图像序列的FER而设计的,并讨论了优势和局限性。本节还总结了广泛使用的基准测试的竞争性能。然后,我们将调查扩展到其他相关问题和应用场景。最后,我们回顾了该领域的其余挑战和相应的机会,以及强大的深FER系统设计的未来发展方向。
translated by 谷歌翻译
深度神经网络(DNN)目前广泛用于许多人工智能(AI)应用,包括计算机视觉,语音识别和机器人技术。虽然DNN在许多AI任务上提供最先进的准确性,但却以高计算复杂性为代价。因此,技术要求能够有效地处理DNN以提高能量效率和吞吐量,而不会牺牲应用精度或增加对AI系统中DNN的广泛部署至关重要的硬件成本。本文旨在提供有关实现DNN高效处理目标的最新进展的综合指南和调查。具体而言,它将提供DNN的概述,讨论支持DNN的各种硬件平台和体系结构,并突出降低计算成本的关键趋势通过联合硬件设计和DNN算法变化,仅通过硬件设计变更或DNN。它还将总结各种开发资源,使研究人员和从业人员能够快速开始这一领域,并突出重要的基准测量指标和设计考虑因素,用于评估快速增长的DNN硬件设计数量,可选择包括算法设计,在学术界和行业。读者将从本文中删除以下概念:了解DNN的关键设计注意事项;能够使用基准和比较指标评估不同的DNN硬件实现;了解各种硬件架构和平台之间的权衡;能够评估各种DNN设计技术在高效处理中的实用性;并了解最近的实施趋势和机会。
translated by 谷歌翻译
There has been a drastic growth of research in Generative Adversarial Nets (GANs) in the past few years. Proposed in 2014, GAN has been applied to various applications such as computer vision and natural language processing, and achieves impressive performance. Among the many applications of GAN, image synthesis is the most well-studied one, and research in this area has already demonstrated the great potential of using GAN in image synthesis. In this paper, we provide a taxonomy of methods used in image synthesis, review different models for text-to-image synthesis and image-to-image translation, and discuss some evaluation metrics as well as possible future research directions in image synthesis with GAN.
translated by 谷歌翻译
由于物体检测与视频分析和图像理解的密切关系,近年来引起了很多研究的关注。传统的物体检测方法建立在手工制作的特征和浅层可训练的体系结构之上。通过构造复杂的集合,它们的性能很容易停滞不前,这些集合将多个低级图像特征与来自物体检测器和场景分类器的高级环境相结合。通过深度学习中的治疗开发,引入了能够容忍语义,高级,更深层特征的更强大的工具来解决传统架构中存在的问题。这些模型在网络架构,培训策略和优化功能等方面表现不同。本文中,我们对基于深度学习的对象检测框架进行了综述。我们的回顾首先简要介绍了深度学习的历史及其代表性工具,即卷积神经网络(CNN)。然后,我们专注于典型的通用对象检测体系结构,以及一些修改和有用的技巧,以进一步提高检测性能。由于不同的特定检测任务具有不同的特征,我们还简要地调查了几个具体的任务,包括物体检测,人脸检测和行人检测。还提供了实验分析来比较各种方法并得出一些有意义的结论。最后,提供了几个有希望的方向和任务,作为未来在对象检测和相关的基于神经网络的学习系统中工作的指南。
translated by 谷歌翻译