深度神经网络(DNN)对各种多模式学习问题显示出优越的性能。然而,它通常需要巨大的努力,通过手动工程单峰特征和设计多模式融合策略来调整DNN到各个多模式任务。本文提出了Bilevel多模式神经结构架构搜索(BM-NAS)框架,这使得多模式融合模型的架构通过Bilevel搜索方案完全搜索。在上层,BM-NAS从预制的单峰骨架中选择Inter / Intra-Intra-Intra-Intra-Theal Feature对。在较低级别,BM-NAS了解每个功能对的融合策略,这是预定义的原始操作的组合。原始操作是精心设计的,它们可以灵活地组合,以适应各种有效的特征融合模块,如多头注意(变压器)和注意力(AOA)。三个多模式任务的实验结果证明了提出的BM-NAS框架的有效性和效率。与现有的广义多模式NAS方法相比,BM-NAS实现了竞争力的性能,更少的搜索时间和更少的模型参数。
translated by 谷歌翻译
This paper addresses the scalability challenge of architecture search by formulating the task in a differentiable manner. Unlike conventional approaches of applying evolution or reinforcement learning over a discrete and non-differentiable search space, our method is based on the continuous relaxation of the architecture representation, allowing efficient search of the architecture using gradient descent. Extensive experiments on CIFAR-10, ImageNet, Penn Treebank and WikiText-2 show that our algorithm excels in discovering high-performance convolutional architectures for image classification and recurrent architectures for language modeling, while being orders of magnitude faster than state-of-the-art non-differentiable techniques. Our implementation has been made publicly available to facilitate further research on efficient architecture search algorithms.
translated by 谷歌翻译
Conventional neural architecture search (NAS) approaches are based on reinforcement learning or evolutionary strategy, which take more than 3000 GPU hours to find a good model on CIFAR-10. We propose an efficient NAS approach learning to search by gradient descent. Our approach represents the search space as a directed acyclic graph (DAG). This DAG contains billions of sub-graphs, each of which indicates a kind of neural architecture. To avoid traversing all the possibilities of the sub-graphs, we develop a differentiable sampler over the DAG. This sampler is learnable and optimized by the validation loss after training the sampled architecture. In this way, our approach can be trained in an end-to-end fashion by gradient descent, named Gradient-based search using Differentiable Architecture Sampler (GDAS). In experiments, we can finish one searching procedure in four GPU hours on CIFAR-10, and the discovered model obtains a test error of 2.82% with only 2.5M parameters, which is on par with the state-of-the-art. Code is publicly available on GitHub: https://github.com/D-X-Y/NAS-Projects.
translated by 谷歌翻译
序列表示学习的主要挑战是捕获远程时间依赖性。监督序列表示学习的典型方法是基于复发性神经网络构建的,以捕获时间依赖性。这些方法的一个潜在局限性是,它们仅在序列中明确对相邻时间步长的一阶信息相互作用进行建模,因此,未完全利用了非相应时间步长之间的高阶相互作用。它极大地限制了建模远程时间依赖性的能力,因为由于时间信息稀释和梯度消失,无法长期保持一阶相互作用所学的时间特征。为了应对这一限制,我们提出了用于监督序列表示学习的非本地复发性神经记忆(NRNM),该学习执行非本地操作\ Mr {通过自我关注机制}以在滑动时间内学习全阶相互作用内存块和模拟内存块之间的全局相互作用以封闭式的复发方式。因此,我们的模型能够捕获远程依赖性。此外,我们的模型可以蒸馏出高阶相互作用中包含的潜在高级特征。我们验证了NRNM在不同模态的三种序列应用上的有效性和概括,包括序列分类,逐步的顺序预测和序列相似性学习。我们的模型与针对这些序列应用中的每个序列应用专门设计的其他最新方法进行了比较。
translated by 谷歌翻译
最近,已经成功地应用于各种遥感图像(RSI)识别任务的大量基于深度学习的方法。然而,RSI字段中深度学习方法的大多数现有进步严重依赖于手动设计的骨干网络提取的特征,这严重阻碍了由于RSI的复杂性以及先前知识的限制而受到深度学习模型的潜力。在本文中,我们研究了RSI识别任务中的骨干架构的新设计范式,包括场景分类,陆地覆盖分类和对象检测。提出了一种基于权重共享策略和进化算法的一拍架构搜索框架,称为RSBNet,其中包括三个阶段:首先,在层面搜索空间中构造的超空网是在自组装的大型中预先磨削 - 基于集合单路径培训策略进行缩放RSI数据集。接下来,预先培训的SuperNet通过可切换识别模块配备不同的识别头,并分别在目标数据集上进行微调,以获取特定于任务特定的超网络。最后,我们根据没有任何网络训练的进化算法,搜索最佳骨干架构进行不同识别任务。对于不同识别任务的五个基准数据集进行了广泛的实验,结果显示了所提出的搜索范例的有效性,并证明搜索后的骨干能够灵活地调整不同的RSI识别任务并实现令人印象深刻的性能。
translated by 谷歌翻译
Deep Learning has enabled remarkable progress over the last years on a variety of tasks, such as image recognition, speech recognition, and machine translation. One crucial aspect for this progress are novel neural architectures. Currently employed architectures have mostly been developed manually by human experts, which is a time-consuming and errorprone process. Because of this, there is growing interest in automated neural architecture search methods. We provide an overview of existing work in this field of research and categorize them according to three dimensions: search space, search strategy, and performance estimation strategy.
translated by 谷歌翻译
识别对象和场景是两个具有挑战性的,但在图像理解中是必不可少的任务。特别是,使用RGB-D传感器在处理这些任务中,已成为更好的视觉理解的重要焦点领域。同时,深度神经网络,特别是卷积神经网络(CNNS),已经普遍存在,通过替换具有有效深度特征的手工制作的特征来应用于许多视觉任务。但是,它是一个公开问题如何有效地利用多层CNN模型的深度特征。在本文中,我们提出了一种新的两阶段框架,从多模态RGB-D图像中提取用于对象和场景识别任务的判别特征表示。在第一阶段,预先训练的CNN模型已被用作骨干,以在多个级别提取视觉特征。第二阶段将这些特征映射到高电平表示,具有有效的递归神经网络(RNNS)的完全随机结构。为了应对CNN激活的高维度,通过在RNNS中扩展随机性的想法来提出一种随机加权池方案。通过基于RGB和深度流分别的单个识别信徒(即SVM分数)来计算权重来执行多模态融合。这在最终的RGB-D分类性能中产生了一致的类标签估计。广泛的实验验证了RNN阶段的完全随机结构编码CNN激活以成功辨别鉴别的固体功能。比较实验结果对华盛顿RGB-D对象和Sun RGB-D场景数据集的比较实验结果表明,与物体和场景识别任务中的最先进的方法相比,该方法达到了优越的或映射性能。代码可在https://github.com/acaglayan/cnn_randrnn获得。
translated by 谷歌翻译
人类通过不同的渠道表达感受或情绪。以语言为例,它在不同的视觉声学上下文下需要不同的情绪。为了精确了解人类意图,并减少歧义和讽刺引起的误解,我们应该考虑多式联路信号,包括文本,视觉和声学信号。至关重要的挑战是融合不同的特征模式以进行情绪分析。为了有效地融合不同的方式携带的信息,更好地预测情绪,我们设计了一种基于新的多主题的融合网络,这是由任何两个对方式之间的相互作用不同的观察来启发,它们是不同的,并且它们不同样有助于最终的情绪预测。通过分配具有合理关注和利用残余结构的声学 - 视觉,声学 - 文本和视觉文本特征,我们参加了重要的特征。我们对四个公共多模式数据集进行了广泛的实验,包括中文和三种英文中的一个。结果表明,我们的方法优于现有的方法,并可以解释双模相互作用在多种模式中的贡献。
translated by 谷歌翻译
深层神经网络(DNN)是通过依次执行线性和非线性过程产生的。使用线性和非线性程序的组合对于生成足够深的特征空间至关重要。大多数非线性运算符是激活函数或合并函数的推导。数学形态是数学的一个分支,为各种图像处理问题提供了非线性操作员。我们调查了将这些操作集成到本文端到端深度学习框架中的实用性。 DNN旨在获得特定工作的现实代表。形态运算符给出拓扑描述符,以传达有关图像中描述的物体形状的显着信息。我们提出了一种基于元学习的方法,将形态算子纳入DNN。博学的结构展示了我们的新型形态操作如何显着提高各种任务(包括图片分类和边缘检测)的DNN性能。
translated by 谷歌翻译
最近,深度学习模型已在工业推荐系统中广泛传播,并提高了建议质量。尽管取得了杰出的成功,但任务吸引推荐系统的设计通常需要域专家的手动功能工程和建筑工程。为了减轻人类的努力,我们探索了神经体系结构搜索(NAS)的潜力,并在推荐系统中引入了自动行为建模,互动探索和多层感知器(MLP)研究的AMEIR。 Ameir的核心贡献是三阶段的搜索空间和量身定制的三步搜索管道。具体而言,Ameir将完整的建议模型分为行为建模,交互探索,MLP聚合的三个阶段,并引入了一个新颖的搜索空间,其中包含三个量身定制的子空间,这些子空间涵盖了大多数现有方法,从而允许搜索更好的模型。为了有效,有效地找到理想的体系结构,Ameir在三个阶段逐渐推荐中实现了一次弹奏随机搜索,并将搜索结果组装为最终结果。进一步的分析表明,Ameir的搜索空间可以涵盖大多数代表性推荐模型,这证明了我们设计的普遍性。在各种情况下进行的广泛实验表明,AMEIR的表现优于精心制作的手动设计的竞争基准和领先的算法复杂的NAS方法,具有较低的模型复杂性和可比的时间成本,表明所提出的方法的效率,效率和鲁棒性。
translated by 谷歌翻译
视觉变压器正在成为解决计算机视觉问题的强大工具。最近的技术还证明了超出图像域之外的变压器来解决许多与视频相关的任务的功效。其中,由于其广泛的应用,人类的行动识别是从研究界受到特别关注。本文提供了对动作识别的视觉变压器技术的首次全面调查。我们朝着这个方向分析并总结了现有文献和新兴文献,同时突出了适应变形金刚以进行动作识别的流行趋势。由于其专业应用,我们将这些方法统称为``动作变压器''。我们的文献综述根据其架构,方式和预期目标为动作变压器提供了适当的分类法。在动作变压器的背景下,我们探讨了编码时空数据,降低维度降低,框架贴片和时空立方体构造以及各种表示方法的技术。我们还研究了变压器层中时空注意的优化,以处理更长的序列,通常通过减少单个注意操作中的令牌数量。此外,我们还研究了不同的网络学习策略,例如自我监督和零局学习,以及它们对基于变压器的行动识别的相关损失。这项调查还总结了在具有动作变压器重要基准的评估度量评分方面取得的进步。最后,它提供了有关该研究方向的挑战,前景和未来途径的讨论。
translated by 谷歌翻译
近年来,图形神经网络(GNNS)在不同的现实应用中表现出卓越的性能。为了提高模型容量,除了设计聚合运作,GNN拓扑设计也非常重要。一般来说,有两个主流GNN拓扑设计方式。第一个是堆叠聚合操作以获得更高级别的功能,但随着网络更深的方式,易于进行性能下降。其次,在每个层中使用多聚合操作,该层在本地邻居提供足够和独立的特征提取阶段,同时获得更高级别的信息昂贵。为了享受减轻这两个方式的相应缺陷的同时享受福利,我们学会在一个新颖的特征融合透视中设计GNN的拓扑,这些融合透视中被称为F $ ^ 2 $ GNN。具体而言,我们在设计GNN拓扑中提供了一个特征融合视角,提出了一种新颖的框架,以统一现有的拓扑设计,具有特征选择和融合策略。然后,我们在统一框架之上开发一个神经结构搜索方法,该方法包含在搜索空间中的一组选择和融合操作以及改进的可微分搜索算法。八个现实数据集的性能增益展示了F $ ^ 2 $ GNN的有效性。我们进一步开展实验,以证明F $ ^ 2 $ GNN可以通过自适应使用不同程度的特征来缓解现有GNN拓扑设计方式的缺陷,同时提高模型容量,同时减轻了现有的GNN拓扑设计方式的缺陷,特别是缓解过平滑问题。
translated by 谷歌翻译
知识跟踪是跟踪给定学习领域的学生不同技能的掌握程度的过程。它是建立自适应学习系统的关键组件之一,并已被调查几十年。与其他领域的深度神经网络的成功平行,我们看到研究人员在学习科学界采取类似的方法。但是,大多数现有的深度学习知识追踪模型:(1)仅使用正确/不正确的响应(忽略来自其他方式的有用信息)或(2)通过试验和错误通过域专业知识设计其网络架构。在本文中,我们提出了一种基于模型的基于模型的优化方法,该优化方法结合了一个框架内的多峰融合和神经结构。当涉及一个模态时,常用的神经结构搜索技术可以被认为是我们所提出的方法的特殊情况。我们进一步建议在曲线(加权AUC)下使用称为时间加权区域的新度量来测量序列模型如何随时间执行。我们在两个公共实时数据集中评估我们的方法,显示发现模型能够实现卓越的性能。与大多数现有的作品不同,我们对McNemar对模型预测的测试进行了测试,结果是统计学意义。
translated by 谷歌翻译
自我关注架构被出现为最近提高视力任务表现的最新进步。手动确定自我关注网络的架构依赖于专家的经验,无法自动适应各种场景。同时,神经结构搜索(NAS)显着推出了神经架构的自动设计。因此,需要考虑使用NAS方法自动发现更好的自我关注架构。然而,由于基于细胞的搜索空间统一和缺乏长期内容依赖性,直接使用现有的NAS方法来搜索关注网络是具有挑战性的。为了解决这个问题,我们提出了一种基于全部关注的NAS方法。更具体地,构造阶段明智的搜索空间,其允许为网络的不同层采用各种关注操作。为了提取全局特征,提出了一种使用上下文自动回归来发现全部关注架构的自我监督的搜索算法。为了验证所提出的方法的功效,我们对各种学习任务进行了广泛的实验,包括图像分类,细粒度的图像识别和零拍摄图像检索。经验结果表明,我们的方法能够发现高性能,全面关注架构,同时保证所需的搜索效率。
translated by 谷歌翻译
深度学习技术在各种任务中都表现出了出色的有效性,并且深度学习具有推进多种应用程序(包括在边缘计算中)的潜力,其中将深层模型部署在边缘设备上,以实现即时的数据处理和响应。一个关键的挑战是,虽然深层模型的应用通常会产生大量的内存和计算成本,但Edge设备通常只提供非常有限的存储和计算功能,这些功能可能会在各个设备之间差异很大。这些特征使得难以构建深度学习解决方案,以释放边缘设备的潜力,同时遵守其约束。应对这一挑战的一种有希望的方法是自动化有效的深度学习模型的设计,这些模型轻巧,仅需少量存储,并且仅产生低计算开销。该调查提供了针对边缘计算的深度学习模型设计自动化技术的全面覆盖。它提供了关键指标的概述和比较,这些指标通常用于量化模型在有效性,轻度和计算成本方面的水平。然后,该调查涵盖了深层设计自动化技术的三类最新技术:自动化神经体系结构搜索,自动化模型压缩以及联合自动化设计和压缩。最后,调查涵盖了未来研究的开放问题和方向。
translated by 谷歌翻译
从一个人的错误中学习是一种有效的人类学习技术,学习者更多地关注在犯错误的主题上,以便加深他们的理解。在本文中,我们调查这种人类学习策略是否可以应用于机器学习。我们提出了一种新的机器学习方法,称为来自错误(LFM)的学习,其中学习者通过在修订期间更多地关注错误来提高其学习的能力。我们制定LFM作为三阶段优化问题:1)学习者学习;2)学习者重新学习专注于错误,而且;3)学习者验证其学习。我们开发了一种有效的算法来解决LFM问题。我们将LFM框架应用于CiFar-10,CiFar-100和ImageNet上的神经架构搜索。实验结果强烈展示了我们模型的有效性。
translated by 谷歌翻译
Neural architectures can be naturally viewed as computational graphs. Motivated by this perspective, we, in this paper, study neural architecture search (NAS) through the lens of learning random graph models. In contrast to existing NAS methods which largely focus on searching for a single best architecture, i.e, point estimation, we propose GraphPNAS a deep graph generative model that learns a distribution of well-performing architectures. Relying on graph neural networks (GNNs), our GraphPNAS can better capture topologies of good neural architectures and relations between operators therein. Moreover, our graph generator leads to a learnable probabilistic search method that is more flexible and efficient than the commonly used RNN generator and random search methods. Finally, we learn our generator via an efficient reinforcement learning formulation for NAS. To assess the effectiveness of our GraphPNAS, we conduct extensive experiments on three search spaces, including the challenging RandWire on TinyImageNet, ENAS on CIFAR10, and NAS-Bench-101/201. The complexity of RandWire is significantly larger than other search spaces in the literature. We show that our proposed graph generator consistently outperforms RNN-based one and achieves better or comparable performances than state-of-the-art NAS methods.
translated by 谷歌翻译
高光谱图像(HSI)分类一直是决定的热门话题,因为高光谱图像具有丰富的空间和光谱信息,并为区分不同的土地覆盖物体提供了有力的基础。从深度学习技术的发展中受益,基于深度学习的HSI分类方法已实现了有希望的表现。最近,已经提出了一些用于HSI分类的神经架构搜索(NAS)算法,这将HSI分类的准确性进一步提高到了新的水平。在本文中,NAS和变压器首次合并用于处理HSI分类任务。与以前的工作相比,提出的方法有两个主要差异。首先,我们重新访问了先前的HSI分类NAS方法中设计的搜索空间,并提出了一个新型的混合搜索空间,该搜索空间由空间主导的细胞和频谱主导的单元组成。与以前的工作中提出的搜索空间相比,所提出的混合搜索空间与HSI数据的特征更加一致,即HSIS具有相对较低的空间分辨率和非常高的光谱分辨率。其次,为了进一步提高分类准确性,我们尝试将新兴变压器模块移植到自动设计的卷积神经网络(CNN)上,以将全局信息添加到CNN学到的局部区域的特征中。三个公共HSI数据集的实验结果表明,所提出的方法的性能要比比较方法更好,包括手动设计的网络和基于NAS的HSI分类方法。特别是在最近被捕获的休斯顿大学数据集中,总体准确性提高了近6个百分点。代码可在以下网址获得:https://github.com/cecilia-xue/hyt-nas。
translated by 谷歌翻译
We propose Efficient Neural Architecture Search (ENAS), a fast and inexpensive approach for automatic model design. ENAS constructs a large computational graph, where each subgraph represents a neural network architecture, hence forcing all architectures to share their parameters. A controller is trained with policy gradient to search for a subgraph that maximizes the expected reward on a validation set. Meanwhile a model corresponding to the selected subgraph is trained to minimize a canonical cross entropy loss. Sharing parameters among child models allows ENAS to deliver strong empirical performances, whilst using much fewer GPU-hours than existing automatic model design approaches, and notably, 1000x less expensive than standard Neural Architecture Search. On Penn Treebank, ENAS discovers a novel architecture that achieves a test perplexity of 56.3, on par with the existing state-of-the-art among all methods without post-training processing. On CIFAR-10, ENAS finds a novel architecture that achieves 2.89% test error, which is on par with the 2.65% test error of NASNet (Zoph et al., 2018).
translated by 谷歌翻译
近年来,行业和学术界的深度学习(DL)迅速发展。但是,找到DL模型的最佳超参数通常需要高计算成本和人类专业知识。为了减轻上述问题,进化计算(EC)作为一种强大的启发式搜索方法显示出在DL模型的自动设计中,所谓的进化深度学习(EDL)具有重要优势。本文旨在从自动化机器学习(AUTOML)的角度分析EDL。具体来说,我们首先从机器学习和EC阐明EDL,并将EDL视为优化问题。根据DL管道的说法,我们系统地介绍了EDL方法,从功能工程,模型生成到具有新的分类法的模型部署(即,什么以及如何发展/优化),专注于解决方案表示和搜索范式的讨论通过EC处理优化问题。最后,提出了关键的应用程序,开放问题以及可能有希望的未来研究线。这项调查回顾了EDL的最新发展,并为EDL的开发提供了有见地的指南。
translated by 谷歌翻译