Bandit methods for black-box optimisation, such as Bayesian optimisation, are used in a variety of applications including hyper-parameter tuning and experiment design. Recently, multi-fidelity methods have garnered considerable attention since function evaluations have become increasingly expensive in such applications. Multi-fidelity methods use cheap approximations to the function of interest to speed up the overall opti-misation process. However, most multi-fidelity methods assume only a finite number of approximations. In many practical applications however, a continuous spectrum of approximations might be available. For instance, when tuning an expensive neural network, one might choose to approximate the cross validation performance using less data N and/or few training iterations T. Here, the approximations are best viewed as arising out of a continuous two dimensional space (N, T). In this work, we develop a Bayesian optimisa-tion method, BOCA, for this setting. We char-acterise its theoretical properties and show that it achieves better regret than than strategies which ignore the approximations. BOCA outperforms several other baselines in synthetic and real experiments .
translated by 谷歌翻译
机器学习中最基本的问题之一是比较例子:给定一对对象,我们想要返回一个表示(dis)相似度的值。相似性通常是特定于任务的,并且预定义的距离可能表现不佳,从而导致在度量学习中工作。然而,能够学习相似性敏感距离函数也预先假定对于手头的对象的丰富的,有辨别力的表示。在本论文中,我们提出了两端的贡献。在论文的第一部分中,假设数据具有良好的表示,我们提出了一种用于度量学习的公式,与先前的工作相比,它更直接地尝试优化k-NN精度。我们还提出了这个公式的扩展,用于kNN回归的度量学习,不对称相似学习和汉明距离的判别学习。在第二部分中,我们考虑我们处于有限计算预算的情况,即在可能度量的空间上进行优化是不可行的,但是仍然需要访问标签感知距离度量。我们提出了一种简单,计算成本低廉的方法,用于估计仅依靠梯度估计,讨论理论和实验结果的良好动机。在最后一部分,我们讨论代表性问题,考虑组等变卷积神经网络(GCNN)。等效tosymmetry转换在GCNNs中明确编码;经典的CNN是最简单的例子。特别地,我们提出了一种用于球形数据的SO(3) - 等变神经网络架构,它完全在傅立叶空间中运行,同时也为完全傅立叶神经网络的设计提供了形式,这与任何连续紧凑组的动作是等效的。
translated by 谷歌翻译
到目前为止,深度学习和深层体系结构正在成为许多实际应用中最好的机器学习方法,例如降低数据的维度,图像分类,语音识别或对象分割。事实上,许多领先的技术公司,如谷歌,微软或IBM,正在研究和使用他们系统中的深层架构来取代其他传统模型。因此,提高这些模型的性能可以在机器学习领域产生强烈的影响。然而,深度学习是一个快速发展的研究领域,在过去几年中发现了许多核心方法和范例。本文将首先作为深度学习的简短总结,试图包括本研究领域中所有最重要的思想。基于这一知识,我们提出并进行了一些实验,以研究基于自动编程(ADATE)改进深度学习的可能性。尽管我们的实验确实产生了良好的结果,但由于时间有限以及当前ADATE版本的局限性,我们还有更多的可能性无法尝试。我希望这篇论文可以促进关于这个主题的未来工作,特别是在ADATE的下一个版本中。本文还简要分析了ADATEsystem的功能,这对于想要了解其功能的其他研究人员非常有用。
translated by 谷歌翻译
Neural networks have proven effective at solving difficult problems but designing their archi-tectures can be challenging, even for image classification problems alone. Our goal is to minimize human participation, so we employ evolutionary algorithms to discover such networks automatically. Despite significant computational requirements, we show that it is now possible to evolve models with accuracies within the range of those published in the last year. Specifically , we employ simple evolutionary techniques at unprecedented scales to discover models for the CIFAR-10 and CIFAR-100 datasets, starting from trivial initial conditions and reaching accuracies of 94.6% (95.6% for ensemble) and 77.0%, respectively. To do this, we use novel and intuitive mutation operators that navigate large search spaces; we stress that no human participation is required once evolution starts and that the output is a fully-trained model. Throughout this work, we place special emphasis on the repeata-bility of results, the variability in the outcomes and the computational requirements.
translated by 谷歌翻译
已经提出神经架构搜索(NAS)来自动调整深度神经网络,但是现有的搜索算法通常遭受昂贵的计算成本。网络态射在通过改变其神经架构的同时保持神经网络的功能,可以通过在搜索期间进行更有效的训练来帮助NAS。在本文中,我们提出了一种新的框架,通过引入神经网络kerneland树结构的采集函数优化算法,使贝叶斯优化能够引导网络态射进行有效的神经结构搜索,从而更有效地探索搜索空间。已经进行了大量的实验,以证明所开发的框架相对于最先进的方法的优越性能。此外,我们构建了一个开源的AutoML系统onour方法,即Auto-Keras。该系统在CPU和GPU上并行运行,具有针对不同GPU内存限制的自适应搜索策略。
translated by 谷歌翻译
本文介绍了NSGA-Net,一种用于神经结构搜索(NAS)的进化方法。 NSGA-Net的设计考虑了三个目标:(1)针对多个,可能相互冲突的目标的aNAS程序,(2)对潜在神经网络体系结构空间的有效探索和利用,以及(3)多种网络体系结构的输出一次性目标的权衡前沿。 NSGA-Net是基于人口的搜索算法,它通过三个步骤探索潜在神经网络架构的空间,即基于手工架构的先验知识的人口初始化步骤,包括架构的交叉和变异以及最终利用的探索步骤以贝叶斯网络形式应用整个评估的neuralarchitectures历史的步骤。实验结果表明,结合通过FLOPS测量的最小化误差度量和计算复杂度的目标,NSGA-Net允许在两个目标的帕累托前沿附近找到两个不同任务,对象分类和对象对齐的竞争神经架构。 NSGA-Netobtains网络在CIFAR-10分类上实现3.72%(450万FLOP)错误,在CMU-Car对齐任务上实现8.64%(2660万FLOP)错误。代码见:https://github.com/ianwhale/nsga-net
translated by 谷歌翻译
在许多科学和工程应用中,我们的任务是评估昂贵的黑盒功能$ f $。这个问题的传统设置只假设这个单一函数的可用性。但是,在许多情况下,可以获得$ f $的便宜近似值。例如,机器人的昂贵的现实世界行为可以通过acheap计算机模拟来近似。我们可以使用这些近似值来廉价地消除低功能值区域,并在尽可能小的区域中使用昂贵的$ f $评估并快速确定最佳值。我们将此任务形式化为\ emph {多保真}强盗问题,其中目标函数和近似值是从高斯过程中采样的。我们开发了基于上置信界限技术的MF-GP-UCB,anovel方法。在我们的理论分析中,我们证明它恰好表现出上述行为,并且比忽略多保真信息的策略更令人遗憾。实际上,MF-GP-UCB在几个合成和实际实验中优于这种天真策略和其他多保真方法。
translated by 谷歌翻译
机器学习的标准概率视角产生了经验风险最小化任务,这些任务经常通过随机梯度下降(SGD)及其变体来解决。我们将这些任务的公式表示为经典的逆或过滤问题,此外,我们提出了一种有效的无梯度算法,用于使用集合卡尔曼反演(EKI)来寻找这些问题的解。我们的方法的应用包括离线和在线监督学习与深度神经网络,以及基于图的半监督学习。 EKI程序的本质是基于集合的近似梯度下降,其中导数被集合内的差异所取代。我们建议对基本方法进行一些修改,这些修改源于在SGD背景下开发的经验上成功的启发式方法。数值结果表明了该算法的广泛适用性和鲁棒性。
translated by 谷歌翻译
深度神经网络(DNN)正在成为现代计算应用中的重要工具。加速他们的培训是一项重大挑战,技术范围从分布式算法到低级电路设计。在这项调查中,我们从理论的角度描述了这个问题,然后是并行化的方法。我们介绍了DNN体系结构的趋势以及由此产生的对并行化策略的影响。然后,我们回顾并模拟DNN中不同类型的并发性:从单个运算符,到网络推理和训练中的并行性,再到分布式深度学习。我们讨论异步随机优化,分布式系统架构,通信方案和神经架构搜索。基于这些方法,我们推断了在深度学习中并行性的潜在方向。
translated by 谷歌翻译
先前已经确定了宽全连通神经网络(FCN)和高斯过程(GP)之间的等价性。例如,这种等效性使得能够在不实例化FCN的情况下计算完全贝叶斯无限宽训练FCN的测试集预测,而是通过评估相应的GP。在这项工作中,我们为具有和不具有汇集层的多层卷积神经网络(CNN)提供了类似的等价,并且在没有可训练内核的情况下为CIFAR10实现了最先进的结果。我们还引入了MonteCarlo方法来估计与给定神经网络体系结构相对应的GP,即使在分析形式具有太多计算可行的术语的情况下也是如此。令人惊讶的是,在没有汇集层的情况下,对应于具有和不具有重量共享的CNN的GP是相同的。因此,用随机梯度下降(SGD)训练的有限通道CNN中的平移等式在无限通道极限的贝叶斯处理中没有相应的性质 - 这两种方案之间的质量差异在FCN情况下不存在。我们通过实验证实,虽然在某些场景中,随着频道数量的增加,SGD训练的有限CNN的性能接近相应GP的性能,仔细调整SGD训练的CNN可以明显优于其相应的GP,这表明与完全贝叶斯参数估计相比,SGD训练具有优势。 。
translated by 谷歌翻译
我们提出了一种在网络体系结构域上逐步学习嵌入空间的方法,以便在压缩体系结构搜索期间仔细选择体系结构预估。给定教师网络,我们通过使用贝叶斯优化(BO)来研究压缩网络体系结构,其中在我们提出的嵌入空间上定义了核函数,以选择用于评估的体系结构。我们证明我们的搜索算法可以显着优于各种基线方法,例如随机搜索和重建学习(Ashok等,2018)。通过我们的方法找到的压缩体系结构也比最先进的手动设计的紧凑体系结构ShuffleNet(Zhang et al。,2018)更好。我们还证明,学习的嵌入空间可以转移到架构搜索的新设置,例如更大的教师网络或不同架构系列中的教师网络,无需任何培训。
translated by 谷歌翻译
复杂网络被用作物理学,生物学,社会学和其他领域的系统建模的抽象。我们提出了一种基于快速个性化节点排名和深度学习的最新进展的算法,用于学习监督网络嵌入以及直接对网络节点进行分类。从同构网络和异构网络学习,我们的算法在九个节点分类基准测试中表现出强大的基线。分子生物学,金融学,社交媒体和语言处理的领域 - 迄今为止最大的节点分类集合之一。在速度和预测准确性方面,结果与当前最先进的技术相当或更好。通过所提出的算法获得的嵌入也是网络可视化的可行选择。
translated by 谷歌翻译
致力于手工制作神经网络图像分类器的努力已经动态使用体系结构搜索来自动发现它们。虽然进化算法已经被重复应用于神经网络拓扑,但是由此发现的图像分类器仍然不如人工制作的图像分类器。在这里,我们开发了一个图像分类器 - AmoebaNet-A ---这是第一次超越手工设计。为此,我们通过引入年龄属性来修改锦标赛选择进化算法以支持他们的基因型。匹配大小,AmoebaNet-A具有与更复杂的架构搜索方法相比,具有可比性的最先进的ImageNet模型。 AmoebaNet-A扩展到更大的尺寸,创造了最新的83.9%前1 / 96.6%前5个ImageNet精度。在与众所周知的强化学习算法的对照比较中,我们给出了证据,证明进化可以使用相同的硬件更快地获得结果,尤其是在搜索的早期阶段。当可用的计算资源较少时,这是相关的。因此,进化是一种有效发现高质量架构的简单方法。
translated by 谷歌翻译
神经网络在各种实际应用中的应用正在改变AI在实践中的应用方式。通过API提供的预训练神经网络模型或使用客户数据定​​制训练预构建的神经网络架构的能力使得开发人员对AI的消耗更加简单,并且导致这些复杂AI模型的广泛采用。虽然针对某些场景存在预构建的网络模型,但为了尝试满足每个应用程序独有的约束,AI团队需要关注开发自定义神经网络架构,以满足精度和内存占用之间的关系,以实现其独特用例的严格限制。然而,只有一小部分数据科学团队拥有从划痕创建神经网络所需的技能和经验,而且需求远远超过供应。在本文中,我们介绍了NeuNetS:一种用于自定义神经网络设计的自动化神经网络综合引擎,可作为IBM的OpenScale产品的一部分提供.NeuNetS可用于文本和图像域,并且可以在很短的时间内为特定任务构建神经网络今天需要humaneffort,并且精确度与人工设计的AI模型类似。
translated by 谷歌翻译
Time Series Classification (TSC) is an important and challenging problem in data mining. With the increase of time series data availability, hundreds of TSC algorithms have been proposed. Among these methods, only a few have considered Deep Neural Networks (DNNs) to perform this task. This is surprising as deep learning has seen very successful applications in the last years. DNNs have indeed revolutionized the field of computer vision especially with the advent of novel deeper architectures such as Residual and Convolutional Neural Networks. Apart from images, sequential data such as text and audio can also be processed with DNNs to reach state-of-the-art performance for document classification and speech recognition. In this article, we study the current state-of-the-art performance of deep learning algorithms for TSC by presenting an empirical study of the most recent DNN architectures for TSC. We give an overview of the most successful deep learning applications in various time series domains under a unified taxonomy of DNNs for TSC. We also provide an open source deep learning framework to the TSC community where we implemented each of the compared approaches and evaluated them on a univariate TSC benchmark (the UCR/UEA archive) and 12 multivariate time series datasets. By training 8,730 deep learning models on 97 time series datasets, we propose the most exhaustive study of DNNs for TSC to date.
translated by 谷歌翻译
我们提出了一种学习卷积神经网络(CNN)结构的新方法,该方法比基于强化学习和进化算法的最新方法更有效。我们的方法使用基于顺序模型的优化(SMBO)策略,其中我们按照复杂性增加的顺序搜索结构,同时学习asurrogate模型以指导搜索结构空间。在同一搜索空间下进行直接比较表明,我们的方法比Zoph等人的RL方法高出5倍。 (2018)在模型评估数量方面,在总计算方面快8倍。以这种方式结构化的结构在CIFAR-10和ImageNet上实现了最先进的分类精度。
translated by 谷歌翻译
图形编辑距离(GED)计算是许多广泛使用的图形应用程序的核心操作,例如图形分类,图形匹配和图形相似性搜索。但是,计算两个图之间的精确GED是NP完全的。目前大多数近似算法都是基于求解组合优化问题,这涉及复杂的设计和高时间的复杂性。在本文中,我们提出了一种新的基于端到端神经网络的GED近似方法,旨在减轻计算负担,同时保持良好的性能。提出的方法,名为GSimCNN,将GED计算转化为学习问题。每个图被视为一组节点,由可学习的嵌入向量表示。然后将GED计算视为两组匹配问题,其中较高的匹配分数导致较低的GED。提出了一种基于卷积神经网络(CNN)的方法来解决集合匹配问题。我们在三个真实图形数据集上测试我们的算法,并且我们的模型实现了对最先进的近似GED计算算法的显着性能增强。
translated by 谷歌翻译
在过去几年中,神经网络重新成为强大的机器学习模型,在图像识别和语音处理等领域产生了最先进的结果。最近,神经网络模型开始应用于文本自然语言信号,同样具有非常有希望的结果。本教程从自然语言处理研究的角度对神经网络模型进行了调查,试图通过神经技术使自然语言研究人员加快速度。本教程介绍了自然语言任务,前馈网络,卷积网络,循环网络和递归网络的输入编码,以及自动梯度计算的计算图形抽象。
translated by 谷歌翻译
& % % # % Figure 1: Illustration of three graph-graph similarity matrices generated by our end-to-end GSim-CNN trained on the LINUX dataset [1]. Nodes are ordered and labelled with their ids, and darker colors indicate greater similarities between nodes. Convolutional Neural Networks are applied to these matrices to generate the graph-graph similarity score. We introduce GSimCNN (Graph Similarity Computation via Convolutional Neural Networks) for predicting the similarity score between two graphs. As the core operation of graph similarity search, pairwise graph similarity computation is a challenging problem due to the NP-hard nature of computing many graph distance/similarity metrics. We demonstrate our model using the Graph Edit Distance (GED) [2] as the example metric. It is defined as the number of edit operations in the optimal alignments that transform one graph into the other, where an edit operation can be an insertion or a deletion of a node/edge, or re-labelling of a node. It is NP-hard [3] and costly to compute in practice [4]. The key idea is to turn the pairwise graph distance computation problem into a learning problem. This new approach not only offers paral-lelizability and efficiency due to the nature of neural computation, but also achieves significant improvement over state-of-the-art GED approximation algorithms. Definitions We are given an undirected, un-weighted graph G = (V, E) with N = |V| nodes. Node features are summarized in an N × D matrix H. We transform GED into a similarity metric ranging between 0 and 1. Our goal is to learn a neural network based function that takes two graphs as input and outputs the similarity score that can be transformed back to GED through a one-to-one mapping.
translated by 谷歌翻译
多重网格建模算法是一种用于加速在类似图形结构的层次结构上运行的松弛模型的技术。我们介绍并演示了一种使用多级方法训练神经网络的新方法。使用从图距离度量导出的目标函数,我们执行正交约束优化以找到图之间的最佳延长和限制图。我们比较和对比了几种执行这种数值优化的方法,并在这类目标函数的上界上提出了一些新的理论结果。一旦计算出来,这些图之间的最佳映射形成了多尺度人工神经网络(MsANN)训练的核心,这是我们提出的一种新程序,它同时训练不同空间分辨率的神经网络模型的层次结构。根据来自多尺度模型文献的标准粗化和细化时间表,在该层次结构的成员之间传递参数信息。在我们的机器学习实验中,这些模型可以比默认训练更快地学习,在一个数量级的训练样本中实现相当级别的误差。
translated by 谷歌翻译