Bayesian optimization is a sample-efficient approach to global optimization that relies on theoretically motivated value heuristics (acquisition functions) to guide its search process. Fully maximizing acquisition functions produces the Bayes' decision rule, but this ideal is difficult to achieve since these functions are frequently non-trivial to optimize. This statement is especially true when evaluating queries in parallel, where acquisition functions are routinely non-convex, high-dimensional, and intractable. We first show that acquisition functions estimated via Monte Carlo integration are consistently amenable to gradient-based optimization. Subsequently, we identify a common family of acquisition functions, including EI and UCB, whose properties not only facilitate but justify use of greedy approaches for their maximization.
translated by 谷歌翻译
随着深网越来越多地应用于适用于移动设备的应用,一个基本的困境变得明显:深度学习的趋势是使模型成长以吸收不断增加的数据集大小;然而,移动设备设计的内存非常少,无法存储大型模型。我们提出了一种新颖的网络架构HashedNets,它利用内部网络的固有冗余来大幅减少模型尺寸。 HashedNets使用低成本散列函数将连接权重随机分组到散列桶中,同一散列桶中的所有连接共享一个参数值。这些参数经过调整,以便在训练期间使用标准backprop调整HashedNets权重共享架构。我们的散列过程不会引入额外的内存开销,我们在几个基准数据集上演示HashedNets大大缩小了神经网络的存储要求,同时大部分保留了泛化性能。
translated by 谷歌翻译
信息融合是众多工程系统和生物功能的重要组成部分,例如人类认知。融合发生在许多层面,从信号的低级组合到异构决策过程的高级聚合。虽然过去十年见证了深度学习研究的爆发,但神经网络融合并没有观察到同样的革命。具体而言,大多数神经融合方法是特定的,不被理解,分布与局部,和/解释性低(如果存在的话)。在此,我们证明了模糊Choquet积分(ChI),一种强大的非线性聚合函数,可以表示为多层网络,以下称为ChIMP。我们还提出了一种改进的ChIMP(iChIMP),它根据ChI不等式约束的指数数量导致基于随机梯度下降的优化。 ChIMP / iChIMP的另一个好处是它可以实现可解释的AI(XAI)。提供了综合验证实验,并将iChIMP应用于远程感知中的一组异构架构深度模型的融合。我们展示了模型精度的提高,我们之前建立的XAI指数揭示了我们的数据,模型及其决策的质量。
translated by 谷歌翻译
我们开发了一种卷积神经网络(CNN),它可以首次对液氩时间投影室(LArTPC)记录的图像数据中的物体进行像素级预测。我们描述了为培训该网络而开发的网络设计,培训技术和软件工具。这项工作的目的是为MicroBooNE探测器开发一个完整的基于深度神经网络的数据构建链。我们使用MicroBooNEcollection平面图像显示网络在实际LArTPC数据上的有效性的第一次演示。演示用于停止μ子和$ \ nu_ \ mu $充电电流中性π介数数据样本。
translated by 谷歌翻译
低秩张量完成问题旨在从具有许多实际应用的有限观测中恢复张量。由于易于优化,凸起的重叠核范数已经普遍用于完成。然而,它过分惩罚顶级奇异值并导致偏差估计。在本文中,我们建议使用非凸正则化器,它可以较少惩罚大的奇异值,而不是凸一个强度完成。然而,由于新的正则化器是非凸的并且彼此重叠,现有的算法要么太慢,要么遭受巨大的存储器成本。为了解决这些问题,我们开发了一种高效且可扩展的算法,该算法基于近端平均(PA)算法,用于解决实际问题。与PA算法的直接使用相比,所提出的算法更快地运行命令并且需要更少的空间。我们利用加速技术进一步提出了所提出的算法,并且仍然保证了对关键点的收敛性。通过各种其他张量完成方法对所提方法进行了实验比较。实验结果表明,该算法速度快,可以产生更好的恢复性能。
translated by 谷歌翻译
方差减少已经普遍用于随机优化。它主要假设数据集是有限的。然而,当数据在数据增加中随机噪声估算时,扰动数据集基本上是无限的。最近,引入随机MISO(S-MISO)算法来解决这种预期的风险最小化问题。虽然它比SGD收敛得快,但是需要大量的存储器。在这篇文章中,我们提出了两种类似SGD的算法,用于随机扰动的预期风险最小化,即随机样本平均梯度(SSAG)和随机SAGA(S-SAGA)。 SSAG的存储器成本不依赖于样本大小,而S-SAGA的存储器成本与无扰动数据的方差减少方法相同。逻辑回归和AUC最大化的理论分析和实验结果表明,SSAG的收敛速度快于具有可比空间要求的SGD,而S-SAGA在迭代复杂度和存储方面均优于S-MISO。
translated by 谷歌翻译
我们提出了一种联合视听模型,用于隔离来自诸如其他扬声器和背景噪声的混合声音的单个语音信号。仅使用音频作为输入来解决该任务是极具挑战性的,并且不提供分离的语音信号与视频中的扬声器的关联。在本文中,我们提出了一个基于网络的深层模型,它结合了视觉和听觉信号来解决这一任务。视觉特征用于将音频“聚焦”在场景中的所需扬声器上并提高音频分离质量。为了训练我们的联合视听模型,我们介绍了AVSpeech,这是一个由来自网络的数千小时视频片段组成的新数据集。我们展示了我们的方法对经典语音分离任务的适用性,以及涉及激烈访谈,嘈杂的酒吧和尖叫儿童的真实场景,只要求用户在视频中指定他们想要隔离的人的面孔。在混合语音的情况下,我们的方法显示出优于现有技术的仅音频语音分离的优势。此外,我们的模型与扬声器无关(训练有效,适用于任何扬声器),比最近的扬声器视觉分离方法产生更好的结果,这些方法取决于扬声器(需要为每个感兴趣的扬声器训练单独的模型)。
translated by 谷歌翻译
集合方法 - 特别是基于决策树的方法 - 最近在各种机器学习环境中表现出优异的性能。我们引入了许多现有决策树方法的概括,称为“随机投影森林”(RPF),它是使用(可能是数据相关和随机)线性投影的任何决策林。使用这个框架,我们引入了一个名为“Lumberjack”的特殊情况,使用非常稀疏的randomprojection,即一小部分特征的线性组合.Lumberjack在RandomForests,Gradient Boosted Trees和其他方法上获得统计上显着提高的准确性。用于分类的标准基准测试,具有不同的尺寸,样本大小和类别数量。为了说明Lumberjack如何,为什么以及何时优于其他方法,我们在矢量,图像和非线性流形中进行了广泛的模拟实验。 Lumberjack通常比现有的决策树集合产生更好的性能,同时降低计算效率和可扩展性,并保持可解释性。伐木工人可以很容易地融入其他集合方法,例如加强以获得潜在的相似收益。
translated by 谷歌翻译
序列到序列模型是NLP的强大主力。大多数变体在其注意机制和输出层中都采用softmax变换,导致密集对齐和严格正输出概率。这种密度是浪费的,使得模型可解释性较差,并为许多难以置信的输出分配概率质量。在本文中,我们提出了sparsese序列到序列模型,植根于$ \ alpha $ -entmaxtransformations的新系列,其中包括softmax和sparsemax作为特定情况,并且对于任何$ \ alpha> 1 $都是稀疏的。我们提供快速算法来评估这些变换及其渐变,这些算法可以很好地扩展到大型词汇表。我们的模型能够生成稀疏对齐并将非非可置性分配给可能输出的简短列表,有时会使波束搜索精确。形态学变形和机器平移的实验揭示了密集模型的一致增益。
translated by 谷歌翻译
许多任务(包括语言生成)都受益于学习输出空间的结构,特别是当输出标签的空间很大且数据稀疏时。最先进的神经语言模型直接捕获分类器权重中的输出空间结构,因为它们缺少输出标签之间的参数共享。学习共享输出标签映射有所帮助,但现有方法的表达能力有限,容易过度拟合。在本文中,我们研究了更强大的共享映射对输出标签的有用性,并提出了一种深层残差输出映射,层间丢失以更好地捕获输出空间的结构并避免过度拟合。对三种语言生成任务的评估表明,输出标签映射可以匹配或改进最先进的循环和自我关注架构,并建议分类器不一定需要高级别才能更好地模拟自然语言,如果它更好捕获输出空间的结构。
translated by 谷歌翻译