深度学习研究的长期目标是精确地描述培训和概括。然而,神经网络经常复杂的损失景观使学习动力学理论变得难以捉摸。在这项工作中,我们表明,对于广泛的神经网络,学习动力学显着简化,并且在无限宽度限制中,它们由一个线性模型控制。网络初始参数的一阶泰勒展开式。此外,镜像宽贝叶斯神经网络和高斯过程之间的对应关系,具有平方损失的宽神经网络的基于梯度的训练产生了从具有特定组成核的高斯过程绘制的测试集预测。虽然这些理论结果仅在无限宽度限制中是精确的,但我们仍然发现原始网络的预测与线性化版本的预测之间存在极好的经验一致性,即使对于有限的实际大小的网络也是如此。该协议在不同的体系结构,优化方法和损失函数方面都很强大。
translated by 谷歌翻译
本文描述了神经网络,一个用于神经网络和深度学习的并行Fortran框架。它具有简单的界面,可构建任意结构和大小的前馈神经网络,severalactivation函数和随机梯度下降作为默认优化算法。 Neural-fortran还利用Fortran 2018标准集合子程序在共享或分布式内存机器上实现基于数据的并行性。首先,我描述了使用Fortran派生类型,全数组算法和集体命令广播操作实现神经网络以实现并行性。其次,我在一个从图像中识别手写数字的例子中演示了使用neur-fortran。最后,我评估了串行和并行模式的计算性能。易用性和计算性能类似于现有的流行机器学习框架,使得神经堡垒成为进一步开发和用于生产的可行候选者。
translated by 谷歌翻译
正确地评估对抗对抗性例子的防御已经证明是非常困难的。尽管最近大量的工作试图设计出能够抵御自适应攻击的防御措施,但很少有人成功;提出防御的大多数报纸很快被证明是不正确的。我们认为,一个重要的因素是进行安全评估的难度。在本文中,我们讨论了方法论基础,回顾了普遍接受的最佳实践,并提出了评估对抗性例子的新方法。我们希望研究发展方面的研究人员以及希望了解评估完整性的读者和评论者都要考虑我们的建议,以避免常见的弊端。
translated by 谷歌翻译
我们展示了第一种可能的子线性记忆草图,它可以解决近似的近邻搜索问题。特别是,我们开发了一个在线草图算法,它可以将$ N $向量压缩成一个小型草图,由一小部分计数器组成,其大小标度为$ O(N ^ {b} \ log ^ 2 {N})$,其中$ b < 1 $取决于近邻搜索的稳定性。该草图足以识别具有高概率的顶级$ v $近邻。据我们所知,这是第一个破坏线性内存($ O(N)$)障碍的近邻搜索算法。我们通过将基于局部敏感性散列(LSH)的估计(尤其是最近发布的ACE算法)与压缩感知和重击电技术相结合,实现了子线性存储器。我们提供强有力的理论保证;特别是,我们的分析揭示了近邻搜索设置中的内存准确性权衡以及压缩感知中稀疏性的作用,这可能是独立的兴趣。大力评估我们的框架,我们在Google plus图表上的朋友推荐任务上称为RACE(重复ACE)数据结构,其中包含超过100,000个高维向量。 RACE提供的压缩比基于随机投影的替代方案更好,这是理论上的优势,这是令人惊讶的。我们预计RACE将为近邻搜索提供新的理论视角,并为高速数据挖掘,物联网(IoT)等应用提供新方法。
translated by 谷歌翻译
策略梯度方法的性能对于必须针对任何新应用程序进行调整的超参数设置敏感。广泛使用的用于调整超参数的网格搜索方法是样本效率低且计算量昂贵的。更高级的方法,如基于人口的培训,学习超参数的最优计划而不是固定设置可以产生更好的结果,但也样本效率低,计算成本高。在本文中,我们提出了飞行中的超参数优化(HOOF),无广度的元学习算法可以自动学习直接通过梯度影响策略更新的超参数的最优计划。主要思想是使用由策略梯度方法采样的现有轨迹来优化一步改进目标,从而产生易于实现的样本和计算上有效的算法。跨多个域和算法的Ourexperimental结果表明,使用HOOF来学习这些超参数调度表可以提高学习速度并提高性能。
translated by 谷歌翻译
大多数现有的完全共形预测系统,分裂共形预测系统和交叉共形预测系统的例子对预测分布对手的测试对象的适应性施加了严格的限制。在本文中,我们开发了完全自适应的分离共形和交叉共形预测系统。我们的方法包括校准预测系统;输入预测系统不应该满足任何有效性属性,而输出预测系统保证在概率上进行校准。有趣的是,该方法也可以在没有IID假设的情况下工作,这是保形预测中的标准。
translated by 谷歌翻译
与事实上的递归神经网络(RNN)标准相比,最近已经证明卷积体系结构在许多序列建模任务中具有竞争性,同时由于固有的并行性而提供计算和建模优势。然而,目前仍然存在与更具表现力的随机RNN变体的性能差距,尤其是具有若干层依赖随机变量的变体。在这项工作中,我们提出了随机时间卷积网络(STCN),这是一种新颖的体系结构,它将时间卷积网络(TCN)的计算优势与随机潜在空间的表示能力和鲁棒性结合起来。特别地,我们提出了随机潜变量的层次结构,其捕获不同时间尺度上的时间依赖性。由于确定性层和随机层的解耦,该架构是模块化和灵活的。 Weshow所提出的架构在多个任务中实现了最先进的对数可能性。最后,该模型能够在手写文本建模中预测长期时间范围内的高质量合成样本。
translated by 谷歌翻译
多目标贝叶斯优化研究的持续目标是扩展其对大量目标的适用性。在应对评估的有限预算时,恢复最佳妥协解决方案通常需要大量观察,而且解释较少,因为这一组随着目标数量的增加而趋于变大。因此,我们建议专注于源自博弈论的特定解决方案,即具有吸引力特性的Kalai-Smorodinsky解决方案。特别是,它确保了所有目标的平等边际收益。我们进一步认为,通过考虑copula空间中的目标,它对目标的单调变换不敏感。提出了一种新颖的定制算法,以贝叶斯优化算法的形式搜索解决方案:基于从仪器高斯过程先验得出的获取函数进行顺序抽样决策。我们的方法分别针对三个问题进行了测试,分别有四个,六个和十个目标。该方法可在CRAN上的GPGame包中获得:http://cran.r-project.org/package=GPGame。
translated by 谷歌翻译
本研究提出了一种新的深度学习模型,称为IITNet,用于从原始单通道脑电图(EEG)中学习时间和时间间隔的时间背景,用于自动睡眠阶段评分。当睡眠专家识别出称为时代的30秒PSG数据的睡眠阶段时,他们会调查睡眠相关事件,例如睡眠轴,K-复合体和来自时代(子时期)的局部片段的频率成分,并考虑睡眠之间的关系连续时期的相关事件遵循过渡规则。受此启发,IITNet学习如何通过深度残留网络对子时代的代表性特征进行编码,然后通过BiLSTM捕获代表性特征序列中的上下文信息。因此,IITNetcan在子历元级别中提取特征并且不仅在时期之间而且在时期中考虑时间上下文。 IITNet是一种端到端架构,不需要任何预处理,手工制作的功能设计,平衡采样,预训练或微调。我们的模型在Sleep-EDF和MASS数据集中进行了训练和评估,并且在两个数据集上均优于其他最先进的结果,总体准确度(ACC)分别为84.0%和86.6%,宏观F1分数(MF1)为77.7和80.8,Cohen的kappa分别为0.78和0.80,分别为Sleep-EDF和MASS。
translated by 谷歌翻译
本研究的目的是提高随机梯度下降(SGD)算法在文本分类中的性能。在我们的研究中,我们提出使用SGD学习和网格搜索方法来微调高精度参数,以提高SGD分类的性能。我们从作为预分类步骤的全球恐怖主义数据库获得的恐怖袭击事件的概要描述中探索了表示,转换和加权特征的不同设置,并通过分层10-K-验证了支持向量机(SVM),Logistic回归和感受器分类器的SDD学习。折叠交叉验证,以比较SGD算法中嵌入的不同分类器的性能。该研究包括使用网格搜索来查找超参数优化SGD分类,而不是仅在预分类设置中,而是在准确性和执行时间方面的分类器的性能。
translated by 谷歌翻译