We introduce a general theoretical framework, designed for the study of gradient optimisation of deep neural networks, that encompasses ubiquitous architectural choices including batch normalisation, weight normalisation and skip connections. We use our framework to conduct a global analysis of the curvature and regularity properties of neural network loss landscapes induced by normalisation layers and skip connections respectively. We then demonstrate the utility of this framework in two respects. First, we give the only proof of which we are presently aware that a class of deep neural networks can be trained using gradient descent to global optima even when such optima only exist at infinity, as is the case for the cross-entropy cost. Second, we verify a prediction made by the theory, that skip connections accelerate training, with ResNets on MNIST, CIFAR10, CIFAR100 and ImageNet.
translated by 谷歌翻译
量化在隐式/坐标神经网络中的作用仍未完全理解。我们注意到,在训练过程中使用规范的固定量化方案在训练过程中的网络重量分布发生变化,在训练过程中会导致低速表现不佳。在这项工作中,我们表明神经体重的不均匀量化会导致显着改善。具体而言,我们证明了群集量化可以改善重建。最后,通过表征量化和网络容量之间的权衡,我们证明使用二进制神经网络重建信号是可能的(而记忆效率低下)。我们在2D图像重建和3D辐射场上实验证明了我们的发现;并表明简单的量化方法和体系结构搜索可以使NERF的压缩至小于16KB,而性能损失最小(比原始NERF小323倍)。
translated by 谷歌翻译
表征过度参数化神经网络的显着概括性能仍然是一个开放的问题。在本文中,我们促进了将重点转移到初始化而不是神经结构或(随机)梯度下降的转变,以解释这种隐式的正则化。通过傅立叶镜头,我们得出了神经网络光谱偏置的一般结果,并表明神经网络的概括与它们的初始化密切相关。此外,我们在经验上使用实用的深层网络巩固了开发的理论见解。最后,我们反对有争议的平米尼猜想,并表明傅立叶分析为理解神经网络的概括提供了更可靠的框架。
translated by 谷歌翻译
虽然可怕的转化扰动稳健,但是已知卷积神经网络(CNNS)在用更普通的输入的测试时间呈现时呈现极端性能劣化。最近,这种限制具有从CNNS到胶囊网络(Capsnets)的焦点转变。但是,Capsnets遭受了相对较少的理论保障的不变性。我们介绍了一个严格的数学框架,以允许不在任何谎言群体群体,专门使用卷曲(通过谎言群体),而无需胶囊。以前关于集团举报的职责受到本集团的强烈假设的阻碍,这阻止了这些技术在计算机视觉中的共同扭曲中的应用,如仿佛和同类。我们的框架可以实现over \ emph {任何}有限维谎组的组卷积。我们在基准仿射不变分类任务中凭经验验证了我们的方法,在那里我们在越野上达到了常规CNN的准确性,同时优于最先进的帽子,我们在达到$ \ SIMP 30 \%的提高。作为我们框架的普遍性的进一步说明,我们训练了一个众所周知的模型,实现了在众所周知的数据集上的卓越稳健性,其中帽子结果降低。
translated by 谷歌翻译
我们探索了知识蒸馏(KD)的使用来学习紧凑和准确的模型,这些模型可以从可穿戴设备上的加速度计算数据中分类动物行为。为此,我们采用了一个深厚而复杂的卷积神经网络,称为残留神经网络(RESNET)作为教师模型。 RESNET专为多元时间序列分类而设计。我们使用Resnet将动物行为分类数据集的知识歪曲到软标签中,其中由每个数据点的每个类别的伪概率组成。然后,我们使用软标签来训练我们的复杂学生模型,这些模型基于门控复发单元(GRU)和多层感知器(MLP)。使用两个现实世界动物行为分类数据集的评估结果表明,学生GRU-MLP模型的分类准确性通过KD明显改善,接近教师Resnet模型的分类精度。为了进一步减少使用KD训练的学生模型执行推理的计算和记忆要求,我们通过适当修改模型的计算图来利用动态定量量化。我们在我们专门构建的衣领的嵌入式系统和耳牌设备的嵌入式系统上实施了未量化和量化的版本,以实时和实时对动物行为进行分类。结果证实了KD和量化在分类准确性以及计算和记忆效率方面提高推理性能的有效性。
translated by 谷歌翻译
我们提出了一个新的图神经网络(GNN)模块,该模块基于最近提出的几何散射变换的松弛,该变换由图形小波滤波器组成。我们可学习的几何散射(腿)模块可以使小波的自适应调整能够鼓励乐队通道特征在学习的表示中出现。与许多流行的GNN相比,我们的腿部模块在GNN中的结合能够学习长期图形关系,这些GNN通常依赖于邻居之间的平滑度或相似性来编码图形结构。此外,与竞争性GNN相比,其小波先验会导致简化的架构,学到的参数明显少得多。我们证明了基于腿的网络在图形分类基准上的预测性能,以及在生化图数据探索任务中学到的功能的描述性质量。我们的结果表明,基于腿部的网络匹配或匹配流行的GNN,以及在许多数据集上,尤其是在生化域中的原始几何散射结构,同时保留了手工制作的(非学习)几何散射的某些数学特性。
translated by 谷歌翻译
我们使用具有软次指数模式的兰贝克微积分来建模和理由,例如Anaphora和Ellipsis。该逻辑的语义是通过使用截短的Fock空间获得的,这是我们以前的工作中开发的。我们通过新的字符串图描述了这些语义计算。Fock Space语义的优势是,使用机器学习可以从大量数据中学到其术语,并且可以在主流自然语言任务上进行实验。此外,由于从向量空间到量子电路的现有翻译,我们还可以在量子计算机及其模拟器(例如IBMQ范围)上学习这些术语。我们将现有的翻译扩展到Fock空间,并为话语关系开发量子电路语义。然后,我们在确定的代词分辨率任务中对这些电路的IBMQ进行了模拟,其中在解析过度时,模型记录了最高精度。
translated by 谷歌翻译
th骨海星(COTS)爆发是大屏障礁(GBR)珊瑚损失的主要原因,并且正在进行实质性的监视和控制计划,以将COTS人群管理至生态可持续的水平。在本文中,我们在边缘设备上介绍了基于水下的水下数据收集和策展系统,以进行COTS监视。特别是,我们利用了基于深度学习的对象检测技术的功能,并提出了一种资源有效的COTS检测器,该检测器在边缘设备上执行检测推断,以帮助海上专家在数据收集阶段进行COTS识别。初步结果表明,可以将改善计算效率的几种策略(例如,批处理处理,帧跳过,模型输入大小)组合在一起,以在Edge硬件上运行拟议的检测模型,资源消耗较低,信息损失较低。
translated by 谷歌翻译
BERT4REC是基于变压器体系结构的顺序推荐的有效模型。在原始出版物中,Bert4Rec声称比其他可用的顺序推荐方法优越(例如Sasrec),现在经常将其用作顺序建议的最先进的基线。但是,并非所有随后的出版物都证实了这一结果,并提出了其他模型,这些模型被证明在有效性方面表现优于Bert4Rec。在本文中,我们会系统地回顾所有将Bert4Rec与另一个受欢迎的基于变压器的模型(即Sasrec)进行比较的出版物,并表明BERT4REC结果在这些出版物中不一致。为了了解这种不一致的原因,我们分析了BERT4REC的可用实现,并表明我们在使用默认配置参数时未能重现原始Bert4Rec出版物的结果。但是,与默认配置相比,如果训练更长的时间(最高30倍),我们可以用原始代码复制报告的结果。我们还根据拥抱面孔变压器库提出了自己的BERT4REC实施,我们证明了在3个OUT 4数据集中重复了最初报告的结果,同时需要减少95%的培训时间来收敛。总体而言,从我们的系统审查和详细的实验中,我们得出结论,Bert4Rec确实确实表现出了序列建议的最新有效性,但只有在经过足够的时间进行培训时。此外,我们表明,我们的实现可以通过调整拥抱面孔库中可用的其他变压器体系结构(例如,使用Deberta提供的散布注意力或更大的隐藏层大小参见Albert)。
translated by 谷歌翻译
许多现代的顺序推荐系统使用深层神经网络,可以有效地估计项目的相关性,但需要大量时间进行训练。慢速培训增加了费用,阻碍了产品开发时间表,并防止该模型定期更新以适应不断变化的用户偏好。培训这样的顺序模型涉及对过去的用户互动进行适当采样以创建现实的培训目标。现有的培训目标有局限性。例如,下一个项目预测永远不会将序列的开头用作学习目标,从而可能丢弃有价值的数据。另一方面,Bert4Rec使用的项目掩盖仅与顺序建议的目标无关。因此,它需要更多的时间来获得有效的模型。因此,我们提出了一个基于新颖的序列训练目标采样,以解决这两个局限性。我们将我们的方法应用于最近和最新的模型架构,例如Gru4Rec,Caser和Sasrec。我们表明,通过我们的方法增强的模型可以实现超过或非常接近bert4rec的状态的性能,但训练时间却少得多。
translated by 谷歌翻译