This short report reviews the current state of the research and methodology on theoretical and practical aspects of Artificial Neural Networks (ANN). It was prepared to gather state-of-the-art knowledge needed to construct complex, hypercomplex and fuzzy neural networks. The report reflects the individual interests of the authors and, by now means, cannot be treated as a comprehensive review of the ANN discipline. Considering the fast development of this field, it is currently impossible to do a detailed review of a considerable number of pages. The report is an outcome of the Project 'The Strategic Research Partnership for the mathematical aspects of complex, hypercomplex and fuzzy neural networks' meeting at the University of Warmia and Mazury in Olsztyn, Poland, organized in September 2022.
translated by 谷歌翻译
通过建立神经网络和内核方法之间的联系,无限宽度极限阐明了深度学习的概括和优化方面。尽管它们的重要性,但这些内核方法的实用性在大规模学习设置中受到限制,因为它们(超)二次运行时和内存复杂性。此外,大多数先前关于神经内核的作品都集中在relu激活上,这主要是由于其受欢迎程度,但这也是由于很难计算此类内核来进行一般激活。在这项工作中,我们通过提供进行一般激活的方法来克服此类困难。首先,我们编译和扩展激活功能的列表,该函数允许精确的双重激活表达式计算神经内核。当确切的计算未知时,我们提出有效近似它们的方法。我们提出了一种快速的素描方法,该方法近似于任何多种多层神经网络高斯过程(NNGP)内核和神经切线核(NTK)矩阵,以实现广泛的激活功能,这超出了常见的经过分析的RELU激活。这是通过显示如何使用任何所需激活函​​数的截短的Hermite膨胀来近似神经内核来完成的。虽然大多数先前的工作都需要单位球体上的数据点,但我们的方法不受此类限制的影响,并且适用于$ \ Mathbb {r}^d $中的任何点数据集。此外,我们为NNGP和NTK矩阵提供了一个子空间嵌入,具有接近输入的距离运行时和接近最佳的目标尺寸,该目标尺寸适用于任何\ EMPH {均质}双重激活功能,具有快速收敛的Taylor膨胀。从经验上讲,关于精确的卷积NTK(CNTK)计算,我们的方法可实现$ 106 \ times $速度,用于在CIFAR-10数据集上的5层默特网络的近似CNTK。
translated by 谷歌翻译
本文提出了一种新的模型架构,具有抑制MLP(GIMLP)的门。对CyClemlp(Gi-Cyclemlp)抑制的大门可以在Imagenet分类任务上产生同等的性能,并且还可以改善BERT,ROBERTA和DEBERTAV3型号关于两种新颖的技术。第一个是门控MLP,其中MLP和Trunk注意力输入之间的矩阵乘法在进一步调整模型的适应性中。第二个是抑制作用,它抑制或增强分支调节,并且随着抑制水平的增加,它提供了更大的肌肉特征限制。我们表明,就成像网分类的精度而言,抑制水平较低的GicyClemLP可能与原始CYCLEMLP具有竞争力。此外,我们还通过一项全面的实证研究表明,这些技术显着改善了微调NLU下游任务的性能。至于在Deberta(Gideberta)微调上具有抑制MLP的大门,我们发现它可以在NLU任务的大多数部分上取得吸引力的结果,而无需再进行任何额外的预处理。我们还发现,通过抑制栅极的使用,激活函数应具有短而光滑的负尾巴,而无关紧要的特征或受伤模型的特征可以适度抑制。对图像分类和增强自然语言微调的能力而没有任何额外预读的实验,对Imagenet和十二个语言的实验表明了GATE具有抑制作用的有效性。
translated by 谷歌翻译
神经切线核(NTK),定义为$ \ theta_ \ theta^f(x_1,x_2)= \ left [\ partial f(\ theta,x_1)\ big/\ big/\ partial \ partial \ theta \ theta \ the f(\ theta,x_2)\ big/\ partial \ theta \ right]^t $ where $ \ weft [\ partial f(\ theta,\ cdot)\ big/\ big/\ partial \ theta \ right] $是一个神经网络(nn)雅各布(Jacobian)已成为深度学习研究的核心研究对象。在无限宽度极限中,有时可以通过分析计算NTK,对于理解NN体系结构的训练和概括很有用。在有限的宽度下,NTK还用于更好地初始化NN,比较跨模型,执行体系结构搜索并进行元学习。不幸的是,众所周知,有限的宽度NTK计算昂贵,这严重限制了其实际实用程序。我们对有限宽度网络中NTK计算的计算和内存需求进行了第一个深入分析。利用神经网络的结构,我们进一步提出了两种新颖的算法,这些算法改变了有限宽度NTK的计算和内存要求的指数,从而极大地提高了效率。我们的算法可以以黑匣子方式应用于任何可区分功能,包括实现神经网络的功能。我们在https://github.com/google/neural-tangents的神经切线包(ARXIV:1912.02803)中开放我们的实现。
translated by 谷歌翻译
我们引入了重新定性,这是一种数据依赖性的重新聚集化,将贝叶斯神经网络(BNN)转化为后部的分布,其KL对BNN对BNN的差异随着层宽度的增长而消失。重新定义图直接作用于参数,其分析简单性补充了宽BNN在功能空间中宽BNN的已知神经网络过程(NNGP)行为。利用重新定性,我们开发了马尔可夫链蒙特卡洛(MCMC)后采样算法,该算法将BNN更快地混合在一起。这与MCMC在高维度上的表现差异很差。对于完全连接和残留网络,我们观察到有效样本量高达50倍。在各个宽度上都取得了改进,并在层宽度的重新培训和标准BNN之间的边缘。
translated by 谷歌翻译
语言模型既展示了定量的改进,又展示了新的定性功能,随着规模的增加。尽管它们具有潜在的变革性影响,但这些新能力的特征却很差。为了为未来的研究提供信息,为破坏性的新模型能力做准备,并改善社会有害的效果,至关重要的是,我们必须了解目前和近乎未来的能力和语言模型的局限性。为了应对这一挑战,我们介绍了超越模仿游戏基准(Big Bench)。 Big Bench目前由204个任务组成,由132家机构的442位作者贡献。任务主题是多样的,从语言学,儿童发展,数学,常识性推理,生物学,物理学,社会偏见,软件开发等等。 Big-Bench专注于被认为超出当前语言模型的功能的任务。我们评估了OpenAI的GPT型号,Google内部密集变压器体系结构和大型基础上的开关稀疏变压器的行为,跨越了数百万到数十亿个参数。此外,一个人类专家评估者团队执行了所有任务,以提供强大的基准。研究结果包括:模型性能和校准都随规模改善,但绝对的术语(以及与评估者的性能相比);在模型类中的性能非常相似,尽管带有稀疏性。逐渐和预测的任务通常涉及大量知识或记忆成分,而在临界规模上表现出“突破性”行为的任务通常涉及多个步骤或组成部分或脆性指标;社交偏见通常会随着含糊不清的环境而随着规模而增加,但这可以通过提示来改善。
translated by 谷歌翻译
卡雷利亚共和国的波罗的海语言的研究越来越重视是语料库语言学的方法和工具。自2016年以来,Karelian研究中心的语言学家,数学家和程序员一直在与VEPS和Karelian语言的开放语料库(VEPKAR)合作,这是2009年创建的VEPS Corpus的扩展。和VEP,与它们相关的多功能字典以及具有高级搜索系统的软件,使用各种文本(语言,流派等)和许多语言类别(在文本中实现了文本中的词汇和语法搜索,这要归功于Word的生成器我们之前创建的表单)。编译了3000个文本的语料库,上传和标记了文本,将文本分类为语言,方言,类型和流派的系统,并创建了单词形式的生成器。未来的计划包括开发用于使用音频记录的语音模块和使用形态分析输出的句法标记模块。由于语料库管理器和正在进行的VEPKAR的持续功能进步,并具有新的材料和文本标记,用户可以处理广泛的科学和应用任务。在创建全国性国家VEPKAR语料库时,其开发商和经理在19-21世纪努力保护和展示VEP和Karelian语言状态。
translated by 谷歌翻译
深度学习是高能物理学领域的标准工具,可促进许多分析策略的敏感性增强。特别是,在识别物理对象(例如喷气味标记)时,复杂的神经网络体系结构起着重要作用。但是,这些方法依赖于准确的模拟。不隔材料会导致需要测量和校准的数据的性能差异不可忽略。我们研究了对输入数据的分类器响应,并通过应用对抗性攻击来探测风味标记算法的脆弱性。随后,我们提出了一种对抗性训练策略,以减轻这种模拟攻击的影响并改善分类器的鲁棒性。我们研究了性能与脆弱性之间的关系,并表明该方法构成了一种有希望的方法,可以减少对差建模的脆弱性。
translated by 谷歌翻译
使用自然语言和基于语音的界面Gradu-ally转换消费者搜索,商店和表达他们的喜好。目前的工作探讨了与会话接口交互的语法结构的变化(命令与基于请求的表达方式)对消费者的主观任务享受产生负面影响,并系统地改变人类声音的客观声音特征。我们表明请求(与命令)导致语音融合和更低的语音延迟的折扣,最终是消费者的更自然的任务经验。据我们所知,这是第一份工作文件,可以改变消费者如何与智能对象系统地影响消费者的物联网体验的输入方式。我们提供了改变所需输入,以启动与智能对象的对话引发系统的改变,这两者都在消费者的主观经验和人类声音的客观语音变化。目前的研究还通过突出人类语音中的特征提取的未开发潜力作为一种在语音形成期间与消费者的声音特征联系起来的新型数据格式以及他们的子行程任务经验来进行方法暗示。
translated by 谷歌翻译
在视频中自动识别有害内容是一项重要的任务,具有广泛的应用程序。但是,缺乏可用的专业标签开放数据集。在这项工作中,介绍了由专业人士注释的电影预告片的3589个视频片段的开放数据集。对数据集进行了分析,从而揭示了剪辑和拖车级别注释之间的关系。视听模型在数据集上进行了培训,并对进行的建模选择进行了深入研究。结果表明,通过结合视觉和音频方式,大规模视频识别数据集的预训练以及类平衡采样来大大提高性能。最后,使用歧视探测研究了受过训练的模型的偏差。Vidharm公开可用,并提供更多详细信息,请访问:https://vidharm.github.io。
translated by 谷歌翻译