及时调整尝试更新预训练模型中的一些特定任务参数。它的性能与在语言理解和发电任务上的完整参数设置的微调相当。在这项工作中,我们研究了迅速调整神经文本检索器的问题。我们引入参数效率的及时调整,以调整跨内域,跨域和跨主题设置的文本检索。通过广泛的分析,我们表明该策略可以通过基于微调的检索方法来减轻两个问题 - 参数 - 信息和弱推广性。值得注意的是,它可以显着改善检索模型的零零弹性概括。通过仅更新模型参数的0.1%,及时调整策略可以帮助检索模型获得比所有参数更新的传统方法更好的概括性能。最后,为了促进回猎犬的跨主题概括性的研究,我们策划并发布了一个学术检索数据集,其中包含18K查询的87个主题,使其成为迄今为止特定于特定于主题的主题。
translated by 谷歌翻译
对抗性训练(AT)捍卫深层神经网络免受对抗攻击。限制其实际应用的一个挑战是对干净样品的性能降解。以前的作品确定的主要瓶颈是广泛使用的批准化(BN),它努力为AT中的清洁和对抗训练样本的不同统计数据建模。尽管主要的方法是扩展BN以捕获这种分布的混合物,但我们建议通过去除AT中的所有BN层来完全消除这种瓶颈。我们的无标准器稳健训练(NOFROST)方法将无标准器网络的最新进展扩展到了AT,因为它在处理混合分配挑战方面未开发优势。我们表明,Nofrost在干净的样品准确性上只有轻微的牺牲才能实现对抗性的鲁棒性。在具有RESNET50的Imagenet上,Nofrost可实现$ 74.06 \%$清洁精度,从标准培训中降低了$ 2.00 \%$。相比之下,基于BN的基于BN的$ 59.28 \%$清洁准确性,从标准培训中获得了$ 16.78 \%$的大幅下降。此外,Nofrost在PGD Attack上达到了23.56美元的$ 23.56 \%$的对抗性,这提高了基于BN AT的13.57美元\%$ $鲁棒性。我们观察到更好的模型平滑度和来自Nofrost的较大决策边缘,这使得模型对输入扰动的敏感程度降低,从而更加健壮。此外,当将更多的数据增强纳入NOFROST时,它可以针对多个分配变化实现全面的鲁棒性。代码和预训练的模型在https://github.com/amazon-research/normalizer-free-robust-training上公开。
translated by 谷歌翻译
多项式Lo​​git(MNL)是最受欢迎的离散选择模型之一,并且已被广泛用于建模排名数据。然而,从许多真实世界排名数据学习MNL的长期技术挑战:精确计算\ EMPH {部分排名}的MNL可能性。在这项工作中,我们开发一种可扩展方法,用于近似多项式时间复杂度中一般部分排名的MNL可能性。我们还扩展了学习MNL的混合的方法。我们证明所提出的方法对应用于选择的网络形成建模特别有帮助,其中网络中的新边缘的形成被视为在候选集中制作他们的朋友选择的个人。在这种应用中,从部分排名中学习MNL模型的混合的问题在这种应用中出现。所提出的方法可用于从网络数据学习MNL模型,而无需强烈假设所有边缘形成的时间顺序。我们对合成和真实世界网络数据进行实验,以证明所提出的方法实现了与传统方法相比更准确的参数估计和更好的数据适应性。
translated by 谷歌翻译
深层神经网络以其对各种机器学习和人工智能任务的精湛处理而闻名。但是,由于其过度参数化的黑盒性质,通常很难理解深层模型的预测结果。近年来,已经提出了许多解释工具来解释或揭示模型如何做出决策。在本文中,我们回顾了这一研究,并尝试进行全面的调查。具体来说,我们首先介绍并阐明了人们通常会感到困惑的两个基本概念 - 解释和解释性。为了解决解释中的研究工作,我们通过提出新的分类法来阐述许多解释算法的设计。然后,为了了解解释结果,我们还调查了评估解释算法的性能指标。此外,我们总结了使用“可信赖”解释算法评估模型的解释性的当前工作。最后,我们审查并讨论了深层模型的解释与其他因素之间的联系,例如对抗性鲁棒性和从解释中学习,并介绍了一些开源库,以解释算法和评估方法。
translated by 谷歌翻译
卷积神经网络(CNN)由于其强大的特征提取和分类功能而广泛用于机械系统的故障诊断。但是,CNN是一个典型的黑盒模型,CNN决策的机制尚不清楚,这限制了其在高可授权要求的故障诊断方案中的应用。为了解决这个问题,我们提出了一个新颖的可解释的神经网络,称为时频网(TFN),其中物理上有意义的时频变换(TFT)方法被嵌入传统的卷积层中,作为自适应预处理层。这个称为时频卷积(TFCONV)层的预处理层受到精心设计的内核函数的约束,以提取与故障相关的时间频率信息。它不仅改善了诊断性能,而且还揭示了频域中CNN预测的逻辑基础。不同的TFT方法对应于TFCONV层的不同内核函数。在这项研究中,考虑了四种典型的TFT方法来制定TFN,并且通过三个机械故障诊断实验证明了它们的有效性和解释性。实验结果还表明,所提出的TFCONV层可以很容易地推广到具有不同深度的其他CNN。 TFN的代码可在https://github.com/chenqian0618/tfn上获得。
translated by 谷歌翻译
比较神经网络模型的功能行为,无论是在培训期间还是在培训期间或培训期间它是一个单个网络(或者是一个网络),这是理解他们正在学习的内容(以及他们不是什么)的重要步骤确定正规化或提高效率的策略。尽管最近的进展,例如,将视觉变压器与CNN进行比较,但功能的系统比较,尤其是在不同的网络中,仍然很困难,并且通常是按一层进行的。诸如规范相关分析(CCA)之类的方法原则上适用,但到目前为止已很少使用。在本文中,我们从统计数据(及其部分变体)中重新审视A(鲜为人知的),旨在评估不同维度的特征空间之间的相关性。我们描述了进行大规模模型进行部署所需的步骤 - 这为令人惊讶的应用程序打开了大门,从调理一个深层模型W.R.T.另一个,学习分解了表示形式,并优化了直接对对抗性攻击更强大的不同模型。我们的实验表明,具有许多优势的多功能正规化程序(或约束),避免了此类分析中人们面临的一些常见困难。代码在https://github.com/zhenxingjian/partial_distance_correlation。
translated by 谷歌翻译
尽管更多的层和更多的参数通常提高了模型的准确性,但是这样的大型模型通常具有较高的计算复杂性,并且需要大记忆,这超过了小型设备进行推理的容量,并且会产生长时间的训练时间。此外,即使在高性能服务器中,也很难负担长期训练时间和大型模型的推理时间。作为将大型深层模型(教师模型)压缩为紧凑模型(学生模型)的有效方法,知识蒸馏是一种与大型模型打交道的有前途的方法。现有的知识蒸馏方法无法利用可用的弹性计算资源,并对应于低效率。在本文中,我们提出了一个用于知识蒸馏的弹性深度学习框架,即EDL-DIST。 EDL-DIST的优势是三倍。首先,推论和训练过程是分开的。其次,可以利用弹性可用的计算资源来提高效率。第三,支持训练和推理过程的故障耐受性。我们进行了广泛的实验,以表明EDL-DIST的吞吐量比基线方法(在线知识蒸馏)快3.125倍,而精度相似或更高。
translated by 谷歌翻译
从传统上讲,地球系统(例如天气和气候)的预测依赖于具有复杂物理模型的数值模拟,因此在计算中既昂贵又对领域专业知识的需求既昂贵。在过去十年中时空地球观察数据的爆炸性增长中,应用深度学习(DL)的数据驱动模型表明了各种地球系统预测任务的潜力。尽管在其他领域取得了广泛的成功,但作为新兴DL架构的变压器在该领域的采用量有限。在本文中,我们提出了Earthformer,这是一种用于地球系统预测的时空变压器。 Earthformer基于一个通用,灵活和有效的时空注意块,名为Cuboid的注意力。这个想法是将数据分解为立方体,并平行应用立方体级别的自我注意力。这些立方体与全球矢量的集合进一步相关。我们对MovingMnist数据集和新提出的混沌N体MNIST数据集进行了实验,以验证Cuboid注意的有效性,并找出地球形式的最佳设计。关于降水现象和El Nino/Southern振荡(ENSO)预测的两个现实基准测试的实验表明,Earthformer实现了最新的性能。
translated by 谷歌翻译
大规模预训练的语言模型的出现为自然语言处理的最新进展做出了巨大贡献。许多最先进的语言模型首先在大型文本语料库上进行培训,然后在下游任务上进行微调。尽管它最近获得了成功和广泛的采用,但对预训练的语言模型的微调通常会遭受过度拟合,这会导致由于模型的复杂性极高的复杂性和下游任务的有限培训样本而导致的普遍性差。为了解决这个问题,我们提出了一个新颖有效的微调框架,称为Layerwise噪声稳定性正则化(LNSR)。具体而言,我们建议注入标准的高斯噪声或势内噪声,并将微调模型的隐藏表示形式定向。我们首先提供理论分析以支持我们方法的功效。然后,我们证明了所提出的方法的优势,而不是其他最先进的算法,包括L2-SP,MixOut和Smart。尽管这些先前的作品仅验证其方法对相对简单的文本分类任务的有效性,但我们还验证了方法对问题答案任务的有效性,而目标问题更加困难,并且可以使用更多的培训示例。此外,广泛的实验结果表明,所提出的算法不仅可以提高语言模型的内域性能,而且还可以改善域外数据的域概括性能。
translated by 谷歌翻译
联合学习(FL)是一种机器学习技术,它使参与者能够在不交换私人数据的情况下协作培训高质量的模型。利用跨索洛FL(CS-FL)设置的参与者是具有不同任务需求的独立组织,他们不仅关心数据隐私,而且由于知识产权的考虑而独立培训其独特的模型。大多数现有的FL方法无法满足上述方案。在本文中,我们提出了一种基于未标记数据的伪标记的FL方法,该方法是通过诸如辅助的过程。据我们所知,这是第一种与异质任务,异质模型和异质培训算法同时兼容的第一种FL方法。实验结果表明,所提出的方法比竞争能力更好。对于非独立和相同分布的(IID)设置和异质模型而言,尤其如此,其中提出的方法可实现35%的性能提高。
translated by 谷歌翻译