The ability to jointly learn from multiple modalities, such as text, audio, and visual data, is a defining feature of intelligent systems. While there have been promising advances in designing neural networks to harness multimodal data, the enormous success of data augmentation currently remains limited to single-modality tasks like image classification. Indeed, it is particularly difficult to augment each modality while preserving the overall semantic structure of the data; for example, a caption may no longer be a good description of an image after standard augmentations have been applied, such as translation. Moreover, it is challenging to specify reasonable transformations that are not tailored to a particular modality. In this paper, we introduce LeMDA, Learning Multimodal Data Augmentation, an easy-to-use method that automatically learns to jointly augment multimodal data in feature space, with no constraints on the identities of the modalities or the relationship between modalities. We show that LeMDA can (1) profoundly improve the performance of multimodal deep learning architectures, (2) apply to combinations of modalities that have not been previously considered, and (3) achieve state-of-the-art results on a wide range of applications comprised of image, text, and tabular data.
translated by 谷歌翻译
Pre-trained large language models can efficiently interpolate human-written prompts in a natural way. Multitask prompted learning can help generalization through a diverse set of tasks at once, thus enhancing the potential for more effective downstream fine-tuning. To perform efficient multitask-inference in the same batch, parameter-efficient fine-tuning methods such as prompt tuning have been proposed. However, the existing prompt tuning methods may lack generalization. We propose SPT, a semi-parametric prompt tuning method for multitask prompted learning. The novel component of SPT is a memory bank from where memory prompts are retrieved based on discrete prompts. Extensive experiments, such as (i) fine-tuning a full language model with SPT on 31 different tasks from 8 different domains and evaluating zero-shot generalization on 9 heldout datasets under 5 NLP task categories and (ii) pretraining SPT on the GLUE datasets and evaluating fine-tuning on the SuperGLUE datasets, demonstrate effectiveness of SPT.
translated by 谷歌翻译
The mixture of Expert (MoE) parallelism is a recent advancement that scales up the model size with constant computational cost. MoE selects different sets of parameters (i.e., experts) for each incoming token, resulting in a sparsely-activated model. Despite several successful applications of MoE, its training efficiency degrades significantly as the number of experts increases. The routing stage in MoE relies on the efficiency of the All2All communication collective, which suffers from network congestion and has poor scalability. To mitigate these issues, we introduce SMILE, which exploits heterogeneous network bandwidth and splits a single-step routing into bi-level routing. Our experimental results show that the proposed method obtains a 2.5x speedup over Switch Transformer in terms of pretraining throughput on the Colossal Clean Crawled Corpus without losing any convergence speed.
translated by 谷歌翻译
现有的分布(OOD)检测方法通常在具有平衡的类别分布的培训集中进行基准测试。但是,在实际应用程序中,培训集具有长尾分配是很常见的。在这项工作中,我们首先证明现有的OOD检测方法通常会在训练集分布式分布时遭受重大性能降解。通过分析,我们认为这是因为模型难以区分少数尾巴级分配样本与真实的OOD样本,从而使尾巴类更容易被错误地检测为OOD。为了解决这个问题,我们提出了部分和不对称的监督对比学习(PASCL),该学习明确鼓励该模型区分尾级分配样本和OOD样品。为了进一步提高分布分类的准确性,我们提出了辅助分支列式,该辅助分支列出了BN的两个单独分支和分类层分别用于异常检测和分布分类。直觉是,分布和OOD异常数据具有不同的基础分布。我们的方法的表现优于先前的最新方法$ 1.29 \%$,$ 1.45 \%$,$ 0.69 \%$ $ $ $ $ $ $异常检测误报(FPR)和$ 3.24 \%\%$,$ 4.06 \%$,$ 7.89 \%$ $ CIFAR10-LT,CIFAR100-LT和IMAGENET-LT的分布分类精度。代码和预培训模型可在https://github.com/amazon-research/long-tailed-ood-detection上找到。
translated by 谷歌翻译
对抗性训练(AT)捍卫深层神经网络免受对抗攻击。限制其实际应用的一个挑战是对干净样品的性能降解。以前的作品确定的主要瓶颈是广泛使用的批准化(BN),它努力为AT中的清洁和对抗训练样本的不同统计数据建模。尽管主要的方法是扩展BN以捕获这种分布的混合物,但我们建议通过去除AT中的所有BN层来完全消除这种瓶颈。我们的无标准器稳健训练(NOFROST)方法将无标准器网络的最新进展扩展到了AT,因为它在处理混合分配挑战方面未开发优势。我们表明,Nofrost在干净的样品准确性上只有轻微的牺牲才能实现对抗性的鲁棒性。在具有RESNET50的Imagenet上,Nofrost可实现$ 74.06 \%$清洁精度,从标准培训中降低了$ 2.00 \%$。相比之下,基于BN的基于BN的$ 59.28 \%$清洁准确性,从标准培训中获得了$ 16.78 \%$的大幅下降。此外,Nofrost在PGD Attack上达到了23.56美元的$ 23.56 \%$的对抗性,这提高了基于BN AT的13.57美元\%$ $鲁棒性。我们观察到更好的模型平滑度和来自Nofrost的较大决策边缘,这使得模型对输入扰动的敏感程度降低,从而更加健壮。此外,当将更多的数据增强纳入NOFROST时,它可以针对多个分配变化实现全面的鲁棒性。代码和预训练的模型在https://github.com/amazon-research/normalizer-free-robust-training上公开。
translated by 谷歌翻译
数据增强是提高深度学习数据效率的必要条件。对于视觉预训练,仅在以前的作品中为图像或文本增强数据。在本文中,我们介绍了Mixgen:视觉表示的联合数据增强学习,以进一步提高数据效率。它生成了新的图像文本对,并通过插值图像和串联文本保留了语义关系。它很简单,可以插入现有管道中。我们在五个下游视觉语言任务中评估了四个架构,包括夹子,vilt,albef和tcl在内的混合带,以显示其多功能性和有效性。例如,在ALBEF预训练中添加Mixgen会导致下游任务的绝对性能改进:图像文本检索(可可微型调整为+6.2%,Flicker30k零射击),视觉接地(+0.9%)(+0.9%) refcoco+),视觉推理(nlvr $^{2} $的+0.9%),视觉询问答案(vqa2.0上的+0.3%)和视觉效果(snli-ve上的+0.4%)。
translated by 谷歌翻译
事实证明,超复杂的神经网络可以减少参数的总数,同时通过利用Clifford代数的特性来确保有价值的性能。最近,通过涉及有效的参数化kronecker产品,超复合线性层得到了进一步改善。在本文中,我们定义了超复杂卷积层的参数化,并介绍了轻巧有效的大型大型模型的参数化超复杂神经网络(PHNN)。我们的方法直接从数据中掌握了卷积规则和过滤器组织,而无需遵循严格的预定义域结构。 Phnns可以灵活地在任何用户定义或调谐域中操作,无论代数规则是否是预设的,从1D到$ n $ d。这样的锻造性允许在其自然域中处理多维输入,而无需吞并进一步的尺寸,而是在Quaternion神经网络中使用3D输入(例如颜色图像)。结果,拟议中的Phnn家族以$ 1/n $的参数运行,因为其在真实域中的类似物。我们通过在各种图像数据集上执行实验以及音频数据集证明了这种方法对应用程序多个域的多功能性,在这些实验中,我们的方法的表现优于真实和Quaternion值值。完整代码可在以下网址获得:https://github.com/elegan23/hypernets。
translated by 谷歌翻译
这本开源书代表了我们试图使深度学习的尝试,教读者的概念,上下文和代码。整本书都在jupyter笔记本上起草,无缝将博览会图,数学和交互式示例与独立代码相结合。我们的目标是提供一个可以(i)可以免费提供的资源;(ii)提供了足够的技术深度,以提供真正成为应用机器学习科学家的道路的起点;(iii)包括可运行的代码,向读者展示如何解决实践中的问题;(iv)允许我们和整个社区进行快速更新;(v)通过论坛进行补充,以互动讨论技术细节并回答问题。
translated by 谷歌翻译
近年来,文本的风格特性吸引了计算语言学研究人员。具体来说,研究人员研究了文本样式转移(TST)任务,该任务旨在在保留其样式独立内容的同时改变文本的风格属性。在过去的几年中,已经开发了许多新颖的TST算法,而该行业利用这些算法来实现令人兴奋的TST应用程序。由于这种共生,TST研究领域迅速发展。本文旨在对有关文本样式转移的最新研究工作进行全面审查。更具体地说,我们创建了一种分类法来组织TST模型,并提供有关最新技术状况的全面摘要。我们回顾了针对TST任务的现有评估方法,并进行了大规模的可重复性研究,我们在两个公开可用的数据集上实验基准了19个最先进的TST TST算法。最后,我们扩展了当前趋势,并就TST领域的新开发发展提供了新的观点。
translated by 谷歌翻译
预处理的基于变压器的语言模型(LMS)显示出显着的自然语言生成能力。凭借其巨大的潜力,控制这种LM的文本生成引起了人们的关注。尽管有一些研究试图控制生成的文本的高级属性(例如情感和主题),但仍然缺乏对其在单词和短语级别上的内容的更精确的控制。在这里,我们建议内容调节器(COCON)以细粒度的水平控制LM的输出文本。在我们的自我监督方法中,Cocon Block学会了通过调节从LM中扣留的内容输入来帮助LM完成部分观察到的文本序列。通过实验,我们表明Cocon可以自然地将目标内容纳入生成的文本中,并以零拍的方式控制高级文本属性。
translated by 谷歌翻译