NLP应用于代码混合(cm)或混合文本的主要势头最近,主要原因是印度,墨西哥,欧洲,美国欧洲地区的多语素社会中的社交媒体通信中语言混合的普遍性。Word Embeddings是今天任何NLP系统的基本构建块,但嵌入CM语言的单词是一个未开发的领域。CM Word Embeddings的主要瓶颈是语言交换机的切换点。由于在所见示例中的高方差,这些位置缺乏在上下文和统计系统中未能模拟这种现象。在本文中,我们介绍了我们对应用基于切换点的位置编码技术进行CM语言的初步观察,特别是HINGISH(HINDI - 英语)。结果仅比SOTA更长,但很明显,位置编码可以为CM文本培训定位敏感语言模型的有效方法。
translated by 谷歌翻译
多文件摘要中的一个关键挑战是捕获区分单个文档摘要(SDS)和多文件摘要(MDS)的输入文档之间的关系。现有的MDS工作很少解决此问题。一种有效的方法是编码文档位置信息,以帮助模型捕获跨文档关系。但是,现有的MDS模型(例如基于变压器的模型)仅考虑令牌级的位置信息。此外,这些模型无法捕获句子的语言结构,这不可避免地会引起生成的摘要中的混乱。因此,在本文中,我们提出了可以与MDS的变压器体系结构融合的文档意识到的位置编码和语言引导的编码。对于文档感知的位置编码,我们引入了一项通用协议,以指导文档编码功能的选择。对于语言引导的编码,我们建议使用简单但有效的非线性编码学习者进行特征学习,将句法依赖关系嵌入依赖关系掩码中。广泛的实验表明,所提出的模型可以生成高质量的摘要。
translated by 谷歌翻译
训练有素的语言模型在各种自然语言理解(NLU)任务中取得了巨大的成功,因为它通过在大型语料库上进行预培训来捕获文本中的深层语境化信息。在本技术报告中,我们介绍了我们在中国语料库和中国NLU任务的中国语料库和Fineetuning的培训前培训语言模型的实践。 Nezha的当前版本基于BERT,具有经过验证的改进的集合,包括功能相对位置编码,作为有效的位置编码方案,整个单词掩蔽策略,混合精密训练和羔羊优化器在训练模型中。实验结果表明,尼扎在若干代表性的中国任务上实现了最先进的表演,包括命名实体识别(人民每日NER),句子匹配(LCQMC),中国情绪分类(CHNSENTI)和自然语言推断(xnli)。
translated by 谷歌翻译
变压器模型是置换等分之一的。要提供输入令牌的顺序和类型信息,通常将位置和段嵌入式添加到输入中。最近的作品提出了具有相对位置编码的位置编码的变化,实现了更好的性能。我们的分析表明,增益实际上来自从输入中将位置信息移动到注意层。由此激励,我们介绍了变压器(饮食)的解耦的位置注意,一个简单但有效的机制,将位置和分段信息编码为变压器模型。该方法具有更快的培训和推理时间,同时在胶水,Xtreme和WMT基准上实现竞争性能。我们进一步概括了我们的方法到远程变压器并显示性能增益。
translated by 谷歌翻译
Following the success of the transformer architecture in the natural language domain, transformer-like architectures have been widely applied to the domain of symbolic music recently. Symbolic music and text, however, are two different modalities. Symbolic music contains multiple attributes, both absolute attributes (e.g., pitch) and relative attributes (e.g., pitch interval). These relative attributes shape human perception of musical motifs. These important relative attributes, however, are mostly ignored in existing symbolic music modeling methods with the main reason being the lack of a musically-meaningful embedding space where both the absolute and relative embeddings of the symbolic music tokens can be efficiently represented. In this paper, we propose the Fundamental Music Embedding (FME) for symbolic music based on a bias-adjusted sinusoidal encoding within which both the absolute and the relative attributes can be embedded and the fundamental musical properties (e.g., translational invariance) are explicitly preserved. Taking advantage of the proposed FME, we further propose a novel attention mechanism based on the relative index, pitch and onset embeddings (RIPO attention) such that the musical domain knowledge can be fully utilized for symbolic music modeling. Experiment results show that our proposed model: RIPO transformer which utilizes FME and RIPO attention outperforms the state-of-the-art transformers (i.e., music transformer, linear transformer) in a melody completion task. Moreover, using the RIPO transformer in a downstream music generation task, we notice that the notorious degeneration phenomenon no longer exists and the music generated by the RIPO transformer outperforms the music generated by state-of-the-art transformer models in both subjective and objective evaluations.
translated by 谷歌翻译
变形金机对文本建模很重要。但是,由于输入文本长度的二次复杂性,它难以处理长文件。为了处理这个问题,我们提出了一种分层交互式变压器(高变压器),用于高效且有效的长文档建模。高变压器模型以分层方式模型,即首先了解句子表示,然后学习文档表示。它可以有效地降低复杂性,同时在每个句子的建模中捕获全局文档上下文。更具体地说,我们首先使用句子变压器来学习每个句子的表示。然后我们使用文档变形器从这些句子表示中模拟全局文档上下文。接下来,我们使用另一个句子变换器来使用全局文档上下文增强句子建模。最后,我们使用分层汇集方法获取文档嵌入。三个基准数据集的广泛实验验证了长文档建模中高变压器的效率和效力。
translated by 谷歌翻译
Causal transformer language models (LMs), such as GPT-3, typically require some form of positional encoding, such as positional embeddings. However, we show that LMs without any explicit positional encoding are still competitive with standard models, and that this phenomenon is robust across different datasets, model sizes, and sequence lengths. Probing experiments reveal that such models acquire an implicit notion of absolute positions throughout the network, effectively compensating for the missing information. We conjecture that causal attention enables the model to infer the number of predecessors that each token can attend to, thereby approximating its absolute position. Our findings indicate that causal LMs might derive positional awareness not only from the explicit positioning mechanism, but also from the effects of the causal mask.
translated by 谷歌翻译
注意力机制是秩序不变的。位置编码是一个重要组成部分,以允许基于关注的深层模型架构,例如变压器来解决信息问题的序列或图像。在本文中,我们提出了一种基于学习傅里叶特征的新型位置编码方法。而不是将每个位置硬编码为令牌或向量,而是表示可以是多维的每个位置,作为基于被动傅里叶特征映射的可训练编码,用多层的傅立刻调制。表示对于空间多维位置,例如,在图像上的像素位置,其中需要捕获$ L_2 $距离或更复杂的位置关系。我们基于几个公共基准任务的实验表明,我们的学习傅里叶特征表示,用于多维位置编码的多维位置编码通过提高准确度并允许更快的收敛来实现现有方法。
translated by 谷歌翻译
最近编码的位置已显示在变压器体系结构中有效。它为序列不同位置的元素之间的依赖性建模提供了宝贵的监督。在本文中,我们首先研究了各种方法,以将位置信息整合到基于变压器的语言模型的学习过程中。然后,我们提出了一种名为旋转位置嵌入(绳索)的新颖方法,以有效利用位置信息。具体而言,提议的绳索用旋转矩阵编码绝对位置,同时将显式相对位置依赖性在自我发项公式中。值得注意的是,绳索具有宝贵的特性,包括序列长度的灵活性,衰减的相互依赖性随着相对距离的增加以及将线性自我注意力配备相对位置编码的能力。最后,我们在各种长文本分类基准数据集上使用旋转位置嵌入(也称为Roformer)评估增强的变压器。我们的实验表明,它始终如一地克服了其替代方案。此外,我们提供了理论分析来解释一些实验结果。 Roformer已经集成到HuggingFace:\ url {https://huggingface.co/docs/transformers/model_doc/roformer}。
translated by 谷歌翻译
大规模的农作物类型分类是遥感工作的核心,具有经济和生态重要性的应用。当前的最新深度学习方法基于自我注意事项,并使用卫星图像时间序列(SITS)根据其独特的生长模式来区分作物类型。但是,现有方法概括地概括了训练期间未见的区域,这主要是因为由于气候变化而导致生长季节的时间变化不健全。为此,我们建议针对基于注意的农作物分类器的热位置编码(TPE)。与以前的位置编码基于日历时间(例如年度)不同,TPE是基于热时间,这是通过在整个生长季节积累每日平均温度来获得的。由于农作物的生长与热时间直接相关,但与日历时间无关,因此TPE解决了不同区域之间的时间变化以改善概括。我们提出了多种TPE策略,包括可学习的方法,以进一步改善与常见的固定位置编码相比。我们证明了我们在四个不同欧洲地区的农作物分类任务上的方法,在那里我们获得了最新的概括结果。
translated by 谷歌翻译
技术的最新进步导致了社交媒体使用的提高,这最终导致了大量的用户生成的数据,这也包括可恨和令人反感的演讲。社交媒体中使用的语言通常是该地区英语和母语的结合。在印度,印地语主要用于使用英语,并经常用英语进行代码开关,从而产生了hinglish(印地语+英语)语言。过去,已经采用了各种方法,以使用不同的机器学习和深度学习技术对混合代码的Hinglish仇恨言论进行分类。但是,这些技术利用了在计算上昂贵且具有高内存要求的卷积机制的复发。过去的技术还可以利用复杂的数据处理,使现有技术非常复杂且不可持续以更改数据。我们提出了一种更简单的方法,不仅与这些复杂的网络相当,而且还超出了子词令牌化算法(如BPE和Umigram)以及基于多头的注意技术的性能,准确性为87.41%,而F1得分为87.41%和F1得分。标准数据集上的0.851。有效地利用BPE和UMIGRAM算法有助于处理非惯性的Hinglish词汇,从而使我们的技术简单,高效且可持续,可在现实世界中使用。
translated by 谷歌翻译
Position modeling plays a critical role in Transformers. In this paper, we focus on length extrapolation, i.e., training on short texts while evaluating longer sequences. We define attention resolution as an indicator of extrapolation. Then we propose two designs to improve the above metric of Transformers. Specifically, we introduce a relative position embedding to explicitly maximize attention resolution. Moreover, we use blockwise causal attention during inference for better resolution. We evaluate different Transformer variants with language modeling. Experimental results show that our model achieves strong performance in both interpolation and extrapolation settings. The code will be available at https://aka.ms/LeX-Transformer.
translated by 谷歌翻译
Human language is often multimodal, which comprehends a mixture of natural language, facial gestures, and acoustic behaviors. However, two major challenges in modeling such multimodal human language time-series data exist: 1) inherent data non-alignment due to variable sampling rates for the sequences from each modality; and 2) long-range dependencies between elements across modalities. In this paper, we introduce the Multimodal Transformer (MulT) to generically address the above issues in an end-to-end manner without explicitly aligning the data. At the heart of our model is the directional pairwise crossmodal attention, which attends to interactions between multimodal sequences across distinct time steps and latently adapt streams from one modality to another. Comprehensive experiments on both aligned and non-aligned multimodal time-series show that our model outperforms state-of-the-art methods by a large margin. In addition, empirical analysis suggests that correlated crossmodal signals are able to be captured by the proposed crossmodal attention mechanism in MulT.
translated by 谷歌翻译
文本情绪分析(也称为意见挖掘)是对实体表达的人们观点,评估,态度和情感的计算的研究。文本情绪分析可以分为文本级别的情感分析,森林级别的情感分析和方面级别的情感分析。基于方面的情感分析(ABSA)是情感分析领域中的精细任务,该任务旨在预测各个方面的极性。训练前神经模型的研究显着改善了许多自然语言处理任务的性能。近年来,培训模型(PTM)已在ABSA中应用。因此,有一个问题,即PTM是否包含ABSA的足够的句法信息。在本文中,我们探讨了最近的Deberta模型(解码增强的BERT,并引起注意),以解决基于方面的情感分析问题。 Deberta是一种基于Transformer的神经语言模型,它使用自我监督的学习来预先培训大量原始文本语料库。基于局部环境重点(LCF)机制,通过整合Deberta模型,我们为基于方面的情感分析的多任务学习模型。该实验导致了Semeval-2014最常用的笔记本电脑和餐厅数据集,而ACL Twitter数据集则表明,具有Deberta的LCF机制具有显着改善。
translated by 谷歌翻译
目前,用于训练语言模型的最广泛的神经网络架构是所谓的BERT,导致各种自然语言处理(NLP)任务的改进。通常,BERT模型中的参数的数量越大,这些NLP任务中获得的结果越好。不幸的是,内存消耗和训练持续时间随着这些模型的大小而大大增加。在本文中,我们调查了较小的BERT模型的各种训练技术:我们将不同的方法与Albert,Roberta和相对位置编码等其他BERT变体相结合。此外,我们提出了两个新的微调修改,导致更好的性能:类开始终端标记和修改形式的线性链条条件随机字段。此外,我们介绍了整个词的注意力,从而降低了伯特存储器的使用,并导致性能的小幅增加,与古典的多重关注相比。我们评估了这些技术的五个公共德国命名实体识别(NER)任务,其中两条由这篇文章引入了两项任务。
translated by 谷歌翻译
位置编码对于视觉变压器(VIT)捕获输入图像的空间结构很重要。一般疗效已在VIT中得到证明。在我们的工作中,我们建议训练VIT以识别输入图像贴片的2D位置编码,这项显然简单的任务实际上产生了有意义的自我研究任务。基于对VIT位置编码的先前工作,我们提出了两个专用于2D图像的位置标签,包括绝对位置和相对位置。我们的位置标签可以轻松地插入变压器中,并结合各种当前VIT变体。它可以通过两种方式工作:1。作为Vanilla Vit(例如VIT-B和SWIN-B)的辅助培训目标,以提高模型性能。 2.结合自我监督的vit(例如,MAE),为语义特征学习提供了更强大的自我监督信号。实验表明,仅由于提出的自我监督方法,Swin-B和Vit-B分别在Mini-Imagenet上获得了1.9%(TOP-1 ACC)和5.6%(TOP-1 ACC)的改善。
translated by 谷歌翻译
命名实体识别(ner)是一种信息提取技术,其旨在在文档中定位和分类为预定义类别的文档中的命名实体(例如,组织,位置,......)。正确识别这些短语在简化信息访问方面发挥着重要作用。但是,它仍然是一项艰巨的任务,因为命名实体(NES)具有多种形式,它们是上下文相关的。虽然上下文可以通过上下文特征来表示,但是这些模型通常误解了全局关系。在本文中,我们提出了从图形卷积网络(GCN)的XLNET和全局特征的上下文特征的组合来增强NER性能。在一个广泛使用的数据集,2003年的实验,展示了我们战略的好处,结果与现有技术(SOTA)竞争。
translated by 谷歌翻译
大多数中国预训练的模型都采用字符作为下游任务的基本单元。但是,这些模型忽略了单词传递的信息,从而导致某些重要语义的丧失。在本文中,我们提出了一种新方法来利用单词结构并将词汇语义集成到预训练模型的特征表示中。具体而言,我们根据相似度的重量将单词嵌入其内部字符的嵌入中。为了加强边界信息一词,我们将一个单词中内部字符的表示形式混合在一起。之后,我们将单词到字符对准注意机制通过掩盖不重要的角色来强调重要角色。此外,为了减少单词分割引起的误差传播,我们提出了一种合奏方法,以结合不同的标记者给出的分割结果。实验结果表明,我们的方法在不同的中文NLP任务上取得了优于基本预训练的模型Bert,Bert-WWM和Ernie:情感分类,句子对匹配,自然语言推断和机器阅读理解。我们进行进一步的分析以证明我们模型每个组成部分的有效性。
translated by 谷歌翻译
Directly training a document-to-document (Doc2Doc) neural machine translation (NMT) via Transformer from scratch, especially on small datasets usually fails to converge. Our dedicated probing tasks show that 1) both the absolute position and relative position information gets gradually weakened or even vanished once it reaches the upper encoder layers, and 2) the vanishing of absolute position information in encoder output causes the training failure of Doc2Doc NMT. To alleviate this problem, we propose a position-aware Transformer (P-Transformer) to enhance both the absolute and relative position information in both self-attention and cross-attention. Specifically, we integrate absolute positional information, i.e., position embeddings, into the query-key pairs both in self-attention and cross-attention through a simple yet effective addition operation. Moreover, we also integrate relative position encoding in self-attention. The proposed P-Transformer utilizes sinusoidal position encoding and does not require any task-specified position embedding, segment embedding, or attention mechanism. Through the above methods, we build a Doc2Doc NMT model with P-Transformer, which ingests the source document and completely generates the target document in a sequence-to-sequence (seq2seq) way. In addition, P-Transformer can be applied to seq2seq-based document-to-sentence (Doc2Sent) and sentence-to-sentence (Sent2Sent) translation. Extensive experimental results of Doc2Doc NMT show that P-Transformer significantly outperforms strong baselines on widely-used 9 document-level datasets in 7 language pairs, covering small-, middle-, and large-scales, and achieves a new state-of-the-art. Experimentation on discourse phenomena shows that our Doc2Doc NMT models improve the translation quality in both BLEU and discourse coherence. We make our code available on Github.
translated by 谷歌翻译
神经机翻译模型假设可以通过自动关注网络从双语语料库中学到语法知识。但是,在弱监管中训练的注意网络实际上无法捕获句子的深层结构。当然,我们希望引入外部语法知识来指导注意力学习网络。因此,我们提出了一种新颖的,无参数依赖性缩放的自我关注网络,其将明确的句法依赖关系集成到注意网络中以驱逐注意力分布的分散。最后,提出了两种知识稀疏技术,以防止模型过度禁止嘈杂的句法依赖性。对IWSLT14德语和WMT16德语翻译任务的实验和广泛分析验证了我们方法的有效性。
translated by 谷歌翻译