Language use changes over time, and this impacts the effectiveness of NLP systems. This phenomenon is even more prevalent in social media data during crisis events where meaning and frequency of word usage may change over the course of days. Contextual language models fail to adapt temporally, emphasizing the need for temporal adaptation in models which need to be deployed over an extended period of time. While existing approaches consider data spanning large periods of time (from years to decades), shorter time spans are critical for crisis data. We quantify temporal degradation for this scenario and propose methods to cope with performance loss by leveraging techniques from domain adaptation. To the best of our knowledge, this is the first effort to explore effects of rapid language change driven by adversarial adaptations, particularly during natural and human-induced disasters. Through extensive experimentation on diverse crisis datasets, we analyze under what conditions our approaches outperform strong baselines while highlighting the current limitations of temporal adaptation methods in scenarios where access to unlabeled data is scarce.
translated by 谷歌翻译
当NLP模型从一个时间段进行文本数据培训并从另一个时间进行测试或部署或部署时,产生的时间未对准可能会降低结束任务性能。在这项工作中,我们在不同域名(社交媒体,科学论文,新闻和评论和评论)和时间(跨越五年或更长时间)的时间内建立了八个不同的任务套件,以量化时间未对准的影响。我们的研究专注于普遍存在的环境,其中佩戴的模型可选择通过持续的域特异性预测来改编,然后是特定于任务的FineTuning。我们在多个域中建立了一套任务,以研究现代NLP系统中的时间错位。我们发现对任务性能的时间不对准而不是先前报告的更强烈影响。我们还发现,虽然通过续预先训练的时间适应可以帮助,但与目标时间段中的数据上的任务特定的FineTuning相比,这些收益很小。我们的研究结果激励了提高NLP模型的时间稳健性的持续研究。
translated by 谷歌翻译
在文本分类模型由于数据变化而随着时间的变化而下降的情况下,其持续时间持续时间的模型的开发很重要。预测模型随着时间的推移能力的能力可以帮助设计模型,这些模型可以在更长的时间内有效使用。在本文中,我们通过评估各种语言模型和分类算法随着时间的推移持续存在的能力,以及数据集特性如何帮助预测不同模型的时间稳定性,从而研究了这个问题。我们在跨越6到19年的三个数据集上执行纵向分类实验,并涉及各种任务和类型的数据。我们发现,人们可以根据(i)模型在限制时间段内的性能及其外推到更长的时间段,以及(ii)数据集的语言特征,以及(ii)数据集的语言特征,如何估算模型如何在时间上保持其性能。例如不同年份的子集之间的熟悉程度。这些实验的发现对文本分类模型的设计具有重要意义,目的是保留随着时间的推移性能。
translated by 谷歌翻译
随着时间的推移,保持语言技术的性能是很好的实际兴趣。在这里,我们在涉及系统性能的时间效果,建立更细微的术语,用于讨论该主题和适当的实验设计,以支持有关观察到的现象的效果的调查。我们提出了一系列与由大型神经预磨削表示的系统进行用于英语的系统,证明{\ EM时间模型恶化}并不像较大的关注,有一些模型实际上在从稍后的时间段绘制的数据上进行测试时改善。然而,{\ EM时间域自适应}是有益的,当系统在时间上训练时,可以更好地进行给定时间段的性能更好。我们的实验表明,在预磨削表示时,时间模型劣化和时间域适应之间的区别变得突出。最后,我们研究了两种方法对时间域适应的效果,没有人为的新数据的注释,自我标签证明是优于持续的预训练。值得注意的是,对于命名实体识别,自我标签导致比人类注释更好的时间适应。
translated by 谷歌翻译
社交媒体数据已成为有关现实世界危机事件的及时信息的有用来源。与将社交媒体用于灾难管理有关的主要任务之一是自动识别与危机相关的消息。关于该主题的大多数研究都集中在特定语言中特定类型事件的数据分析上。这限制了概括现有方法的可能性,因为模型不能直接应用于新类型的事件或其他语言。在这项工作中,我们研究了通过利用跨语言和跨域标记数据来自动对与危机事件相关的消息进行分类的任务。我们的目标是利用来自高资源语言的标记数据来对其他(低资源)语言和/或新(以前看不见的)类型的危机情况进行分类。在我们的研究中,我们从文献中合并了一个大型统一数据集,其中包含多个危机事件和语言。我们的经验发现表明,确实有可能利用英语危机事件的数据来对其他语言(例如西班牙语和意大利语)(80.0%的F1得分)对相同类型的事件进行分类。此外,我们在跨语言环境中为跨域任务(80.0%F1得分)取得了良好的性能。总体而言,我们的工作有助于改善数据稀缺问题,这对于多语言危机分类非常重要。特别是,当时间是本质的时候,可以减轻紧急事件中的冷启动情况。
translated by 谷歌翻译
转移学习已通过深度审慎的语言模型广泛用于自然语言处理,例如来自变形金刚和通用句子编码器的双向编码器表示。尽管取得了巨大的成功,但语言模型应用于小型数据集时会过多地适合,并且很容易忘记与分类器进行微调时。为了解决这个忘记将深入的语言模型从一个域转移到另一个领域的问题,现有的努力探索了微调方法,以减少忘记。我们建议DeepeMotex是一种有效的顺序转移学习方法,以检测文本中的情绪。为了避免忘记问题,通过从Twitter收集的大量情绪标记的数据来仪器进行微调步骤。我们使用策划的Twitter数据集和基准数据集进行了一项实验研究。 DeepeMotex模型在测试数据集上实现多级情绪分类的精度超过91%。我们评估了微调DeepeMotex模型在分类Emoint和刺激基准数据集中的情绪时的性能。这些模型在基准数据集中的73%的实例中正确分类了情绪。所提出的DeepeMotex-Bert模型优于BI-LSTM在基准数据集上的BI-LSTM增长23%。我们还研究了微调数据集的大小对模型准确性的影响。我们的评估结果表明,通过大量情绪标记的数据进行微调提高了最终目标任务模型的鲁棒性和有效性。
translated by 谷歌翻译
深层语言语言模型(LMS)如Elmo,BERT及其继任者通过预先训练单个模型来迅速缩放自然语言处理的景观,然后是任务特定的微调。此外,像XLM-R和MBERT这样的这种模型的多语言版本使得有希望的零射击交叉传输导致,可能在许多不足和资源不足的语言中实现NLP应用。由于此初步成功,预先接受的模型被用作“通用语言模型”作为不同任务,域和语言的起点。这项工作通过识别通用模型应该能够扩展的七个维度来探讨“普遍性”的概念,即同样良好或相当良好地执行,在不同的环境中有用。我们概述了当前支持这些维度的模型性能的当前理论和经验结果,以及可能有助于解决其当前限制的扩展。通过这项调查,我们为理解大规模上下文语言模型的能力和限制奠定了基础,并帮助辨别研究差距和未来工作的方向,使这些LMS包含多样化和公平的应用,用户和语言现象。
translated by 谷歌翻译
社交媒体使研究人员能够根据语言分析工具来跟踪社会和文化变化。这些工具中的许多工具都依靠统计算法,这些算法需要调整为特定类型的语言。最近的研究表明,没有适当的调整,特别是在语义转移的情况下,可能会阻碍潜在方法的鲁棒性。但是,对于这种敏感性可能对下游纵向分析的实际影响知之甚少。我们通过及时的案例研究在文献中探讨了这一差距:在19009年大流行期间,了解抑郁症的转变。我们发现,仅包含少数语义上的特征可以促进目标结局的纵向估计值的重大变化。同时,我们证明了最近引入的测量语义转移方法可用于主动识别基于语言的模型的失败点,从而改善预测性概括。
translated by 谷歌翻译
社交媒体平台主持了有关每天出现的各种主题的讨论。理解所有内容并将其组织成类别是一项艰巨的任务。处理此问题的一种常见方法是依靠主题建模,但是使用此技术发现的主题很难解释,并且从语料库到语料库可能会有所不同。在本文中,我们提出了基于推文主题分类的新任务,并发布两个相关的数据集。鉴于涵盖社交媒体中最重要的讨论点的广泛主题,我们提供了最近时间段的培训和测试数据,可用于评估推文分类模型。此外,我们在任务上对当前的通用和领域特定语言模型进行定量评估和分析,这为任务的挑战和性质提供了更多见解。
translated by 谷歌翻译
经过审计的语言模型(PTLMS)通常是通过大型静态语料库学习的,并针对各种下游任务进行了微调。但是,当部署在现实世界中时,基于PTLM的模型必须处理偏离PTLM最初培训的数据分布。在本文中,我们研究了一个终身语言模型预处理挑战,其中不断更新PTLM以适应新兴数据。在域内收入的研究纸流和按时间顺序排序的推文流上,我们从具有不同持续学习算法的PTLM逐渐预处理PTLM,并跟踪下游任务性能(经过微调之后)。我们评估了PTLM在保留早期语料库中学习知识的同时适应新语料库的能力。我们的实验表明,基于蒸馏的方法最有效地在早期域中保持下游性能。该算法还可以改善知识传递,从而使模型能够比最新数据实现更好的下游性能,并在由于时间而在培训和评估之间存在分配差距时改善时间概括。我们认为,我们的问题制定,方法和分析将激发未来的研究朝着语言模型的持续预处理。
translated by 谷歌翻译
Language models pretrained on text from a wide variety of sources form the foundation of today's NLP. In light of the success of these broad-coverage models, we investigate whether it is still helpful to tailor a pretrained model to the domain of a target task. We present a study across four domains (biomedical and computer science publications, news, and reviews) and eight classification tasks, showing that a second phase of pretraining indomain (domain-adaptive pretraining) leads to performance gains, under both high-and low-resource settings. Moreover, adapting to the task's unlabeled data (task-adaptive pretraining) improves performance even after domain-adaptive pretraining. Finally, we show that adapting to a task corpus augmented using simple data selection strategies is an effective alternative, especially when resources for domain-adaptive pretraining might be unavailable. Overall, we consistently find that multiphase adaptive pretraining offers large gains in task performance.
translated by 谷歌翻译
Understanding customer feedback is becoming a necessity for companies to identify problems and improve their products and services. Text classification and sentiment analysis can play a major role in analyzing this data by using a variety of machine and deep learning approaches. In this work, different transformer-based models are utilized to explore how efficient these models are when working with a German customer feedback dataset. In addition, these pre-trained models are further analyzed to determine if adapting them to a specific domain using unlabeled data can yield better results than off-the-shelf pre-trained models. To evaluate the models, two downstream tasks from the GermEval 2017 are considered. The experimental results show that transformer-based models can reach significant improvements compared to a fastText baseline and outperform the published scores and previous models. For the subtask Relevance Classification, the best models achieve a micro-averaged $F1$-Score of 96.1 % on the first test set and 95.9 % on the second one, and a score of 85.1 % and 85.3 % for the subtask Polarity Classification.
translated by 谷歌翻译
时间是文档的重要方面,用于一系列NLP和IR任务。在这项工作中,我们研究了在预训练期间合并时间信息的方法,以进一步提高与时间相关的任务的性能。与Bert相比,使用同步文档收集(BooksCorpus和English Wikipedia)作为培训语料库相比,我们使用长跨度的时间新闻文章集合来构建单词表示。我们介绍了Timebert,这是一种新颖的语言表示模型,该模型通过两项新的预训练任务培训了新闻文章的临时收集,这些任务利用了两个不同的时间信号来构建时间认识的语言表示。实验结果表明,TimeBert始终胜过BERT和其他现有的预训练模型,在不同的下游NLP任务或应用程序上,时间很高的时间很重要。
translated by 谷歌翻译
在本文中,我们介绍了TweetNLP,这是社交媒体中自然语言处理(NLP)的集成平台。TweetNLP支持一套多样化的NLP任务,包括诸如情感分析和命名实体识别的通用重点领域,以及社交媒体特定的任务,例如表情符号预测和进攻性语言识别。特定于任务的系统由专门用于社交媒体文本的合理大小的基于变压器的语言模型(尤其是Twitter)提供动力,无需专用硬件或云服务即可运行。TweetNLP的主要贡献是:(1)使用适合社会领域的各种特定于任务的模型,用于支持社交媒体分析的现代工具包的集成python库;(2)使用我们的模型进行无编码实验的交互式在线演示;(3)涵盖各种典型社交媒体应用的教程。
translated by 谷歌翻译
BERT,ROBERTA或GPT-3等复杂的基于注意力的语言模型的外观已允许在许多场景中解决高度复杂的任务。但是,当应用于特定域时,这些模型会遇到相当大的困难。诸如Twitter之类的社交网络就是这种情况,Twitter是一种不断变化的信息流,以非正式和复杂的语言编写的信息流,鉴于人类的重要作用,每个信息都需要仔细评估,即使人类也需要理解。通过自然语言处理解决该领域的任务涉及严重的挑战。当将强大的最先进的多语言模型应用于这种情况下,特定语言的细微差别用来迷失翻译。为了面对这些挑战,我们提出了\ textbf {bertuit},这是迄今为止针对西班牙语提出的较大变压器,使用Roberta Optimization进行了230m西班牙推文的大规模数据集进行了预培训。我们的动机是提供一个强大的资源,以更好地了解西班牙Twitter,并用于专注于该社交网络的应用程序,特别强调致力于解决该平台中错误信息传播的解决方案。对Bertuit进行了多个任务评估,并与M-Bert,XLM-Roberta和XLM-T进行了比较,该任务非常具有竞争性的多语言变压器。在这种情况下,使用应用程序显示了我们方法的实用性:一种可视化骗局和分析作者群体传播虚假信息的零击方法。错误的信息在英语以外的其他语言等平台上疯狂地传播,这意味着在英语说话之外转移时,变形金刚的性能可能会受到影响。
translated by 谷歌翻译
诸如自然灾害,全球大流行和社会动荡等危机不断威胁到我们的世界,并以不同的方式影响了全世界的数百万人。了解人们在大规模危机期间表达的情绪有助于告知政策制定者和急救人员有关人口的情绪状态,并为需要这种支持的人提供情感支持。我们介绍了Covidemo,〜3K英语推文标有情感,并在18个月内分布时间。我们的分析揭示了Covid-19造成的情感损失,以及随着时间的推移社会叙事和相关情绪的变化。由危机的时间敏感性和大规模注释努力的成本的激励,我们研究了在Covid-19的感知情绪预测的任务中,大型的预训练的语言模型在跨领域和时间表中的范围很好。我们的分析表明,跨域信息传输发生,但仍然存在很大的差距。我们提出了半监督的学习,作为弥合这一差距的一种方式,使用来自目标域的未标记数据获得了明显更好的性能。
translated by 谷歌翻译
Geographic features are commonly used to improve the performance of pretrained language models (PLMs) on NLP tasks where they are intuitively beneficial (e.g., geolocation prediction, dialect feature prediction). Existing methods, however, leverage geographic information in task-specific fine-tuning and fail to integrate it into the geo-linguistic knowledge encoded by PLMs, which would make it transferable across different tasks. In this paper, we introduce an approach to task-agnostic geoadaptation of PLMs that forces them to learn associations between linguistic phenomena and geographic locations. Geoadaptation is an intermediate training step that couples language modeling and geolocation prediction in a multi-task learning setup. In our main set of experiments, we geoadapt BERTi\'{c}, a PLM for Bosnian-Croatian-Montenegrin-Serbian (BCMS), using a corpus of geotagged BCMS tweets. Evaluation on three tasks, namely fine-tuned as well as zero-shot geolocation prediction and zero-shot prediction of dialect features, shows that geoadaptation is very effective: e.g., we obtain state-of-the-art performance in supervised geolocation prediction and report massive gains over geographically uninformed PLMs on zero-shot geolocation prediction. Moreover, in follow-up experiments we successfully geoadapt two other PLMs, specifically ScandiBERT on Norwegian, Swedish, and Danish tweets and GermanBERT on Jodel posts in German from Austria, Germany, and Switzerland, proving that the benefits of geoadaptation are not limited to a particular language area and PLM.
translated by 谷歌翻译
Transformer-based models have pushed state of the art in many areas of NLP, but our understanding of what is behind their success is still limited. This paper is the first survey of over 150 studies of the popular BERT model. We review the current state of knowledge about how BERT works, what kind of information it learns and how it is represented, common modifications to its training objectives and architecture, the overparameterization issue and approaches to compression. We then outline directions for future research.
translated by 谷歌翻译
我们介绍了Twhin-Bert,这是一种多语言语言模型,该模型在流行的社交网络Twitter上训练了内域数据。Twhin-bert与先前的预训练的语言模型有所不同,因为它不仅接受了基于文本的自学训练,而且还具有基于Twitter异质信息网络(TWHIN)中丰富社交活动的社会目标。我们的模型接受了70亿条推文的培训,涵盖了100多种不同的语言,为简短,嘈杂,用户生成的文本提供了有价值的表示形式。我们对各种多语言社会建议和语义理解任务进行评估,并证明了对既定的预训练的语言模型的大幅改进。我们将自由开放源代码Twhin-Bert和我们为研究社区提供的精心策划标签预测和社会参与基准数据集。
translated by 谷歌翻译
The spread of rumors along with breaking events seriously hinders the truth in the era of social media. Previous studies reveal that due to the lack of annotated resources, rumors presented in minority languages are hard to be detected. Furthermore, the unforeseen breaking events not involved in yesterday's news exacerbate the scarcity of data resources. In this work, we propose a novel zero-shot framework based on prompt learning to detect rumors falling in different domains or presented in different languages. More specifically, we firstly represent rumor circulated on social media as diverse propagation threads, then design a hierarchical prompt encoding mechanism to learn language-agnostic contextual representations for both prompts and rumor data. To further enhance domain adaptation, we model the domain-invariant structural features from the propagation threads, to incorporate structural position representations of influential community response. In addition, a new virtual response augmentation method is used to improve model training. Extensive experiments conducted on three real-world datasets demonstrate that our proposed model achieves much better performance than state-of-the-art methods and exhibits a superior capacity for detecting rumors at early stages.
translated by 谷歌翻译