在本文中,我们介绍了TweetNLP,这是社交媒体中自然语言处理(NLP)的集成平台。TweetNLP支持一套多样化的NLP任务,包括诸如情感分析和命名实体识别的通用重点领域,以及社交媒体特定的任务,例如表情符号预测和进攻性语言识别。特定于任务的系统由专门用于社交媒体文本的合理大小的基于变压器的语言模型(尤其是Twitter)提供动力,无需专用硬件或云服务即可运行。TweetNLP的主要贡献是:(1)使用适合社会领域的各种特定于任务的模型,用于支持社交媒体分析的现代工具包的集成python库;(2)使用我们的模型进行无编码实验的交互式在线演示;(3)涵盖各种典型社交媒体应用的教程。
translated by 谷歌翻译
可靠的评估基准是为了可复制性和全面性而设计的,在机器学习方面取得了进步。但是,由于缺乏多语言基准,视觉和语言研究主要集中在英语任务上。为了填补这一空白,我们介绍了图像的语言理解评估基准。 Iglue通过汇总已有的数据集并创建新的数据来汇集 - 视觉问题回答,跨模式检索,扎根的推理以及跨20种不同语言的扎根成本。我们的基准测试能够评估多语言多模型用于转移学习的模型,不仅在零弹位设置中,而且还以新定义的少数图学习设置。根据对可用最新模型的评估,我们发现翻译测试转移优于零弹性转移,并且对于许多任务而言,很难利用射击的学习。此外,下游性能部分用可用的未标记文本数据进行预处理来解释,并且仅通过目标源语言的类型学距离而微弱。我们希望通过向社区释放基准来鼓励该领域的未来研究工作。
translated by 谷歌翻译
屏蔽语言模型(MLMS),如BERT和ROBERTA,在过去几年中彻底改变了自然语言理解领域。然而,现有的预先训练的MLMS通常输出令牌表示的各向异性分布,其占据整个表示空间的窄子集。这些令牌表示不理想,特别是对于要求不同令牌的判别语义含义的任务。在这项工作中,我们提出了TACL(令牌感知的对比学习),这是一种新的持续预训练方法,鼓励伯特来学习令牌陈述的各向同性和鉴别分布。TACL完全无监督,无需其他数据。我们在广泛的英语和中国基准上广泛地测试了我们的方法。结果表明,TACL通过原始BERT模型带来一致和显着的改进。此外,我们进行了详细的分析,以揭示我们方法的优点和内在运作。
translated by 谷歌翻译
在NLP中,大量的任务涉及两种序列之间的成对比较(例如句子相似性和解释识别)。主要是,两种配方用于句子 - 对任务:双编码器和交叉编码器。双编码器产生固定尺寸句子表示,并且在计算上有效,但是,它们通常是跨编码器的表现不佳。交叉编码器可以利用他们的注意力头来利用句子间交互以获得更好的性能,但它们需要任务微调,并且计算更昂贵。在本文中,我们提出了一个完全无监督的句子表示模型被称为跨编码器,它将两个学习范例结合到迭代联合框架中,以同时学习增强的双和交叉编码器。具体而言,在预先接受训练的语言模型(PLM)的顶部,我们首先将其转换为无监督的双编码器,然后在双编码器任务配方之间交替。在每次交替中,一个任务制定将产生伪标签,该伪标签用作其他任务制定的学习信号。然后,我们提出了一种平行于多个PLMS在多个PLM上进行这种自蒸馏方法的延伸,并使用其伪标签的平均值进行互蒸馏。 Trans-encoder据我们所知,创建了第一个完全无监督的跨编码器以及用于句子相似性的最先进的无人监督的双编码器。跨编码器的双编码器和交叉编码器配方均最近提出了最先进的无监督句子编码器,例如镜像相似基准在句子相似基准上最多5%的镜像 - BERT和SIMCSE。
translated by 谷歌翻译
亚当是训练深神经网络的最具影响力的自适应随机算法之一,即使在简单的凸面设置中,它也被指出是不同的。许多尝试,例如降低自适应学习率,采用较大的批量大小,结合了时间去相关技术,寻求类似的替代物,\ textit {etc。},以促进Adam-type算法融合。与现有方法相反,我们引入了另一种易于检查的替代条件,这仅取决于基础学习率的参数和历史二阶时刻的组合,以确保通用ADAM的全球融合以解决大型融合。缩放非凸随机优化。这种观察结果以及这种足够的条件,对亚当的差异产生了更深刻的解释。另一方面,在实践中,无需任何理论保证,广泛使用了迷你ADAM和分布式ADAM。我们进一步分析了分布式系统中的批次大小或节点的数量如何影响亚当的收敛性,从理论上讲,这表明迷你批次和分布式亚当可以通过使用较大的迷你批量或较大的大小来线性地加速节点的数量。最后,我们应用了通用的Adam和Mini Batch Adam,具有足够条件来求解反例并在各种真实世界数据集上训练多个神经网络。实验结果完全符合我们的理论分析。
translated by 谷歌翻译
尽管在训练有素的语言模型方面取得了进展,但缺乏用于预训练的句子表示的统一框架。因此,它要求针对特定方案采用不同的预训练方法,并且预培训的模型可能受到其普遍性和表示质量的限制。在这项工作中,我们扩展了最近提出的MAE风格的预训练策略RELOMAE,以便可以有效地支持各种句子表示任务。扩展的框架由两个阶段组成,在整个过程中进行了逆转录。第一阶段对通用语料库进行了逆转,例如Wikipedia,BookCorpus等,从中可以从中学习基本模型。第二阶段发生在特定于领域的数据上,例如Marco和NLI,在该数据中,基本模型是基于逆转和对比度学习的。这两个阶段的训练前输出可能会服务于不同的应用,其有效性通过全面的实验验证。具体来说,基本模型被证明对零射击检索有效,并且在贝尔基准上取得了显着的性能。继续进行预训练的模型进一步受益于更多的下游任务,包括针对马可女士的特定领域的密集检索,自然问题以及句子嵌入式标准STS的质量和延性端的转移任务。这项工作的经验见解可能会激发预训练的句子代表的未来设计。我们的预培训模型和源代码将发布给公共社区。
translated by 谷歌翻译
我们制定并测试一种使用概括的多语言模型使用新兴通信(EC)的技术,以改进现代无监督的NMT系统,尤其是对于低资源语言。有人认为,目前在NLP上的主要范式仅在文本语料库上进行预处理,不会产生强大的自然语言理解系统,并且强调了对接地,面向目标和互动语言学习的需求。在我们的方法中,我们将现代的多语言模型(Mbart,Liu etal。2020)嵌入到EC图像引用游戏中,其中该模型被激励使用多语言世代来完成视力基础的任务,并假设有假设是这将使多种语言与共享的任务空间保持一致。我们提出了EC微调的两种变体(Steinert-Threlkeldet。Al。2022),其中一种在6/8翻译设置中优于基于反射的基线,并证明对尼泊尔和尼泊尔和尼泊尔和低资产的语言特别有益僧伽罗。
translated by 谷歌翻译
正交统计学习和双机器学习已成为在存在滋扰成分的情况下,作为两阶段统计预测的一般框架。我们对具有满足自我符合性能的损失功能的正交统计学习方法的过量风险建立了非扰动界限。我们的界限在提升强凸度的假设时,通过维数因子来改善现有界限。我们用来自多个治疗效应估计的示例和广义部分线性建模来说明结果。
translated by 谷歌翻译
现有研究持续学习一系列任务,专注于处理灾难性遗忘,其中任务被认为是不同的,并且具有很少的共享知识。在任务相似并分享知识时,还有一些工作已经完成了将以前学到的新任务转移到新任务。据我们所知,没有提出任何技术来学习一系列混合类似和不同的任务,这些任务可以处理遗忘,并转发知识向前和向后转移。本文提出了这样的技术,用于在同一网络中学习两种类型的任务。对于不同的任务,该算法侧重于处理遗忘,并且对于类似的任务,该算法侧重于选择性地传送从一些类似先前任务中学到的知识来改善新的任务学习。此外,该算法自动检测新任务是否类似于任何先前的任务。使用混合任务序列进行实证评估,证明了所提出的模型的有效性。
translated by 谷歌翻译
近年来,最终用户的多个(边缘)设备中有大量分散数据,而由于法律或法规,分散数据的聚合对机器学习工作仍然困难。联合学习(FL)作为处理分散数据而不分享敏感原始数据的有效方法,同时协作培训全球机器学习模型。 FL中的服务器需要在培训过程中选择(和计划)设备。但是,具有FL的多个作业的设备的调度仍然是一个关键和打开的问题。在本文中,我们提出了一种新的多工作FL框架,以实现多个作业的并行培训过程。该框架包括系统模型和两个调度方法。在系统模型中,我们提出了多个作业的并行培训过程,并根据各种工作培训过程基于培训时间和各种设备的数据公平构建成本模型。我们提出了一种基于钢筋的基于学习的方法和基于贝叶斯优化的方法,以便为多个作业调度设备,同时最小化成本。我们通过多个工作和数据集进行广泛的实验。实验结果表明,我们提出的方法在培训时间(速度越快8.67倍)和准确性(高度高达44.6%)方面显着优于基线。
translated by 谷歌翻译