声词嵌入(AWES)的模型学会将可变长度的口语段映射到固定差异矢量表示上,以便在嵌入空间附近预计,同一单词的不同声学示例。除了他们的语音技术应用外,AWE模型还显示出可以预测各种听觉词汇处理任务的人类绩效。当前的敬畏模型基于神经网络,并以自下而上的方法进行了培训,该方法集成了声音提示,以构建给定声或符号监督信号的单词表示。因此,这些模型在学习过程中不会利用或捕获高级词汇知识。 %并捕获有关单词形式的低级信息。在本文中,我们提出了一个多任务学习模型,该模型将自上而下的词汇知识纳入了敬畏的训练程序中。我们的模型学习了声学输入和词汇表示之间的映射,该表示除了基于自下而上的表单监督外,还编码了高级信息,例如单词语义。我们尝试三种语言,并证明合并词汇知识可以改善嵌入空间的可区分性,并鼓励模型更好地分开词汇类别。
translated by 谷歌翻译
尽管蒙版语言模型具有高度性能,并且被NLP从业人员广泛采用,但它们不能轻易用于自回归语言建模(下一个单词预测和序列概率估计)。我们提出了一种基于LSTM的自回归语言模型,该模型使用融合(例如串联)使用前缀嵌入(来自验证的蒙版语言模型),以获得语言建模的更丰富的上下文表示。我们发现Fusion有助于可靠地降低困惑(16.74 $ \ rightarrow $ 15.80),甚至在从与培训数据的不同领域传输到数据集后,它甚至可以保留。我们还通过将其下一个单词的惊人估计与人类阅读时间相关联,评估了表现最佳的融合模型。与我们的期望相矛盾,尽管整体上的困惑程度有所改善,但相关性仍然与基线模型相同。最后,尽管我们专注于在文本上预先训练的语言模型作为融合的来源,但我们的方法可能会扩展到将表示为固定尺寸矢量表示的任何信息融合到自动回归语言模型中。这些包括例如句子外部信息是为知识库或多模式编码器的表示形式检索的。
translated by 谷歌翻译
对于自然语言处理中的许多任务,将知识从一个域转移到另一个领域至关重要,尤其是当目标域中的可用数据量受到限制时。在这项工作中,我们在指定实体识别(NER)的背景下提出了一种新颖的域适应方法。我们提出了一种两步方法,该方法由可变基本模块和模板模块组成,该模块在简单的描述模式的帮助下利用了预训练的语言模型中捕获的知识。我们的方法简单而通用,可以在几次射击和零拍设置中应用。评估我们在许多不同数据集中的轻量级方法表明,它可以将最新基准的性能提高2-5%的F1分数。
translated by 谷歌翻译
语言模型预训练的最新进展利用大规模数据集创建多语言模型。但是,这些数据集中大多遗漏了低资源语言。这主要是因为网络上没有很好地表示口语,因此被排除在用于创建数据集的大规模爬网中。此外,这些模型的下游用户仅限于最初选择用于预训练的语言的选择。这项工作调查了如何最佳利用现有的预培训模型来为16种非洲语言创建低资源翻译系统。我们关注两个问题:1)如何将预训练的模型用于初始预培训中未包含的语言? 2)生成的翻译模型如何有效地转移到新域?为了回答这些问题,我们创建了一个新的非洲新闻语料库,涵盖16种语言,其中8种语言不属于任何现有评估数据集的一部分。我们证明,将两种语言转移到其他语言和其他领域的最有效策略是,以少量的高质量翻译数据微调大型预训练模型。
translated by 谷歌翻译
多语言预训练的语言模型(PLM)在高资源和低资源语言的下游任务上表现出令人印象深刻的表现。但是,在预培训期间,尤其是非洲语言中,看不见的语言仍然有很大的表现。适应新语言的最有效方法之一是\ textit {语言自适应微调}(LAFT) - 使用预训练目标对单语言的多语言PLM进行微调。但是,适应目标语言会单独使用大磁盘空间,并限制了由此产生的模型的跨语言转移能力,因为它们已经专门用于单语言。在本文中,我们对17种最重要的非洲语言和其他三种在非洲大陆上广泛使用的高资源语言对17种最具资源的非洲语言进行\ Textit {多语言自适应微调},以鼓励跨语性转移学习。为了进一步专注于多语言PLM,我们从嵌入式层中删除了与MAFT之前的非非洲写作脚本相对应的词汇令牌,从而将模型大小降低了约50%。我们对两个多语言PLM(Afriberta和XLM-R)和三个NLP任务(NER,新闻主题分类和情感分类)的评估表明,我们的方法可以在单个语言上应用LAFT,同时需要较小的磁盘空间。此外,我们表明我们的适应性PLM还提高了参数有效微调方法的零击跨语性转移能力。
translated by 谷歌翻译
自然语言处理领域(NLP)最近看到使用预先接受训练的语言模型来解决几乎任何任务的大量变化。尽管对各种任务的基准数据集显示了很大的改进,但这些模型通常在非标准域中对临床领域的临床域进行次优,其中观察到预训练文件和目标文件之间的巨大差距。在本文中,我们的目标是通过对语言模型的域特定培训结束这种差距,我们调查其对多种下游任务和设置的影响。我们介绍了预先训练的Clin-X(临床XLM-R)语言模型,并展示了Clin-X如何通过两种语言的十个临床概念提取任务的大幅度优于其他预先训练的变压器模型。此外,我们展示了如何通过基于随机分裂和交叉句子上下文的集合来利用我们所提出的任务和语言 - 无人机模型架构进一步改善变压器模型。我们在低资源和转移设置中的研究显​​示,尽管只有250个标记的句子,但在只有250个标记的句子时,缺乏带注释数据的稳定模型表现。我们的结果突出了专业语言模型作为非标准域中的概念提取的Clin-X的重要性,但也表明我们的任务 - 无人机模型架构跨越测试任务和语言是强大的,以便域名或任务特定的适应不需要。 Clin-Xlanguage模型和用于微调和传输模型的源代码在https://github.com/boschresearch/clin\_x/和Huggingface模型集线器上公开使用。
translated by 谷歌翻译
最先进的深度学习方法在许多任务上实现了类似人类的表现,但仍会犯错。用易于解释的术语表征这些错误,可以深入了解分类器是否容易出现系统错误,但也提供了一种行动和改善分类器的方法。我们建议发现与正确响应密切相关的那些特征值组合(即模式)。错误的预测,以获取任意分类器的全局和可解释的描述。我们证明这是更通用的标签描述问题的实例,我们根据最小描述长度原理提出了这一点。要发现一个良好的模式集,我们开发了有效的前提算法。通过大量的实验,我们表明它在合成数据和现实世界中的实践中表现出色。与现有的解决方案不同,即使在许多功能上的高度不平衡数据上,它也可以恢复地面真相模式。通过两个有关视觉问题答案和命名实体识别的案例研究,我们确认前提可以清楚且可行的见解对现代NLP分类器的系统错误。
translated by 谷歌翻译
差异私有随机梯度下降(DPSGD)是基于差分隐私(DP)范例的随机梯度下降的变化,这可以减轻来自在训练数据中存在敏感信息的隐私威胁。然而,具有DPSGD的培训深度神经网络的一个主要缺点是模型精度的降低。本文研究了标准化层对DPSGD性能的影响。我们证明标准化层显着影响了深度神经网络与嘈杂参数的效用,应该被视为DPSGD培训的基本成分。特别是,我们提出了一种新的方法,用于将批量标准化与DPSGD集成,而不会产生额外的隐私损失。通过我们的方法,我们能够培训更深的网络并实现更好的效用隐私权衡。
translated by 谷歌翻译
对人工智能(AI)的兴趣及其应用在过去几年中存在前所未有的增长。这种成功可以部分地归因于AI的子字段的进步,例如机器学习,计算机视觉和自然语言处理。深入学习,这些领域的大部分增长都是可能的,利用人工神经网络的机器学习子区域。这对视力和语言的整合产生了重大兴趣。在这项调查中,我们专注于通过讨论其问题制定,方法,现有数据集,评估措施,并比较用相应的最先进方法获得的结果来集成语言和愿景的十个突出任务。我们的努力超越了早期的调查,只有任务特定或仅集中在一种类型的视觉内容,即图像或视频。此外,我们还提供了一些潜在的未来方向,在这一研究领域,预期,这项调查刺激了创新的思想和想法,以解决现有的挑战并建立新的应用。
translated by 谷歌翻译
Artificial intelligence(AI) systems based on deep neural networks (DNNs) and machine learning (ML) algorithms are increasingly used to solve critical problems in bioinformatics, biomedical informatics, and precision medicine. However, complex DNN or ML models that are unavoidably opaque and perceived as black-box methods, may not be able to explain why and how they make certain decisions. Such black-box models are difficult to comprehend not only for targeted users and decision-makers but also for AI developers. Besides, in sensitive areas like healthcare, explainability and accountability are not only desirable properties of AI but also legal requirements -- especially when AI may have significant impacts on human lives. Explainable artificial intelligence (XAI) is an emerging field that aims to mitigate the opaqueness of black-box models and make it possible to interpret how AI systems make their decisions with transparency. An interpretable ML model can explain how it makes predictions and which factors affect the model's outcomes. The majority of state-of-the-art interpretable ML methods have been developed in a domain-agnostic way and originate from computer vision, automated reasoning, or even statistics. Many of these methods cannot be directly applied to bioinformatics problems, without prior customization, extension, and domain adoption. In this paper, we discuss the importance of explainability with a focus on bioinformatics. We analyse and comprehensively overview of model-specific and model-agnostic interpretable ML methods and tools. Via several case studies covering bioimaging, cancer genomics, and biomedical text mining, we show how bioinformatics research could benefit from XAI methods and how they could help improve decision fairness.
translated by 谷歌翻译