人们已经相当关注那些学会共同推断表达式的句法结构及其语义的模型。然而,\ citet {NangiaB18}最近表明,当前最好的系统无法容忍对从简单的无上下文语法生成的数学表达式的正确解析策略。在这项工作中,我们提出了一个由\ newcite {ChoiYL18}启发的递归模型,该模型在此任务上达到了接近完美的准确度。我们的模型由两个独立的模块组成,用于语法和语义。他们通过标准的连续和离散优化方案进行合作培训。我们的模型不需要任何语言结构来进行监督,其递归性质允许域外泛化,而性能损失很小。此外,我们的方法在几种自然语言任务上具有竞争力,例如自然语言推理或情感分析。
translated by 谷歌翻译
我们考虑将在多种语言中学习的连续单词表示与公共空间对齐的问题。最近表明,在两种语言的情况下,可以在没有监督的情况下学习这种映射。本文将这一系列工作扩展到将多种语言与公共空间对齐的问题。解决方案是将所有语言独立地映射到枢轴语言。不幸的是,这降低了间接单词翻译的质量。因此,我们提出了一种新的配方,可确保可成比例的映射,从而实现更好的对齐。我们通过在11种语言中共同对齐单词向量来评估我们的方法,通过间接映射显示一致性,同时保持直接单词翻译的竞争性能。
translated by 谷歌翻译
聚类是一类无监督学习方法,已在计算机视觉中得到广泛应用和研究。很少有工作能够使它适应大型比例尺上的视觉特征的端到端训练。在这项工作中,我们提出了一种聚类方法DeepCluster,它可以共同学习神经网络的参数和所得特征的聚类分配。 DeepCluster使用标准聚类算法k-means迭代地对特征进行分组,并使用后续分配来监视网络的权重。我们将DeepCluster应用于大型数据集(如ImageNet和YFCC100M)上的卷积神经网络的无监督训练。在所有标准基准测试中,最终模型的性能优于theart的当前状态。
translated by 谷歌翻译
可以对不同语言中单独学习的连续单词表示进行对齐,以使它们的单词在公共空间中具有可比性。现有工作通常解决最小二乘回归问题以学习旋转对齐小双语词典,并使用检索标准进行推断。在本文中,我们提出了一种统一的公式,以端到端的方式直接优化检索标准。我们在标准基准测试中的实验表明,我们的方法优于最先进的翻译技术,对英语 - 中文等远程语言对进行了最大的改进。
translated by 谷歌翻译
Distributed word representations, or word vectors, have recently been appliedto many tasks in natural language processing, leading to state-of-the-artperformance. A key ingredient to the successful application of theserepresentations is to train them on very large corpora, and use thesepre-trained models in downstream tasks. In this paper, we describe how wetrained such high quality word representations for 157 languages. We used twosources of data to train these models: the free online encyclopedia Wikipediaand data from the common crawl project. We also introduce three new wordanalogy datasets to evaluate these word vectors, for French, Hindi and Polish.Finally, we evaluate our pre-trained word vectors on 10 languages for whichevaluation datasets exists, showing very strong performance compared toprevious models.
translated by 谷歌翻译
We propose an extension to neural network language models to adapt theirprediction to the recent history. Our model is a simplified version of memoryaugmented networks, which stores past hidden activations as memory and accessesthem through a dot product with the current hidden activation. This mechanismis very efficient and scales to very large memory sizes. We also draw a linkbetween the use of external memory in neural network and cache models used withcount based language models. We demonstrate on several language model datasetsthat our approach performs significantly better than recent memory augmentednetworks.
translated by 谷歌翻译
We propose an approximate strategy to efficiently train neural network basedlanguage models over very large vocabularies. Our approach, called adaptivesoftmax, circumvents the linear dependency on the vocabulary size by exploitingthe unbalanced word distribution to form clusters that explicitly minimize theexpectation of computation time. Our approach further reduces the computationaltime by exploiting the specificities of modern architectures and matrix-matrixvector operations, making it particularly suited for graphical processingunits. Our experiments carried out on standard benchmarks, such as EuroParl andOne Billion Word, show that our approach brings a large gain in efficiency overstandard approximations while achieving an accuracy close to that of the fullsoftmax. The code of our method is available athttps://github.com/facebookresearch/adaptive-softmax.
translated by 谷歌翻译
在大型无标签语料库上训练的连续单词表示可用于许多自然语言处理任务。学习这种表征的流行模型通过为每个单词指定一个不同的向量来忽略单词的形态。这是一个限制,特别是对于具有大词汇和许多罕见词汇的语言。在本文中,我们提出了一种基于skipgram模型的新方法,其中每个单词都表示为一包字符$ n $ -grams。向量表示与每个字符$ n $ -gram相关联;单词表示为这些表示的总和。我们的方法很快,允许快速训练大型语料库上的模型,并允许计算未显示在训练数据中的单词的单词表示。我们评估了九种不同语言的单词表示,包括关键词相似性和类比任务。通过与最近提出的形态词表示进行比较,我们表明我们的向量在这些任务上实现了最先进的表现。
translated by 谷歌翻译
本文探讨了一种简单有效的文本分类基线。我们的实验表明,我们的快速文本分类器fastText在准确性方面经常与深度学习分类器相提并论,并且对于训练和评估,许多命令的数量更快。我们可以使用标准的多核~CPU在不到10分钟的时间内训练fastText超过10亿个单词,并在不到一分钟的时间内将~301K类中的50万个句子分类。
translated by 谷歌翻译
视觉问题回答(VQA)是一种有趣的学习设置,它预测了当前图像理解系统的能力和缺点。许多最近提出的VQA系统包括旨在支持“推理”的注意力或记忆机制。对于多选VQA,几乎所有这些系统都在图像和问题特征上训练多类分类器以预测答案。本文质疑这些共同实践的价值,并开发了一个基于二元分类的简单替代模型。我们的模型不是将答案视为竞争选择,而是将答案作为输入,并预测animage-question-answer三元组是否正确。我们在Visual7WTelling和VQA Real Multiple Choice任务上评估我们的模型,并发现我们模型的简单转换甚至可以具有竞争力。我们的最佳模型在Visual7W Telling任务中实现了最先进的性能,并且与为VQA RealMultiple Choice任务提出的最复杂系统进行了比较。我们探索模型的变体并研究两个数据集之间的可传递性。我们还对我们的模型进行了错误分析,表明当前VQA系统的一个关键问题在于缺乏问题和答案中出现的概念的可视性基础。总的来说,我们的结果表明,当前VQA系统的性能并不比设计用于利用数据集偏差的系统的性能显着提高。
translated by 谷歌翻译