图像架构是一个反复的推理模式,其中一个实体被映射到另一个实体。图像模式类似于概念上的隐喻,也与隐喻性手势有关。我们的主要目标是为体现的对话代理产生隐喻性手势。我们提出了一种学习图像模式的矢量表示的技术。据我们所知,这是解决该问题的第一项工作。我们的技术使用Ravenet等人的算法来计算文本输入中的图像模式,以及Bert和Sensebert,我们将其用作基本单词嵌入技术来计算图像架构的最终矢量表示。我们的表示学习技术通过聚类来起作用:属于同一图像架构的单词嵌入向量应相对彼此相对近,从而形成一个群集。使用图像模式可表示为向量,也有可能有一个观念,即某些图像模式比彼此更接近或更相似,因为向量之间的距离是相应图像模式之间的相似性的代理。因此,在获得图像模式的矢量表示后,我们计算了这些向量之间的距离。基于这些,我们创建可视化以说明不同图像模式之间的相对距离。
translated by 谷歌翻译
Natural Language Understanding has seen an increasing number of publications in the last few years, especially after robust word embeddings models became prominent, when they proved themselves able to capture and represent semantic relationships from massive amounts of data. Nevertheless, traditional models often fall short in intrinsic issues of linguistics, such as polysemy and homonymy. Any expert system that makes use of natural language in its core, can be affected by a weak semantic representation of text, resulting in inaccurate outcomes based on poor decisions. To mitigate such issues, we propose a novel approach called Most Suitable Sense Annotation (MSSA), that disambiguates and annotates each word by its specific sense, considering the semantic effects of its context. Our approach brings three main contributions to the semantic representation scenario: (i) an unsupervised technique that disambiguates and annotates words by their senses, (ii) a multi-sense embeddings model that can be extended to any traditional word embeddings algorithm, and (iii) a recurrent methodology that allows our models to be re-used and their representations refined. We test our approach on six different benchmarks for the word similarity task, showing that our approach can produce state-of-the-art results and outperforms several more complex state-of-the-art systems.
translated by 谷歌翻译
基于变压器的语言模型最近在许多自然语言任务中取得了显着的结果。但是,通常通过利用大量培训数据来实现排行榜的性能,并且很少通过将明确的语言知识编码为神经模型。这使许多人质疑语言学对现代自然语言处理的相关性。在本文中,我介绍了几个案例研究,以说明理论语言学和神经语言模型仍然相互关联。首先,语言模型通过提供一个客观的工具来测量语义距离,这对语言学家很有用,语义距离很难使用传统方法。另一方面,语言理论通过提供框架和数据源来探究我们的语言模型,以了解语言理解的特定方面,从而有助于语言建模研究。本论文贡献了三项研究,探讨了语言模型中语法 - 听觉界面的不同方面。在论文的第一部分中,我将语言模型应用于单词类灵活性的问题。我将Mbert作为语义距离测量的来源,我提供了有利于将单词类灵活性分析为方向过程的证据。在论文的第二部分中,我提出了一种方法来测量语言模型中间层的惊奇方法。我的实验表明,包含形态句法异常的句子触发了语言模型早期的惊喜,而不是语义和常识异常。最后,在论文的第三部分中,我适应了一些心理语言学研究,以表明语言模型包含了论证结构结构的知识。总而言之,我的论文在自然语言处理,语言理论和心理语言学之间建立了新的联系,以为语言模型的解释提供新的观点。
translated by 谷歌翻译
通过使用其他域的知识来推理一个域的人类能力已经研究了50多年,但正式声音和预测认知过程的模型是稀疏的。我们提出了一种正式的声音方法,通过调整逻辑推理机制来模拟关联推理。特别地,表明,在单一推理系统中,具有大的结合知识的组合,对高效和强大的关联技术的要求。这种方法也用于建模思维徘徊和远程关联测试(RAT)以进行测试。在一般性讨论中,我们展示了该模型对具有意识的广泛认知现象的影响。
translated by 谷歌翻译
We review clustering as an analysis tool and the underlying concepts from an introductory perspective. What is clustering and how can clusterings be realised programmatically? How can data be represented and prepared for a clustering task? And how can clustering results be validated? Connectivity-based versus prototype-based approaches are reflected in the context of several popular methods: single-linkage, spectral embedding, k-means, and Gaussian mixtures are discussed as well as the density-based protocols (H)DBSCAN, Jarvis-Patrick, CommonNN, and density-peaks.
translated by 谷歌翻译
本文报告了在应用多维缩放(MDS)技术中以创建语言研究中的语义地图的最先进。 MDS指的是一种统计技术,其表示对象(词汇项,语言上下文,语言等)作为空间中的点,使得对象之间的密切相似性对应于表示表示中的对应点之间的距离。我们专注于使用MDS与在跨语言变异研究中使用的并行语料库数据相结合。我们首先介绍了MD的数学基础,然后略微概述过去的研究,采用MDS技术与并行语料库数据结合使用。我们提出了一组术语,以简便地描述特定MDS应用程序的关键参数。然后,我们表明,这种计算方法是理论中立的,即它可以用来在各种语言理论框架中回答研究问题。最后,我们展示了这在语言学中的MDS研究中的两条发展程度的发展。
translated by 谷歌翻译
在论文中,我们测试了两个不同的方法,以获得波兰语的{令人难过的}词感人歧义任务。在这两种方法中,我们使用神经语言模型来预测与消歧的词语类似,并且在这些词的基础上,我们以不同的方式预测单词感官的分区。在第一种方法中,我们群集选定类似的单词,而在第二个中,我们群集代表其子集的群集向量。评估是在用PLONDNET感应注释的文本上进行的,并提供了相对良好的结果(对于所有模糊单词F1 = 0.68)。结果明显优于\ Cite {WAW:MYK:17:Sense}的神经模型的无人监督方法所获得的结果,并且处于在那里提供的监督方法的水平。所提出的方法可以是解决缺乏有义注释数据的语言的词语感义歧消声问题的方式。
translated by 谷歌翻译
大多数无监督的NLP模型代表了语义空间中单点或单个区域的每个单词,而现有的多感觉单词嵌入物不能代表像素序或句子等更长的单词序列。我们提出了一种用于文本序列(短语或句子)的新型嵌入方法,其中每个序列由一个不同的多模码本嵌入物组表示,以捕获其含义的不同语义面。码本嵌入式可以被视为集群中心,该中心总结了在预训练的单词嵌入空间中的可能共同出现的单词的分布。我们介绍了一个端到端的训练神经模型,直接从测试时间内从输入文本序列预测集群中心集。我们的实验表明,每句话码本嵌入式显着提高无监督句子相似性和提取摘要基准的性能。在短语相似之处实验中,我们发现多面嵌入物提供可解释的语义表示,但不优于单面基线。
translated by 谷歌翻译
The relationship between words in a sentence often tells us more about the underlying semantic content of a document than its actual words, individually. In this work, we propose two novel algorithms, called Flexible Lexical Chain II and Fixed Lexical Chain II. These algorithms combine the semantic relations derived from lexical chains, prior knowledge from lexical databases, and the robustness of the distributional hypothesis in word embeddings as building blocks forming a single system. In short, our approach has three main contributions: (i) a set of techniques that fully integrate word embeddings and lexical chains; (ii) a more robust semantic representation that considers the latent relation between words in a document; and (iii) lightweight word embeddings models that can be extended to any natural language task. We intend to assess the knowledge of pre-trained models to evaluate their robustness in the document classification task. The proposed techniques are tested against seven word embeddings algorithms using five different machine learning classifiers over six scenarios in the document classification task. Our results show the integration between lexical chains and word embeddings representations sustain state-of-the-art results, even against more complex systems.
translated by 谷歌翻译
我们建议使用在相对较大的语料库上培训的单词嵌入式来解释隐喻解释的模型。我们的系统处理名义隐喻,就像“时间是金钱”一样。它产生了对给定隐喻的潜在解释列表。从主题(“时间”)和车辆(“MONEY”)组件的搭配中汲取候选意义,从依赖于解析的语料库中提取。我们探索添加来自单词协会规范的候选人(对提示的常见人为响应)。我们的排名程序考虑在语义矢量空间中测量的候选解释和隐喻组件之间的相似性。最后,群集算法去除语义相关的重复项,从而允许其他候选解释获得更高等级。我们使用不同的注释隐喻评估,令人鼓舞的初步结果。
translated by 谷歌翻译
本次调查绘制了用于分析社交媒体数据的生成方法的研究状态的广泛的全景照片(Sota)。它填补了空白,因为现有的调查文章在其范围内或被约会。我们包括两个重要方面,目前正在挖掘和建模社交媒体的重要性:动态和网络。社会动态对于了解影响影响或疾病的传播,友谊的形成,友谊的形成等,另一方面,可以捕获各种复杂关系,提供额外的洞察力和识别否则将不会被注意的重要模式。
translated by 谷歌翻译
作为对隐喻分析的贡献,我们介绍了一项基于统计的基于数据的研究,并对长期存在的猜想和对隐喻系统特征的有史以来的经验探索进行了经验分析。相反,这也使隐喻理论可作为含义出现的基础,可以定量探索并集成到NLP的框架中。
translated by 谷歌翻译
最近有一项激烈的活动在嵌入非常高维和非线性数据结构的嵌入中,其中大部分在数据科学和机器学习文献中。我们分四部分调查这项活动。在第一部分中,我们涵盖了非线性方法,例如主曲线,多维缩放,局部线性方法,ISOMAP,基于图形的方法和扩散映射,基于内核的方法和随机投影。第二部分与拓扑嵌入方法有关,特别是将拓扑特性映射到持久图和映射器算法中。具有巨大增长的另一种类型的数据集是非常高维网络数据。第三部分中考虑的任务是如何将此类数据嵌入中等维度的向量空间中,以使数据适合传统技术,例如群集和分类技术。可以说,这是算法机器学习方法与统计建模(所谓的随机块建模)之间的对比度。在论文中,我们讨论了两种方法的利弊。调查的最后一部分涉及嵌入$ \ mathbb {r}^ 2 $,即可视化中。提出了三种方法:基于第一部分,第二和第三部分中的方法,$ t $ -sne,UMAP和大节。在两个模拟数据集上进行了说明和比较。一个由嘈杂的ranunculoid曲线组成的三胞胎,另一个由随机块模型和两种类型的节点产生的复杂性的网络组成。
translated by 谷歌翻译
We propose a unified neural network architecture and learning algorithm that can be applied to various natural language processing tasks including: part-of-speech tagging, chunking, named entity recognition, and semantic role labeling. This versatility is achieved by trying to avoid task-specific engineering and therefore disregarding a lot of prior knowledge. Instead of exploiting man-made input features carefully optimized for each task, our system learns internal representations on the basis of vast amounts of mostly unlabeled training data. This work is then used as a basis for building a freely available tagging system with good performance and minimal computational requirements.
translated by 谷歌翻译
为了从复杂的数据中提取基本信息,计算机科学家一直在开发学习低维表示模式的机器学习模型。从机器学习研究的这种进步来看,不仅计算机科学家,而且社会科学家也从中受益并推进了他们的研究,因为人类的行为或社会现象在于复杂的数据。为了记录这一新兴趋势,我们调查了最近的研究,该研究将单词嵌入技术应用于人类行为挖掘,建立分类法以说明被调查论文中使用的方法和程序,并突出显示最新的新兴趋势,将单词嵌入模型应用于非文本人类人类行为数据。这项调查进行了一个简单的实验,警告文献中使用的共同相似性测量,即使它们在总级别返回一致的结果,也可能产生不同的结果。
translated by 谷歌翻译
关于概念及其属性的常识知识(CSK)有助于AI应用程序。诸如ConceptNet之类的先前作品已经编译了大型CSK集合。但是,它们的表现力限制在主题性 - 预处理(SPO)的三联元中,对p和o的s和字符串的简单概念。与先前的作品相比,CSK断言具有精致的表现力和更好的精度和回忆。 Ascent ++通过用子组和方面捕获复合概念,以及用语义方面的主张来捕获复合概念。后者对于表达断言和进一步预选赛的时间和空间有效性至关重要。此外,Ascent ++将开放信息提取(OpenIE)与典型性和显着性分数的明智清洁和排名相结合。对于高覆盖范围,我们的方法挖掘到具有广泛的Web内容的大规模爬网C4中。通过人类判断的评估显示了上升++ Kb的卓越质量,以及对QA支持任务的外部评估强调了Ascent ++的好处。可以在https://ascentpp.mpi-inf.mpg.de/上访问Web界面,数据和代码。
translated by 谷歌翻译
建筑聊天禁令的最大挑战是培训数据。所需的数据必须逼真,足以训练聊天禁止。我们创建一个工具,用于从Facebook页面的Facebook Messenger获取实际培训数据。在文本预处理步骤之后,新获得的数据集生成FVNC和示例数据集。我们使用返回越南(Phobert)的伯特来提取文本数据的功能。 K-means和DBSCAN聚类算法用于基于Phobert $ _ {Base} $的输出嵌入式群集任务。我们应用V测量分数和轮廓分数来评估聚类算法的性能。我们还展示了Phobert的效率与样本数据集和Wiki DataSet上的特征提取中的其他模型相比。还提出了一种结合聚类评估的GridSearch算法来找到最佳参数。由于群集如此多的对话,我们节省了大量的时间和精力来构建培训Chatbot的数据和故事情节。
translated by 谷歌翻译
Deep Learning and Machine Learning based models have become extremely popular in text processing and information retrieval. However, the non-linear structures present inside the networks make these models largely inscrutable. A significant body of research has focused on increasing the transparency of these models. This article provides a broad overview of research on the explainability and interpretability of natural language processing and information retrieval methods. More specifically, we survey approaches that have been applied to explain word embeddings, sequence modeling, attention modules, transformers, BERT, and document ranking. The concluding section suggests some possible directions for future research on this topic.
translated by 谷歌翻译
观察到对于某些NLP任务,例如语义角色预测或主题拟合估计,随机嵌入性能以及预处理的嵌入方式,我们探索了哪些设置允许并检查大多数学习的编码:语义角色,语义角色,语义角色嵌入或``网络''。我们发现细微的答案,具体取决于任务及其与培训目标的关系。我们研究了多任务学习中的这些表示学习方面,在这些方面,角色预测和角色填充是受监督的任务,而几个主题拟合任务不在模型的直接监督之外。我们观察到某些任务的质量得分与培训数据规模之间的非单调关系。为了更好地理解此观察结果,我们使用这些任务的每个动力版本来分析这些结果。
translated by 谷歌翻译
即使机器学习算法已经在数据科学中发挥了重要作用,但许多当前方法对输入数据提出了不现实的假设。由于不兼容的数据格式,或数据集中的异质,分层或完全缺少的数据片段,因此很难应用此类方法。作为解决方案,我们提出了一个用于样本表示,模型定义和培训的多功能,统一的框架,称为“ Hmill”。我们深入审查框架构建和扩展的机器学习的多个范围范式。从理论上讲,为HMILL的关键组件的设计合理,我们将通用近似定理的扩展显示到框架中实现的模型所实现的所有功能的集合。本文还包含有关我们实施中技术和绩效改进的详细讨论,该讨论将在MIT许可下发布供下载。该框架的主要资产是其灵活性,它可以通过相同的工具对不同的现实世界数据源进行建模。除了单独观察到每个对象的一组属性的标准设置外,我们解释了如何在框架中实现表示整个对象系统的图表中的消息推断。为了支持我们的主张,我们使用框架解决了网络安全域的三个不同问题。第一种用例涉及来自原始网络观察结果的IoT设备识别。在第二个问题中,我们研究了如何使用以有向图表示的操作系统的快照可以对恶意二进制文件进行分类。最后提供的示例是通过网络中实体之间建模域黑名单扩展的任务。在所有三个问题中,基于建议的框架的解决方案可实现与专业方法相当的性能。
translated by 谷歌翻译