本文报告了在应用多维缩放(MDS)技术中以创建语言研究中的语义地图的最先进。 MDS指的是一种统计技术,其表示对象(词汇项,语言上下文,语言等)作为空间中的点,使得对象之间的密切相似性对应于表示表示中的对应点之间的距离。我们专注于使用MDS与在跨语言变异研究中使用的并行语料库数据相结合。我们首先介绍了MD的数学基础,然后略微概述过去的研究,采用MDS技术与并行语料库数据结合使用。我们提出了一组术语,以简便地描述特定MDS应用程序的关键参数。然后,我们表明,这种计算方法是理论中立的,即它可以用来在各种语言理论框架中回答研究问题。最后,我们展示了这在语言学中的MDS研究中的两条发展程度的发展。
translated by 谷歌翻译
最近有一项激烈的活动在嵌入非常高维和非线性数据结构的嵌入中,其中大部分在数据科学和机器学习文献中。我们分四部分调查这项活动。在第一部分中,我们涵盖了非线性方法,例如主曲线,多维缩放,局部线性方法,ISOMAP,基于图形的方法和扩散映射,基于内核的方法和随机投影。第二部分与拓扑嵌入方法有关,特别是将拓扑特性映射到持久图和映射器算法中。具有巨大增长的另一种类型的数据集是非常高维网络数据。第三部分中考虑的任务是如何将此类数据嵌入中等维度的向量空间中,以使数据适合传统技术,例如群集和分类技术。可以说,这是算法机器学习方法与统计建模(所谓的随机块建模)之间的对比度。在论文中,我们讨论了两种方法的利弊。调查的最后一部分涉及嵌入$ \ mathbb {r}^ 2 $,即可视化中。提出了三种方法:基于第一部分,第二和第三部分中的方法,$ t $ -sne,UMAP和大节。在两个模拟数据集上进行了说明和比较。一个由嘈杂的ranunculoid曲线组成的三胞胎,另一个由随机块模型和两种类型的节点产生的复杂性的网络组成。
translated by 谷歌翻译
We review clustering as an analysis tool and the underlying concepts from an introductory perspective. What is clustering and how can clusterings be realised programmatically? How can data be represented and prepared for a clustering task? And how can clustering results be validated? Connectivity-based versus prototype-based approaches are reflected in the context of several popular methods: single-linkage, spectral embedding, k-means, and Gaussian mixtures are discussed as well as the density-based protocols (H)DBSCAN, Jarvis-Patrick, CommonNN, and density-peaks.
translated by 谷歌翻译
系统发育比较方法在我们的领域是新的,并且对于大多数语言学家来说,至少有一点谜团。然而,导致他们在比较生物学中发现的道路与平衡抽样的方法论历史如此类似,这只是一个历史的事故,即他们没有被典型的专家发现。在这里,我们澄清了系统发育比较方法背后的基本逻辑及其对重点采样的深刻智力传统的基本相关性。然后我们介绍将在日常类型的研究中使用类型的概念,方法和工具,使类型学家能够在日常类型的研究中使用这些方法。系统发育比较方法和平衡采样的关键共性是他们试图因系谱而应对统计非独立性。虽然采样永远不会实现独立性,但需要大多数比较数据被丢弃,系统发育比较方法在保留和使用所有数据的同时实现独立性。我们讨论了系统发育信号的基本概念;关于树木的不确定性;典型的类型学平均值和比例对族谱敏感;跨语言家庭的比较;和体现的影响。广泛的补充材料说明了实际分析的计算工具,我们说明了与帕马尼云根腭膜对比的类型学案例研究讨论的方法。
translated by 谷歌翻译
该研究解决了在用线性鉴别学习建模拐点形态时出现的一系列方法问题。以半成本德国名词系统为例,我们说明了如何对表单和意义的代表作出的决策如何影响模型性能。我们澄清,为了建模频率效应在学习中,必须利用增量学习而不是学习的肠胃。我们还讨论如何设置模型,以近似语境中的流动词的学习。此外,我们说明了如何在这种方法中如何以相当大的细节建模。通常,该模型为已知的单词提供了优异的存储器,但适当地对未经展示数据进行了更有限的性能,符合德国原住民的德国名词拐点和泛化性能的半生产力。
translated by 谷歌翻译
十年自2010年以来,人工智能成功一直处于计算机科学和技术的最前沿,传染媒介空间模型已经巩固了人工智能最前沿的位置。与此同时,量子计算机已经变得更加强大,主要进步的公告经常在新闻中。这些区域的基础的数学技术比有时意识到更多的共同之处。传染媒介空间在20世纪30年代的量子力学的公理心脏上采取了位置,这一采用是从矢量空间的线性几何形状推导逻辑和概率的关键动机。粒子之间的量子相互作用是使用张量产品进行建模的,其也用于表达人工神经网络中的物体和操作。本文介绍了这些常见的数学区域中的一些,包括如何在人工智能(AI)中使用的示例,特别是在自动推理和自然语言处理(NLP)中。讨论的技术包括矢量空间,标量产品,子空间和含义,正交投影和否定,双向矩阵,密度矩阵,正算子和张量产品。应用领域包括信息检索,分类和含义,建模字传感和歧义,知识库的推断和语义构成。其中一些方法可能会在量子硬件上实现。该实施中的许多实际步骤都处于早期阶段,其中一些已经实现了。解释一些常见的数学工具可以帮助AI和量子计算中的研究人员进一步利用这些重叠,识别和沿途探索新方向。
translated by 谷歌翻译
基于变压器的语言模型最近在许多自然语言任务中取得了显着的结果。但是,通常通过利用大量培训数据来实现排行榜的性能,并且很少通过将明确的语言知识编码为神经模型。这使许多人质疑语言学对现代自然语言处理的相关性。在本文中,我介绍了几个案例研究,以说明理论语言学和神经语言模型仍然相互关联。首先,语言模型通过提供一个客观的工具来测量语义距离,这对语言学家很有用,语义距离很难使用传统方法。另一方面,语言理论通过提供框架和数据源来探究我们的语言模型,以了解语言理解的特定方面,从而有助于语言建模研究。本论文贡献了三项研究,探讨了语言模型中语法 - 听觉界面的不同方面。在论文的第一部分中,我将语言模型应用于单词类灵活性的问题。我将Mbert作为语义距离测量的来源,我提供了有利于将单词类灵活性分析为方向过程的证据。在论文的第二部分中,我提出了一种方法来测量语言模型中间层的惊奇方法。我的实验表明,包含形态句法异常的句子触发了语言模型早期的惊喜,而不是语义和常识异常。最后,在论文的第三部分中,我适应了一些心理语言学研究,以表明语言模型包含了论证结构结构的知识。总而言之,我的论文在自然语言处理,语言理论和心理语言学之间建立了新的联系,以为语言模型的解释提供新的观点。
translated by 谷歌翻译
在本文中,我们使用一系列建模技术来调查抽象手机是否可以从接触语音声音中出现。实际上,该研究代表了尝试从语言使用的抽象出现的基于使用的语言学理论设备的尝试。我们的任务侧重于最简单的这样的假设抽象。我们测试了两个关于语言知识在语言上的语言知识的反对原则:基于内存的学习(MBL)和纠错学习(ECL)。泛化的过程得到了抽象语言学家与之运作,我们探讨了MBL和ECL是否可以产生类似语言抽象的语言知识。每个模型都有一个由一个扬声器产生的大量预处理语音。我们评估了这些简单模型所学到的一致性或稳定性以及它们引起抽象类别的能力。两种类型的模型在这些测试方面的票价不同。我们表明ECL模型可以从输入中可靠地识别了ECL模型可以学习抽象,并且至少可以从输入中可靠地识别到传统类型中的电话库存和分组。
translated by 谷歌翻译
情绪分析中最突出的任务是为文本分配情绪,并了解情绪如何在语言中表现出来。自然语言处理的一个重要观察结果是,即使没有明确提及情感名称,也可以通过单独参考事件来隐式传达情绪。在心理学中,被称为评估理论的情感理论类别旨在解释事件与情感之间的联系。评估可以被形式化为变量,通过他们认为相关的事件的人们的认知评估来衡量认知评估。其中包括评估事件是否是新颖的,如果该人认为自己负责,是否与自己的目标以及许多其他人保持一致。这样的评估解释了哪些情绪是基于事件开发的,例如,新颖的情况会引起惊喜或不确定后果的人可能引起恐惧。我们在文本中分析了评估理论对情绪分析的适用性,目的是理解注释者是否可以可靠地重建评估概念,如果可以通过文本分类器预测,以及评估概念是否有助于识别情感类别。为了实现这一目标,我们通过要求人们发短信描述触发特定情绪并披露其评估的事件来编译语料库。然后,我们要求读者重建文本中的情感和评估。这种设置使我们能够衡量是否可以纯粹从文本中恢复情绪和评估,并为判断模型的绩效指标提供人体基准。我们将文本分类方法与人类注释者的比较表明,两者都可以可靠地检测出具有相似性能的情绪和评估。我们进一步表明,评估概念改善了文本中情绪的分类。
translated by 谷歌翻译
本次调查绘制了用于分析社交媒体数据的生成方法的研究状态的广泛的全景照片(Sota)。它填补了空白,因为现有的调查文章在其范围内或被约会。我们包括两个重要方面,目前正在挖掘和建模社交媒体的重要性:动态和网络。社会动态对于了解影响影响或疾病的传播,友谊的形成,友谊的形成等,另一方面,可以捕获各种复杂关系,提供额外的洞察力和识别否则将不会被注意的重要模式。
translated by 谷歌翻译
最近围绕语言处理模型的复杂性的最新炒作使人们对机器获得了类似人类自然语言的指挥的乐观情绪。人工智能中自然语言理解的领域声称在这一领域取得了长足的进步,但是,在这方面和其他学科中使用“理解”的概念性清晰,使我们很难辨别我们实际上有多近的距离。目前的方法和剩余挑战的全面,跨学科的概述尚待进行。除了语言知识之外,这还需要考虑我们特定于物种的能力,以对,记忆,标签和传达我们(足够相似的)体现和位置经验。此外,测量实际约束需要严格分析当前模型的技术能力,以及对理论可能性和局限性的更深入的哲学反思。在本文中,我将所有这些观点(哲学,认知语言和技术)团结在一起,以揭开达到真实(人类般的)语言理解所涉及的挑战。通过解开当前方法固有的理论假设,我希望说明我们距离实现这一目标的实际程度,如果确实是目标。
translated by 谷歌翻译
情感是引人入胜的叙事的关键部分:文学向我们讲述了有目标,欲望,激情和意图的人。情绪分析是情感分析更广泛,更大的领域的一部分,并且在文学研究中受到越来越多的关注。过去,文学的情感维度主要在文学诠释学的背景下进行了研究。但是,随着被称为数字人文科学(DH)的研究领域的出现,在文学背景下对情绪的一些研究已经发生了计算转折。鉴于DH仍被形成为一个领域的事实,这一研究方向可以相对较新。在这项调查中,我们概述了现有的情感分析研究机构,以适用于文献。所评论的研究涉及各种主题,包括跟踪情节发展的巨大变化,对文学文本的网络分析以及了解文本的情感以及其他主题。
translated by 谷歌翻译
集成不同学科的数据集很难,因为数据通常在含义,规模和可靠性中的定性不同。当两个数据集描述相同的实体时,许多科学问题可以围绕这种不同数据保守的(DIS)是否保守。我们的方法,清晰度,量化数据集的一致性,识别出现不一致的地方,并辅助其解释。我们使用三种不同的比较来说明这一点:基因甲基化与表达,语言的演变声音与单词使用,以及国家级经济指标与文化信仰。非参数方法对噪声和缩放的差异很强大,并且只有关于如何生成数据的弱假设。它通过将相似性分解为两个组件:类似于聚类的“结构”组件,以及这些结构之间的底层的“关系”。这允许使用从“结构”的可预测性的两个相似性矩阵之间的“结构比较”。在适合每个数据集的重新采样的帮助下评估重要性。本软件清晰度,可作为来自https://github.com/danjlawson/trarity的R包。
translated by 谷歌翻译
本文衡量了跨语言寄存器变化的稳定性。寄存器是各种与语言上下文相关的语言。寄存器及其上下文之间的关系是功能的:构成寄存器的语言特征是由交流状况的需求和约束所激发的。该观点假设寄存器应该是通用的,因此我们期望定义寄存器的语言外部环境与寄存器所包含的语言特征集之间存在稳定的关系。在本文中,使用在可比的交流情况下生成的Corpora在60种语言中比较寄存器特定语言中的变化来测试寄存器变化的普遍性和鲁棒性:推文和Wikipedia文章。我们的发现证实了寄存器变化实际上是普遍的预测。
translated by 谷歌翻译
作为对隐喻分析的贡献,我们介绍了一项基于统计的基于数据的研究,并对长期存在的猜想和对隐喻系统特征的有史以来的经验探索进行了经验分析。相反,这也使隐喻理论可作为含义出现的基础,可以定量探索并集成到NLP的框架中。
translated by 谷歌翻译
本地语言识别(NLI)是培训(通过监督机器学习)的任务,该分类器猜测文本作者的母语。在过去的十年中,这项任务已经进行了广泛的研究,多年来,NLI系统的性能稳步改善。我们专注于NLI任务的另一个方面,即分析由\ emph {Aupplable}机器学习算法培训的NLI分类器的内部组件,以获取其分类决策的解释,并具有获得的最终目标,即获得最终的目标。深入了解语言现象````赋予说话者''的母语''。我们使用这种观点来解决NLI和(研究得多的)伴侣任务,即猜测是由本地人还是非本地人说的文本。使用三个不同出处的数据集(英语学习者论文的两个数据集和社交媒体帖子的数据集),我们研究哪种语言特征(词汇,形态学,句法和统计)最有效地解决了我们的两项任务,即,最大的表明说话者的L1。我们还提出了两个案例研究,一个关于西班牙语,另一个关于意大利英语学习者,其中我们分析了分类器对发现这些L1最重要的单个语言特征。总体而言,我们的研究表明,使用可解释的机器学习可能是TH的宝贵工具
translated by 谷歌翻译
本章提供了计算语言学方法的介绍,重点是它们在翻译实践和研究中的应用。它涵盖了在翻译背景下对语言数据收集,存储,索引和分析的计算模型,方法和工具,并讨论了该领域的主要方法论问题和挑战。虽然对现有计算语言学方法和工具的详尽审查超出了本章的范围,但我们描述了最具代表性的方法,并用典型应用的描述来说明它们。
translated by 谷歌翻译
语言可以用作再现和执行有害刻板印象和偏差的手段,并被分析在许多研究中。在本文中,我们对自然语言处理中的性别偏见进行了304篇论文。我们分析了社会科学中性别及其类别的定义,并将其连接到NLP研究中性别偏见的正式定义。我们调查了在对性别偏见的研究中应用的Lexica和数据集,然后比较和对比方法来检测和减轻性别偏见。我们发现对性别偏见的研究遭受了四个核心限制。 1)大多数研究将性别视为忽视其流动性和连续性的二元变量。 2)大部分工作都在单机设置中进行英语或其他高资源语言进行。 3)尽管在NLP方法中对性别偏见进行了无数的论文,但我们发现大多数新开发的算法都没有测试他们的偏见模型,并无视他们的工作的伦理考虑。 4)最后,在这一研究线上发展的方法基本缺陷涵盖性别偏差的非常有限的定义,缺乏评估基线和管道。我们建议建议克服这些限制作为未来研究的指导。
translated by 谷歌翻译
可视化非常大的矩阵涉及许多强大的问题。这些问题的各种流行的解决方案涉及采样,群集,投影或特征选择,以降低原始任务的大小和复杂性。这些方法的一个重要方面是如何在减少行和列以便在较低尺寸空间中保持高维空间中的点之间的相对距离。这方面很重要,因为基于错误的视觉推理的结论可能是有害的。在可视化的基础上判断与相似或类似的点相似或类似的点可以导致错误的结论。为了改善这种偏差并使非常大的数据集的可视化可行,我们介绍了两个新的算法,分别选择矩形矩阵的行和列的子集。这种选择旨在尽可能地保持相对距离。我们将矩阵素描与各种人工和真实数据集的更传统的替代品进行比较。
translated by 谷歌翻译
尽管最近在机器学习用于自然语言处理的机器学习方面,但自然语言推论(NLI)问题仍然是挑战。为此目的,我们贡献了一个新的数据集,专注于事实现象;但是,我们的任务与其他NLI任务保持相同,即引起的征集,矛盾或中性(ECN)。 DataSet在波兰语中包含完全自然语言话语,收集2,432个动词补充对和309个独特的动词。 DataSet基于国家波兰语(NKJP)的国家语料库,是主要动词频率和其他语言特征的代表性样本(例如,内部否定的发生)。我们发现,基于变压器的基于判决的模型获得了相对良好的结果($ \ \左右89 \%$ F1得分)。尽管使用语言特征实现了更好的结果($ \大约91 \%$ F1得分),但这种模型需要更多人工劳动力(循环中的人类),因为专家语言学家手动制备特征。基于BERT的模型仅消耗输入句子表明,它们捕获了NLI / Factivity的大部分复杂性。现象中的复杂病例 - 例如具有权利(e)和非致命动词的案件 - 仍然是进一步研究的开放问题。
translated by 谷歌翻译