儿童的早期演讲通常与成人演讲形式或内容几乎没有相似之处,但照顾者经常发现幼儿的话语中的意义。确切地说,护理人员能够做到这一点仍然知之甚少。我们建议,成功的早期沟通(语言发展的基本构建基础)不仅依赖儿童的语言知识,还依赖于成年人的复杂推论。我们进一步提出,这些推论是针对儿童说话的细节细节进行了优化的。我们使用基于深度学习和贝叶斯推论的一系列口语识别的候选计算模型评估这些想法,这些模型就成年人用于了解儿童的信息来源实例化了相互竞争的假设。我们发现,表现最佳的模型(对儿童言语解释的数据集进行了评估)是那些对孩子可能想交流的事先期望的,而不是儿童所说的实际语音内容。我们进一步发现,成年人的行为是对特定儿童的表征最好的特征:单词识别模型越接近单个孩子的实际语言行为的细节,它越好预测成年人对孩子的推论的推论越好说。这些结果对照顾者作为指导儿童的听众的作用进行了全面的调查,对语言获取理论的影响更大。
translated by 谷歌翻译
语言是协调问题的强大解决方案:他们提供了稳定的,有关我们所说的单词如何对应于我们头脑中的信仰和意图的共同期望。然而,在变量和非静止社会环境中的语言使用需要语言表征来灵活:旧词在飞行中获取新的临时或合作伙伴特定含义。在本文中,我们介绍了柴(通过推理的连续分层适应),一个分层贝叶斯的协调理论和会议组织,旨在在这两个基本观察之间调和长期张力。我们认为,沟通的中央计算问题不仅仅是传输,如在经典配方中,而是在多个时间尺度上持续学习和适应。合作伙伴特定的共同点迅速出现在数型互动中的社会推论中,而社群范围内的社会公约是稳定的前锋,这些前锋已经抽象出与多个合作伙伴的互动。我们展示了新的实证数据,展示了我们的模型为多个现象提供了对先前账户挑战的计算基础:(1)与同一合作伙伴的重复互动的更有效的参考表达的融合(2)将合作伙伴特定的共同基础转移到陌生人,并(3)交际范围的影响最终会形成。
translated by 谷歌翻译
在本文中,我们使用一系列建模技术来调查抽象手机是否可以从接触语音声音中出现。实际上,该研究代表了尝试从语言使用的抽象出现的基于使用的语言学理论设备的尝试。我们的任务侧重于最简单的这样的假设抽象。我们测试了两个关于语言知识在语言上的语言知识的反对原则:基于内存的学习(MBL)和纠错学习(ECL)。泛化的过程得到了抽象语言学家与之运作,我们探讨了MBL和ECL是否可以产生类似语言抽象的语言知识。每个模型都有一个由一个扬声器产生的大量预处理语音。我们评估了这些简单模型所学到的一致性或稳定性以及它们引起抽象类别的能力。两种类型的模型在这些测试方面的票价不同。我们表明ECL模型可以从输入中可靠地识别了ECL模型可以学习抽象,并且至少可以从输入中可靠地识别到传统类型中的电话库存和分组。
translated by 谷歌翻译
自然语言处理的机器学习快速进步有可能改变有关人类学习语言的辩论。但是,当前人工学习者和人类的学习环境和偏见以削弱从学习模拟获得的证据的影响的方式分歧。例如,当今最有效的神经语言模型接受了典型儿童可用的语言数据量的大约一千倍。为了增加计算模型的可学习性结果的相关性,我们需要培训模型学习者,而没有比人类具有显着优势的学习者。如果合适的模型成功地获得了一些目标语言知识,则可以提供一个概念证明,即在假设的人类学习方案中可以学习目标。合理的模型学习者将使我们能够进行实验操作,以对学习环境中的变量进行因果推断,并严格测试史密斯风格的贫困声明,主张根据人类对人类的先天语言知识,基于有关可学习性的猜测。由于实用和道德的考虑因素,人类受试者将永远无法实现可比的实验,从而使模型学习者成为必不可少的资源。到目前为止,试图剥夺当前模型的不公平优势,为关键语法行为(例如可接受性判断)获得亚人类结果。但是,在我们可以合理地得出结论,语言学习需要比当前模型拥有更多的特定领域知识,我们必须首先以多模式刺激和多代理互动的形式探索非语言意见,以使学习者更有效地学习学习者来自有限的语言输入。
translated by 谷歌翻译
为什么孩子们在别人面前学习一些话?了解儿童的个性变异性以及跨文字的可变性,可能是借助语言学习的学习过程的信息。我们使用来自儿童定向语音的大语料库的分布统计数据的词汇属性来研究基于物品的可变性。与以前的分析不同,我们预测了横截一性的词轨迹,阐明了在单个时间点可能没有明显的词汇发展的趋势。我们还表明,人们是否看一下单个年龄组或整个年龄,孩子是否知道一个词的最佳分配预测因子是其他已知单词的数量,其中该词往往会发生共同。关键词:收购年龄;词汇发展;词汇多样性;儿童定向演讲;
translated by 谷歌翻译
情绪分析中最突出的任务是为文本分配情绪,并了解情绪如何在语言中表现出来。自然语言处理的一个重要观察结果是,即使没有明确提及情感名称,也可以通过单独参考事件来隐式传达情绪。在心理学中,被称为评估理论的情感理论类别旨在解释事件与情感之间的联系。评估可以被形式化为变量,通过他们认为相关的事件的人们的认知评估来衡量认知评估。其中包括评估事件是否是新颖的,如果该人认为自己负责,是否与自己的目标以及许多其他人保持一致。这样的评估解释了哪些情绪是基于事件开发的,例如,新颖的情况会引起惊喜或不确定后果的人可能引起恐惧。我们在文本中分析了评估理论对情绪分析的适用性,目的是理解注释者是否可以可靠地重建评估概念,如果可以通过文本分类器预测,以及评估概念是否有助于识别情感类别。为了实现这一目标,我们通过要求人们发短信描述触发特定情绪并披露其评估的事件来编译语料库。然后,我们要求读者重建文本中的情感和评估。这种设置使我们能够衡量是否可以纯粹从文本中恢复情绪和评估,并为判断模型的绩效指标提供人体基准。我们将文本分类方法与人类注释者的比较表明,两者都可以可靠地检测出具有相似性能的情绪和评估。我们进一步表明,评估概念改善了文本中情绪的分类。
translated by 谷歌翻译
关于人类阅读的研究长期以来一直记录在阅读行为表明特定于任务的效果,但是建立一个通用模型来预测人类在给定任务中将显示什么的通用模型。我们介绍了Neat,这是人类阅读中注意力分配的计算模型,基于人类阅读优化了一项任务中关注经济和成功之间的权衡。我们的模型是使用当代神经网络建模技术实施的,并对注意力分配的分配方式在不同任务中如何变化做出明确的测试预测。我们在一项针对阅读理解任务的两个版本的眼影研究中对此进行了测试,发现我们的模型成功说明了整个任务的阅读行为。因此,我们的工作提供了证据表明,任务效果可以建模为对任务需求的最佳适应。
translated by 谷歌翻译
为什么普通语言模糊不清?我们认为,在合作扬声器没有完全了解世界的情况下,使用模糊表达可以在真实性(Gricean质量)和信息性之间提供最佳权衡(Gricean数量)。专注于诸如“周围”的近似的表达,这表明他们允许扬声器传达间接概率信息,这种信息可以使听众更准确地表示发言者可用的信息的信息。更精确的表达将是(之间的间隔“)。也就是说,模糊的句子可以比他们精确的对应物更有信息。我们对“周围”解释的概率处理,并提供了解释和使用“围绕” - 理性语音法(RSA)框架的典范。在我们的账户中,扬声器分配事项的形状不是由RSA框架标准用于模糊谓词的词汇不确定性模型的方式预测。我们利用我们的方法绘制关于模糊表达的语义灵活性的进一步教训及其对更精确的含义的不可缩短。
translated by 谷歌翻译
基于变压器的语言模型最近在许多自然语言任务中取得了显着的结果。但是,通常通过利用大量培训数据来实现排行榜的性能,并且很少通过将明确的语言知识编码为神经模型。这使许多人质疑语言学对现代自然语言处理的相关性。在本文中,我介绍了几个案例研究,以说明理论语言学和神经语言模型仍然相互关联。首先,语言模型通过提供一个客观的工具来测量语义距离,这对语言学家很有用,语义距离很难使用传统方法。另一方面,语言理论通过提供框架和数据源来探究我们的语言模型,以了解语言理解的特定方面,从而有助于语言建模研究。本论文贡献了三项研究,探讨了语言模型中语法 - 听觉界面的不同方面。在论文的第一部分中,我将语言模型应用于单词类灵活性的问题。我将Mbert作为语义距离测量的来源,我提供了有利于将单词类灵活性分析为方向过程的证据。在论文的第二部分中,我提出了一种方法来测量语言模型中间层的惊奇方法。我的实验表明,包含形态句法异常的句子触发了语言模型早期的惊喜,而不是语义和常识异常。最后,在论文的第三部分中,我适应了一些心理语言学研究,以表明语言模型包含了论证结构结构的知识。总而言之,我的论文在自然语言处理,语言理论和心理语言学之间建立了新的联系,以为语言模型的解释提供新的观点。
translated by 谷歌翻译
该研究解决了在用线性鉴别学习建模拐点形态时出现的一系列方法问题。以半成本德国名词系统为例,我们说明了如何对表单和意义的代表作出的决策如何影响模型性能。我们澄清,为了建模频率效应在学习中,必须利用增量学习而不是学习的肠胃。我们还讨论如何设置模型,以近似语境中的流动词的学习。此外,我们说明了如何在这种方法中如何以相当大的细节建模。通常,该模型为已知的单词提供了优异的存储器,但适当地对未经展示数据进行了更有限的性能,符合德国原住民的德国名词拐点和泛化性能的半生产力。
translated by 谷歌翻译
我们为自然主义儿童和以英文为指导的语音介绍了句法依赖性树库(Macwhinney,2000年)。我们的注释在很大程度上遵循了通用依赖项目的准则(UD(Zeman等,2022)),并详细扩展了对会话语音独有的词汇/句法结构(反对书面文本)。与现有的UD风格的口语库以及其他儿童互动的依赖性语料库相比,我们的数据集具有(大量)的大小(n tusterances = 44,744; n of单词= 233,907),并包含来自一个的语音总共有10名儿童覆盖了年龄范围(18-66个月)。使用此数据集,我们问:(1)针对书面域名量身定制的最先进的依赖解析器将如何为自发对话中的不同对话者的语音执行吗? (2)解析器表现与孩子的发展阶段之间有什么关系?为了解决这些问题,在正在进行的工作中,我们使用基于图的基于图和过渡的解析器进行了彻底的依赖解析器评估,这些解析器具有不同的高参数化,并从三种不同类型的室外书面文本进行培训:新闻,推文和学习者:数据。
translated by 谷歌翻译
语言在句法结构上有很大差异。世界上约40%的语言具有主语对象顺序,约40%的语言具有对象 - 对象 - 动词顺序。广泛的工作试图解释跨语言的单词顺序变化。但是,现有的方法无法用单个语言的单词顺序解释频率分布和演变。我们建议,单词顺序的变化反映了平衡依赖性区域和信息局部性的竞争压力的不同方式,当元素在语法上相关或彼此之间有上下文信息时,语言偏爱将它们放在一起。使用来自17个语言家族的80种语言的数据和系统发育建模,我们证明了语言的发展以平衡这些压力,因此单词顺序变化伴随着句法结构的频率分布的变化,这些句法结构的频率分布会说话,以维持整体效率。因此,单词顺序的可变性反映了语言解决这些进化压力的不同方式。我们确定了该关节优化产生的相关特征,尤其是对同一动词共同表达对象和对象的频率。我们的发现表明,跨语言的句法结构和用法共同适应有限的认知资源,以支持有效的沟通。
translated by 谷歌翻译
最近围绕语言处理模型的复杂性的最新炒作使人们对机器获得了类似人类自然语言的指挥的乐观情绪。人工智能中自然语言理解的领域声称在这一领域取得了长足的进步,但是,在这方面和其他学科中使用“理解”的概念性清晰,使我们很难辨别我们实际上有多近的距离。目前的方法和剩余挑战的全面,跨学科的概述尚待进行。除了语言知识之外,这还需要考虑我们特定于物种的能力,以对,记忆,标签和传达我们(足够相似的)体现和位置经验。此外,测量实际约束需要严格分析当前模型的技术能力,以及对理论可能性和局限性的更深入的哲学反思。在本文中,我将所有这些观点(哲学,认知语言和技术)团结在一起,以揭开达到真实(人类般的)语言理解所涉及的挑战。通过解开当前方法固有的理论假设,我希望说明我们距离实现这一目标的实际程度,如果确实是目标。
translated by 谷歌翻译
尽管大量的工作已经审查了条件句子的含义,但对其务实使用和解释的正式模型的关注要少得多。在这里,我们采用一种概率方法来实用务实的推理,以灵活地整合有关富有结构化世界国家的梯度信念。我们基于关于说话者的话语生产方案的假设,对听众对他们先前关于世界因果结构的信念以及随之而来的前身的共同概率进行了建模。我们表明,当提供自然上下文假设时,我们的模型统一地解释了文献中的许多推论,包括认识论推断,条件完美以及对条件和条件的依赖性。我们认为,这种方法还有助于解释杜文(Douven,2012)引入的三个难题有关有条件的更新:取决于话语背景,听众对先决条件的信念可能会增加,减少或保持不变。
translated by 谷歌翻译
语法提示有时具有自然语言的单词含义。例如,英语单词顺序规则限制了句子的单词顺序,例如“狗咀嚼骨头”,即使可以从世界知识和合理性中推断出“狗”作为代理人和“骨头”的状态。量化这种冗余的发生频率,以及冗余水平如何在类型上多样化的语言中变化,可以阐明语法的功能和演变。为此,我们在英语和俄语中进行了一个行为实验,并进行了跨语言计算分析,以测量从自然主义文本中提取的及物子句中语法线索的冗余性。从自然发生的句子中提取的主题,动词和物体(按随机顺序和形态标记)提出了英语和俄罗斯说话者(n = 484),并被要求确定哪个名词是该动作的推动者。两种语言的准确性都很高(英语约为89%,俄语为87%)。接下来,我们在类似的任务上训练了神经网络机分类器:预测主题对象三合会中的哪个名义是主题。在来自八个语言家庭的30种语言中,性能始终很高:中位准确性为87%,与人类实验中观察到的准确性相当。结论是,语法提示(例如单词顺序)对于仅在10-15%的自然句子中传达了代理和耐心是必要的。然而,他们可以(a)提供重要的冗余来源,(b)对于传达无法从单词中推断出的预期含义至关重要,包括对人类互动的描述,在这些含义中,角色通常是可逆的(例如,雷(Ray)帮助lu/ Lu帮助雷),表达了非典型的含义(例如,“骨头咀嚼狗”。)。
translated by 谷歌翻译
启动和抗精气可以通过错误驱动的学习来建模(Marsolek,2008),假设学习质量的影响对目标刺激的处理进行了学习。这意味着参与者在启动研究中不断学习,并预测他们在其他心理语言实验的每项试验中也在学习。这项研究调查了在词汇决策实验中是否可以检测到试验学习。我们使用了判别词典模型(DLM; Baayen等,2019),这是一种具有分布语义的含义表示的精神词典模型,该模型具有分布语义的含义表示,该模型以Widrow-hoff规则为增量学习模型。我们使用了英国词典项目(BLP; Keuleers等,2012)的数据,并对每个受试者单独进行试用基础进行了DLM模拟词汇决策实验。然后,使用源自DLM模拟作为预测因子的措施预测单词和非单词的反应时间。使用两个受试者的数据开发模型,并对所有其他受试者进行了测试。我们从两个模拟中为每个主题提取了措施(一个在试验之间进行了学习更新,一个没有),并将其用作两个GAM的输入。基于学习的模型比大多数受试者的非学习模型表现出更好的模型拟合度。我们的措施还提供了有关词汇处理的见解,并使我们能够通过线性混合模型探索个体差异。这证明了DLM对行为数据进行建模的潜力,并得出这样的结论:在心理语言实验中确实可以检测到试验到审判的学习。
translated by 谷歌翻译
The success of the large neural language models on many NLP tasks is exciting. However, we find that these successes sometimes lead to hype in which these models are being described as "understanding" language or capturing "meaning". In this position paper, we argue that a system trained only on form has a priori no way to learn meaning. In keeping with the ACL 2020 theme of "Taking Stock of Where We've Been and Where We're Going", we argue that a clear understanding of the distinction between form and meaning will help guide the field towards better science around natural language understanding.
translated by 谷歌翻译
People constantly use language to learn about the world. Computational linguists have capitalized on this fact to build large language models (LLMs) that acquire co-occurrence-based knowledge from language corpora. LLMs achieve impressive performance on many tasks, but the robustness of their world knowledge has been questioned. Here, we ask: do LLMs acquire generalized knowledge about real-world events? Using curated sets of minimal sentence pairs (n=1215), we tested whether LLMs are more likely to generate plausible event descriptions compared to their implausible counterparts. We found that LLMs systematically distinguish possible and impossible events (The teacher bought the laptop vs. The laptop bought the teacher) but fall short of human performance when distinguishing likely and unlikely events (The nanny tutored the boy vs. The boy tutored the nanny). In follow-up analyses, we show that (i) LLM scores are driven by both plausibility and surface-level sentence features, (ii) LLMs generalize well across syntactic sentence variants (active vs passive) but less well across semantic sentence variants (synonymous sentences), (iii) some, but not all LLM deviations from ground-truth labels align with crowdsourced human judgments, and (iv) explicit event plausibility information emerges in middle LLM layers and remains high thereafter. Overall, our analyses reveal a gap in LLMs' event knowledge, highlighting their limitations as generalized knowledge bases. We conclude by speculating that the differential performance on impossible vs. unlikely events is not a temporary setback but an inherent property of LLMs, reflecting a fundamental difference between linguistic knowledge and world knowledge in intelligent systems.
translated by 谷歌翻译
Grammatical Error Correction (GEC) is the task of automatically detecting and correcting errors in text. The task not only includes the correction of grammatical errors, such as missing prepositions and mismatched subject-verb agreement, but also orthographic and semantic errors, such as misspellings and word choice errors respectively. The field has seen significant progress in the last decade, motivated in part by a series of five shared tasks, which drove the development of rule-based methods, statistical classifiers, statistical machine translation, and finally neural machine translation systems which represent the current dominant state of the art. In this survey paper, we condense the field into a single article and first outline some of the linguistic challenges of the task, introduce the most popular datasets that are available to researchers (for both English and other languages), and summarise the various methods and techniques that have been developed with a particular focus on artificial error generation. We next describe the many different approaches to evaluation as well as concerns surrounding metric reliability, especially in relation to subjective human judgements, before concluding with an overview of recent progress and suggestions for future work and remaining challenges. We hope that this survey will serve as comprehensive resource for researchers who are new to the field or who want to be kept apprised of recent developments.
translated by 谷歌翻译
当前的语言模型可以产生高质量的文本。他们只是复制他们之前看到的文本,或者他们学习了普遍的语言抽象吗?要取笑这些可能性,我们介绍了乌鸦,这是一套评估生成文本的新颖性,专注于顺序结构(n-gram)和句法结构。我们将这些分析应用于四种神经语言模型(LSTM,变压器,变换器-XL和GPT-2)。对于本地结构 - 例如,单个依赖性 - 模型生成的文本比来自每个模型的测试集的人类生成文本的基线显着不那么新颖。对于大规模结构 - 例如,总句结构 - 模型生成的文本与人生成的基线一样新颖甚至更新颖,但模型仍然有时复制,在某些情况下,在训练集中重复超过1000字超过1,000字的通道。我们还表现了广泛的手动分析,表明GPT-2的新文本通常在形态学和语法中形成良好,但具有合理的语义问题(例如,是自相矛盾)。
translated by 谷歌翻译