我们调查使用图像中包含的多模式信息作为增强文本生成的变压器模型的勤义的有效方法。我们在概念到文本生成中使用BART和T5进行实验,特别是生成致辞推理或蒙的任务。我们称之为Visctg:视觉地基础的概念到文本生成。VisctG涉及代表适当日常方案的标题图像,并使用这些标题来丰富和转向生成过程。综合评估和分析表明,VisctG显着提高了模型性能,同时成功地解决了基线几代的几个问题,包括差的致辞,流畅性和特异性。
translated by 谷歌翻译
我们激励并提出了一套简单但有效的改进,涉及蓝宝石的概念到文本生成:设置增强和后期短语infilling和重组。我们通过使用BART和T5模型的实验展示了它们对生成型号推理的有效性A.k.a.。通过广泛的自动和人类评估,我们表明蓝宝石显着提高了模型性能。深入的定性分析说明了蓝宝石有效地解决了基线模型世代的许多问题,包括缺乏致辞,特异性不足,流畅性差。
translated by 谷歌翻译
人类使用自然语言来撰写普通概念,将他们的环境归结为合理的日常场景描述。然而,这种生成的致辞推理(GCSR)技能缺乏最先进的文本生成方法。关于由神经文本生成模型(例如,预先接受的文本到文本变压器)生成的任意概念的描述性句子通常是语法流畅的,但可能与人类常识不相符,这主要是由于它们缺乏捕获概念关系的机制识别隐式概念,并对看不见的概念组成来执行概括的推理。在本文中,我们提出了一种想象的 - 言语(I&V)方法,其学会在输入概念之间的关系中想象一个关系场景知识图(SKG),并在生成合理的场景描述时利用SKG作为约束。我们收集和协调来自不同领域和方式的一套知识资源,为I&v提供丰富的辅助监督信号。该实验展示了I&V在提高概念到句子和概念到故事的生成任务上的语言模型的有效性,同时使模型能够从更少的任务示例中学习并生成对人类注入者常识的SKG。
translated by 谷歌翻译
拟人化是一种语音人物,它赋予无生命实体具有属性和行动,通常被视为需要动画。在本文中,我们探讨了人格化生成的任务。为此,我们提出了菠萝:通过获取平行的人格化数据来学习增强的产生,来拟人化无生命的实体。我们策划了一个名为PersonifCorp的拟人化语料库,并自动生成了这些拟人化的文字化。我们通过训练SEQ2SEQ模型来拟人化给定的文字输入,从而证明了该平行语料库的有用性。自动评估和人类评估都表明,通过人格科目进行微调会带来与人格化相关的素质(例如动画和兴趣)的显着提高。详细的定性分析还强调了菠萝在基准上的关键优势和瑕疵,表明具有强大的能力产生多样化和创造性的拟人化,从而增强了句子的整体吸引力。
translated by 谷歌翻译
根据其结构如何影响文本的解释和意义,文本中存在许多隐式推论。具有年代学中的文本中存在的一个这样的结构方面是其演示的顺序。对于叙述或故事,这被称为叙述顺序。重新排序叙述可能影响时间,因果,事件和其他推论读者从中抽取,这反过来可能对其解释和有趣有很大的影响。在本文中,我们提出并调查了叙事重新排序(Nareor)的任务,涉及以不同的叙述顺序重写给定的故事,同时保留其情节。我们在非线性订单中展示了一个DataSet,Nareorc,在洛奇因子内的故事中的人类重写,并对其进行详细分析。此外,我们提出了具有合适的评估指标的新型任务特定培训方法。我们使用诸如BART和T5等最先进的模型进行Nareorc的实验,并进行广泛的自动和人类评估。我们证明,尽管我们的模型可以体现,但是Nareor是一个具有挑战性的任务,具有进一步探索的潜力。我们还调查了Nareor的两种应用:生成更有趣的故事变化,并且作为临时/事件相关任务的对抗集,除了讨论其他潜在的任务之外,例如与文章技能相关的教学设置,如文章写作和医学的应用。涉及临床叙事。
translated by 谷歌翻译
生成的型号推理需要机器生成描述日常情景的句子,这是几种概念,最近引起了很多关注。然而,现有模型不能表现和人类,因为它们产生的句子通常是难以置疑和语法的不正确。在本文中,灵感来自人类创造句子的过程,我们提出了一种新颖的知识增强的致辞生成框架,被称为kgr ^ 4,由四个阶段组成:检索,回顾,精炼,重新思考。在此框架下,我们首先执行检索以搜索从外部语料库作为原型的相关句子。然后,我们训练发电机编辑或复制这些原型以生成候选句子,其中基于AutoEncoder的炼油器将修复候选句子。最后,我们从具有不同超参数的生成器产生的候选句子中选择输出句子。对蒙古基准测试的实验结果和深入分析强烈展示了我们框架的有效性。特别是,KGR ^ 4获得官方排行榜中的33.56个香料点,优于前面报告的最佳结果2.49香料点,实现最先进的性能。
translated by 谷歌翻译
This work aims to employ natural language generation (NLG) to rapidly generate items for English language learning applications: this requires both language models capable of generating fluent, high-quality English, and to control the output of the generation to match the requirements of the relevant items. We experiment with deep pretrained models for this task, developing novel methods for controlling items for factors relevant in language learning: diverse sentences for different proficiency levels and argument structure to test grammar. Human evaluation demonstrates high grammatically scores for all models (3.4 and above out of 4), and higher length (24%) and complexity (9%) over the baseline for the advanced proficiency model. Our results show that we can achieve strong performance while adding additional control to ensure diverse, tailored content for individual users.
translated by 谷歌翻译
This paper addresses the quality issues in existing Twitter-based paraphrase datasets, and discusses the necessity of using two separate definitions of paraphrase for identification and generation tasks. We present a new Multi-Topic Paraphrase in Twitter (MultiPIT) corpus that consists of a total of 130k sentence pairs with crowdsoursing (MultiPIT_crowd) and expert (MultiPIT_expert) annotations using two different paraphrase definitions for paraphrase identification, in addition to a multi-reference test set (MultiPIT_NMR) and a large automatically constructed training set (MultiPIT_Auto) for paraphrase generation. With improved data annotation quality and task-specific paraphrase definition, the best pre-trained language model fine-tuned on our dataset achieves the state-of-the-art performance of 84.2 F1 for automatic paraphrase identification. Furthermore, our empirical results also demonstrate that the paraphrase generation models trained on MultiPIT_Auto generate more diverse and high-quality paraphrases compared to their counterparts fine-tuned on other corpora such as Quora, MSCOCO, and ParaNMT.
translated by 谷歌翻译
我们建立了一种基于规校的图像标题模型的人类评估协议。我们的得分标准及其定义是基于MSCOCO数据集上的机器和人类生成的标题仔细开发。每个字幕沿着权衡(精确和召回)中的两个主要尺寸以及测量文本质量的其他方面(流利,简洁,包容性语言)。我们的评估表明了当前评估实践的几个关键问题。人生成的标题显示出比机器生成的字块的质量大得多,特别是在突出信息的覆盖范围内(即,召回),而所有自动度量都可以说相反。我们基于规度的标准结果表明,曲线芯片,最近使用图像特征的度量标准,与人类判断更好地相关,因为它对召回更敏感。我们希望这项工作将推动更透明的图像标题和自动指标的评估协议。
translated by 谷歌翻译
预训练的语言模型(PTLM)已显示出在自然语言任务上表现良好。许多先前的作品都以通过知识图(KGS)标记的关系链接的实体的形式利用结构性常识来协助PTLM。检索方法使用kg作为单独的静态模块,该模块限制了覆盖范围,因为kgs包含有限的知识。生成方法训练PTLMS kg三倍以提高获得知识的规模。但是,对符号KG实体的培训限制了其在涉及自然语言文本的任务中的适用性,在这些任务中,它们忽略了整体上下文。为了减轻这种情况,我们提出了一个以句子为条件的常识性上下文化器(COSE-CO)作为输入,以使其在生成与输入文本的整体上下文相关的任务中通常可用。为了训练Cose-Co,我们提出了一个新的数据集,其中包括句子和常识知识对。 COSE-CO推断出的知识是多种多样的,并且包含了基础KG中不存在的新实体。我们增强了在多选质量质量检查和开放式常识性推理任务中产生的知识,从而改善了CSQA,ARC,QASC和OBQA数据集的当前最佳方法。我们还展示了其在改善释义生成任务的基线模型方面的适用性。
translated by 谷歌翻译
Natural language explanations promise to offer intuitively understandable explanations of a neural network's decision process in complex vision-language tasks, as pursued in recent VL-NLE models. While current models offer impressive performance on task accuracy and explanation plausibility, they suffer from a range of issues: Some models feature a modular design where the explanation generation module is poorly integrated with a separate module for task-answer prediction, employ backbone models trained on limited sets of tasks, or incorporate ad hoc solutions to increase performance on single datasets. We propose to evade these limitations by applying recent advances in large-scale multi-task pretraining of generative Transformer models to the problem of VL-NLE tasks. Our approach outperforms recent models by a large margin, with human annotators preferring the generated explanations over the ground truth in two out of three evaluated datasets. As a novel challenge in VL-NLE research, we propose the problem of multi-task VL-NLE and show that jointly training on multiple tasks can increase the explanation quality. We discuss the ethical implications of high-quality NLE generation and other issues in recent VL-NLE research.
translated by 谷歌翻译
舌头是有意义的句子,难以发音。自动产生舌头扭曲的过程具有挑战性,因为产生的话语必须立即满足两个条件:语音难度和语义含义。此外,语音难度本身很难表征,并且通过异质的现象(例如垂涎和谐音)的异质组合以自然的扭曲词来表达。在本文中,我们提出了Pancetta:音素意识到的神经完成,以自动引起舌头扭曲。我们利用音素表示来捕获语音难度的概念,并训练语言模型以在两个提出的任务设置上生成原始的舌头扭曲。为此,我们策划了一个名为Pancetta的数据集,该数据集由现有的英语舌头组成。通过自动和人类评估以及定性分析,我们表明pancetta产生了新颖,语音上的困难,流利和语义上有意义的舌头扭曲。
translated by 谷歌翻译
近年来带来了对自然语言理解领域的勤义代表和推理的重新兴趣。新的致辞知识图表(CSKG)的发展是这些进步的核心,因为他们的不同事实可以通过机器学习模型来解决新的和具有挑战性的任务。与此同时,由于全面地涵盖了一般勤杂朗知识所需的大规模规模,对这些资源的质量和覆盖率仍存在疑问。在这项工作中,我们将手动构建的CSKGS分配在NLP代理商遇到的所有情况下,我们将永远不会实现适用所需的覆盖范围。因此,我们提出了一种新的评估框架,用于测试KGS的效用,基于如何从中学习有效的隐式知识表示。通过这一新目标,我们提出了一个含有知识的全新CSKG的新CSKG,该知识不容易获得预用的语言模型。我们与其他领先的CSKG相比,评估其属性,表现了对勤杂朗语言知识资源的第一个大规模对研究。接下来,我们显示原子2020更适合培训知识模型,可以为新的,看不见的实体和事件产生准确,代表知识。最后,通过人类评估,我们表明,尽管使用超过430倍的参数,但GPT-3(175B参数)的几次射击性能较低,而令人印象深刻,令人印象深刻,令人印象深刻,令人印象深刻,仍然低于原子型2020的巴特的知识模型。
translated by 谷歌翻译
我们挑战AI模型,以“展示”对《纽约客》标题比赛的复杂多模式幽默的理解。具体而言,我们开发了三个精心限制的任务,以掌握图像和标题之间的潜在复杂和意外的关系,并且对人类经验的广泛品种产生了复杂和意外的寓意;这些是纽约口径卡通的标志。我们调查了直接将卡通像素和字幕输入的视觉和语言模型,以及仅通过提供图像的文本描述来规避图像处理的仅限语言模型。即使我们为卡通图像提供了丰富的多方面注释,我们也可以确定高质量的机器学习模型(例如,微调,175b参数语言模型)和人类之间的性能差距。我们公开发布我们的语料库,包括描述图像的位置/实体的注释,场景的不寻常以及对笑话的解释。
translated by 谷歌翻译
图像标题模型通常缺乏考虑用户兴趣的能力,通常默认为试图平衡可读性,信息性和信息过载的全局描述。另一方面,VQA模型通常缺乏提供长描述性答案的能力,同时期望文本问题非常精确。我们介绍一种控制图像标题应该专注于的概念的方法,使用称为指导文本的额外输入,该概念是指图像中的可接近或未放置的概念。我们的模型包括一个基于变换器的多模式编码器,它使用引导文本与全局和对象级别图像功能一起导出用于生成引导标题的早期融合表示。虽然在视觉基因组数据上培训的模型时,在使用自动对象标签的引导时具有适应良好的域的域中优势,但我们发现在概念标题上培训的引导标题模型概括为域外图像和引导文本。我们的人为评估结果表明,尝试野外引导的图像标题需要访问大,不受限制的域训练数据集,并且增加的样式分集(即使不增加唯一令牌的数量)是提高性能的关键因素。
translated by 谷歌翻译
面向目标的生成脚本学习旨在根据目标生成后续步骤,这是帮助机器人进行日常生活的刻板印象活动的重要任务。我们表明,如果历史状态不仅被给人的语言指示捕获,而且还可以增强随附图像提供的其他信息,可以提高此任务的性能。因此,我们提出了一项新任务,多媒体生成脚本学习,以通过跟踪文本和视觉方式中的历史状态,并介绍包含2,338个任务和31,496个步骤的第一个基准,从而生成后续步骤。我们旨在生成视觉状态的脚本,这些脚本是可跟踪的,对看不见的任务的诱导性,并且在各自的步骤中多样化。我们建议通过多媒体选择性编码器编码视觉状态更改,并使用检索仪的解码器从先前观察到的任务中转移知识,并通过优化面向多样性的对比度学习目标来在每个步骤中介绍不同的信息。我们定义指标以评估发电质量和电感质量。实验结果表明,我们的方法明显优于强质基线。
translated by 谷歌翻译
Current metrics for evaluating factuality for abstractive document summarization have achieved high correlations with human judgment, but they do not account for the vision modality and thus are not adequate for vision-and-language summarization. We propose CLIPBERTScore, a simple weighted combination of CLIPScore and BERTScore to leverage the robustness and strong factuality detection performance between image-summary and document-summary, respectively. Next, due to the lack of meta-evaluation benchmarks to evaluate the quality of multimodal factuality metrics, we collect human judgments of factuality with respect to documents and images. We show that this simple combination of two metrics in the zero-shot setting achieves higher correlations than existing factuality metrics for document summarization, outperforms an existing multimodal summarization metric, and performs competitively with strong multimodal factuality metrics specifically fine-tuned for the task. Our thorough analysis demonstrates the robustness and high correlation of CLIPBERTScore and its components on four factuality metric-evaluation benchmarks. Finally, we demonstrate two practical downstream applications of our CLIPBERTScore metric: for selecting important images to focus on during training, and as a reward for reinforcement learning to improve factuality of multimodal summary generation w.r.t automatic and human evaluation. Our data and code are publicly available at https://github.com/meetdavidwan/faithful-multimodal-summ
translated by 谷歌翻译
Storytelling and narrative are fundamental to human experience, intertwined with our social and cultural engagement. As such, researchers have long attempted to create systems that can generate stories automatically. In recent years, powered by deep learning and massive data resources, automatic story generation has shown significant advances. However, considerable challenges, like the need for global coherence in generated stories, still hamper generative models from reaching the same storytelling ability as human narrators. To tackle these challenges, many studies seek to inject structured knowledge into the generation process, which is referred to as structure knowledge-enhanced story generation. Incorporating external knowledge can enhance the logical coherence among story events, achieve better knowledge grounding, and alleviate over-generalization and repetition problems in stories. This survey provides the latest and comprehensive review of this research field: (i) we present a systematical taxonomy regarding how existing methods integrate structured knowledge into story generation; (ii) we summarize involved story corpora, structured knowledge datasets, and evaluation metrics; (iii) we give multidimensional insights into the challenges of knowledge-enhanced story generation and cast light on promising directions for future study.
translated by 谷歌翻译
We consider the end-to-end abstract-to-title generation problem, exploring seven recent transformer based models (including ChatGPT) fine-tuned on more than 30k abstract-title pairs from NLP and machine learning venues. As an extension, we also consider the harder problem of generating humorous paper titles. For the latter, we compile the first large-scale humor annotated dataset for scientific papers in the NLP/ML domains, comprising almost 2.5k titles. We evaluate all models using human and automatic metrics. Our human evaluation suggests that our best end-to-end system performs similarly to human authors (but arguably slightly worse). Generating funny titles is more difficult, however, and our automatic systems clearly underperform relative to humans and often learn dataset artefacts of humor. Finally, ChatGPT, without any fine-tuning, performs on the level of our best fine-tuned system.
translated by 谷歌翻译
在这项工作中,我们专注于改善图像捕获生成系统生成的字幕。我们提出了一种新型的重新排列方法,该方法利用视觉声音措施来确定最大程度地捕获图像中视觉信息的理想标题。我们的重新级别使用了信念修订框架(Blok等,2003),通过明确利用所描绘的标题和视觉上下文之间的语义相关性来校准顶级字幕的原始可能性。我们的实验证明了我们方法的实用性,我们观察到我们的重新级别可以增强典型的图像捕获系统的性能,而无需进行任何额外的培训或微调。
translated by 谷歌翻译