最近的模型可以产生流利和语法合成评论,同时准确预测用户评分。生成的评论表达了用户对相关产品的估计意见,通常被视为自然语言“理由”,共同预测的评级。但是,先前的研究发现,现有模型通常会产生重复性,普遍适用和通用的解释,从而导致非信息原理。此外,我们的分析表明,以前的模型生成的内容通常包含事实幻觉。这些问题要求采用新颖的解决方案,这些解决方案可以产生信息丰富的和事实扎根的解释。受到最新使用检索内容的启发,除了生成的参数知识外,我们建议用个性化的检索器增强发电机,在该发现者的启发下,猎犬的输出是增强发电机的外部知识。关于Yelp,TripAdvisor和Amazon Movie评论数据集的实验表明,我们的模型可以产生解释,即更可靠地需要进行现有评论,更多样化,并且由人类评估人员评为更有信息。
translated by 谷歌翻译
评论包含有关产品特征和用户兴趣的丰富信息,因此通常用于提高建议系统性能。具体而言,先前的工作表明,共同学习进行审查生成可以改善评级预测性能。同时,这些模型制作的评论是推荐说明,为用户提供了有关预测评分的见解。但是,尽管现有模型可能会产生流利的人类样评论,但尚不清楚评论在多大程度上完全揭示了共同预测的评级背后的理由。在这项工作中,我们执行一系列评估,以探究最先进的模型及其审查生成部分。我们表明,生成的解释是脆弱的,需要进一步评估,然后才能作为估计评级的字面原理。
translated by 谷歌翻译
使用个性化解释来支持建议,以增加信任和感知质量。但是,为了实际获取更好的建议,需要一种用户通过与解释进行交互来修改推荐标准的手段。我们介绍了一种新颖的技术,使用方面标记,学会从审查文本生成关于建议的个性化解释,并且我们表明人类用户明显更喜欢通过最先进技术产生的解释这些解释。我们的工作最重要的创新是它允许用户通过批评文本解释来对推荐作出反应:删除(对称添加)它们不喜欢的某些方面或不再相关(对称地是感兴趣的)。系统根据批评更新其用户模型和产生的建议。这是基于一种具有文本解释的单一和多步批判的新型无监督批评方法。两个现实世界数据集的实验表明,我们的系统是第一个在适应多步批评中表达的偏好方面实现良好性能的实验。
translated by 谷歌翻译
长期以来,不同的推荐任务通常需要设计特定于任务的架构和培训目标。结果,很难将学习的知识和表示从一个任务转移到另一个任务,从而限制了现有推荐方法的概括能力,例如,几乎无法将顺序推荐模型应用于审核生成方法。为了解决此类问题,考虑到语言几乎可以描述任何内容,语言基础是表示各种问题或任务的有力媒介,我们提出了一种灵活而统一的文本到文本范式,称为“预绘,个性化的提示和预测范式” (P5)为了推荐,该建议在共享框架中统一了各种建议任务。在P5中,将所有数据(例如用户项目交互,用户描述,项目元数据和用户评论)转换为通用格式 - 自然语言序列。来自自然语言的丰富信息有助于P5捕获更深入的语义,以进行个性化和建议。具体而言,P5在预处理过程中以相同的语言建模目标学习不同的任务。因此,它是各种下游建议任务的基础模型,可以轻松地与其他模式集成,并根据提示启用基于指导的建议。 P5将推荐系统从浅层模型到深模型到大型模型,并将彻底改变推荐系统的技术形式,向通用推荐引擎。借助对不同用户的自适应个性化提示,P5能够以零拍或几种方式进行预测,并大大减少了进行广泛微调的必要性。在几个建议基准中,我们进行实验以显示P5的有效性。我们以\ url {https://github.com/jeykigung/p5}发布源代码。
translated by 谷歌翻译
个性化的自然语言生成可解释的建议在证明为什么建议可能与用户的兴趣相匹配的原因中起着关键作用。现有模型通常通过软约束(例如〜方面计划)来控制发电过程。在有希望的同时,这些方法难以正确地生成特定的信息,这阻止了产生的解释内容丰富和多样化。在本文中,我们提出了UCEPIC,这是一个解释生成模型,该模型统一了可控个性化生成的方面计划和词汇约束。具体而言,我们首先通过提出的强大插入过程预先培训非人性化的文本生成器,以便模型能够生成包含词汇约束的句子。然后,我们演示了将方面计划和个性化引用纳入插入过程的方法,以获得个性化的解释。与先前由软限制控制的工作相比,UCEPIC结合了来自钥匙拼的特定信息,然后很大程度上提高了生成的解释的多样性和信息性。对RateBeer和Yelp的广泛实验表明,UCEPIC可以为建议产生高质量和不同的解释。
translated by 谷歌翻译
最近,电子商务平台上的产品问题应答(PQA)引起了越来越幅度的关注,因为它可以作为智能的在线购物助理和改善客户购物体验。它的关键功能,自动回答的产品相关问题的生成,通过旨在在与问题相关的答案时产生内容保存。然而,现有方法忽略了PQA,即个性化的重要特征。提供相同的“完全总结”回答所有客户的回答不足,因为许多客户更愿意通过考虑自己的偏好对产品方面或信息需求的偏好来看待具有定制信息的个性化答案。为了解决这一挑战,我们提出了一种新颖的个性化答复生成方法(页面),具有多视角偏好建模,探讨了历史用户生成的内容,以模拟用户偏好,以在PQA中生成个性化答案。具体而言,我们首先将问题相关的用户历史作为外部知识作为模拟知识级用户偏好。然后我们利用高斯SoftMax分布模型来捕获潜在的方面级别用户偏好。最后,我们通过利用个人用户偏好和动态用户词汇表,开发一个角色感知指针网络以在内容和样式方面生成个性化答案。实验结果对现实世界电子商务QA数据集表明,所提出的方法通过生成信息和定制答案来表明现有方法,并显示电子商务中的答案可以从个性化中受益。
translated by 谷歌翻译
现有的解释模型仅生成建议的文本,但仍然难以生产各种内容。在本文中,为了进一步丰富解释,我们提出了一项名为“个性化展示”的新任务,其中我们同时提供文本和视觉信息来解释我们的建议。具体来说,我们首先选择一个个性化图像集,该图与用户对推荐物品的兴趣最相关。然后,自然语言解释将相应地产生我们的选定图像。对于这项新任务,我们从Google Local(即〜maps)收集一个大规模数据集,并构建一个用于生成多模式说明的高质量子集。我们提出了一个个性化的多模式框架,可以通过对比度学习产生多样化和视觉上的解释。实验表明,我们的框架受益于不同方式作为输入,并且与以前的各种评估指标相比,能够产生更多样化和表达的解释。
translated by 谷歌翻译
由于推荐基本上是比较(或排名)的过程,良好的解释应该向用户说明为什么一个项目被认为比另一个项目更好,即关于推荐项目的比较解释。理想情况下,在阅读解释之后,用户应达到与系统的相同的项目排名。不幸的是,尚未对这种比较解释支付的研究注意力。在这项工作中,我们开发了提取物和精炼架构,以解释来自推荐系统的一组排名项目之间的相对比较。对于每个推荐的项目,我们首先将一个句子从其相关审核中提取一个句子,最能诉诸于一组参考项的所需比较。然后,该提取的句子通过生成模型相对于目标用户进一步阐述,以更好地解释为什么建议该项目。我们根据BLEU设计一个新的解释质量指标,指导提取和细化组件的端到端培训,避免生成通用内容。对两个大型推荐基准数据集的广泛离线评估和针对一系列最先进的可解释的建议算法的严重用户研究表明了比较解释的必要性和我们解决方案的有效性。
translated by 谷歌翻译
随着推荐系统变得越来越复杂和复杂,它们通常会缺乏公平和透明度。为建议提供强大而公正的解释,人们越来越关注,因为它可以帮助解决这些问题并提高推荐系统的信任度和信息性。然而,尽管事实是为人类生成了这种解释,这些人类对具有适当情绪的信息做出更强烈反应,但在为建议解释时,人们缺乏对情绪的考虑。发现当前的解释生成模型可以夸大某些情绪,而无需准确捕获基本的语调或含义。在本文中,我们提出了一种基于多头变压器的新方法,称为“情感感知变压器”,以解释推荐(情感者),以产生更健壮,公平和情感增强的解释。为了衡量产生的解释的语言质量和情感公平性,我们采用自动文本指标和人类的看法进行评估。在具有多个评估指标的三个广泛使用基准数据集上进行的实验表明,情感者在文本质量,解释性和对情感分布的公平性方面始终优于现有的最新解释生成模型。 Emoter的实施将作为开源工具包发布,以支持进一步的研究。
translated by 谷歌翻译
最近的大规模预训练的进步,例如GPT-3允许从给定提示生成看似高质量的文本。然而,这种一代系统经常遭受幻觉的事实问题,并且本身并不是旨在包含有用的外部信息。接地的代表似乎提供了补救措施,但他们的培训通常依赖于提供信息相关文件的很少可用的并行数据。我们提出了一个框架,通过在语言模型信号上共同训练接地的发生器和文档检索来缓解这种数据约束。该模型学会奖励具有生成中最高效用的文档的检索,并用专家混合(MOE)合并来术语术,以产生后续文本。我们证明,发电机和猎犬都可以利用这种联合培训,协同作用,以生产散文和对话一代中的更多信息和相关文本。
translated by 谷歌翻译
会话推荐系统提供互动,参与用户的互动方式的承诺,以查找他们喜欢的物品。我们寻求通过三维提高对话建议:1)我们的目标是模仿建议的常见人类互动模式:专家证明他们的建议,寻求者解释为什么他们不喜欢该项目,双方遍历对话框迭代对话框找到合适的物品。 2)我们利用对会话批评的想法来允许用户通过批评主观方面灵活地与自然语言理由进行互动。 3)我们将会话建议适应更广泛的域名,其中不可用的人群地面真理对话框。我们开发了一个新的两部分框架,用于培训会话推荐系统。首先,我们培训推荐制度,共同建议项目,并用主观方面证明其推理。然后,我们微调该模型通过自我监督的机器人播放来合并迭代用户反馈。三个真实数据集的实验表明,与最先进的方法相比,我们的系统可以应用于各种域的不同推荐模型,以实现对话建议的卓越性能。我们还评估了我们对人类用户的模型,显示在我们的框架下培训的系统提供更有用,有用,有用,并且在热情和冷启动设置中提供的知识推荐。
translated by 谷歌翻译
以任务为导向的对话系统(TDSS)主要在离线设置或人类评估中评估。评估通常仅限于单转或非常耗时。作为替代方案,模拟用户行为的用户模拟器使我们能够考虑一组广泛的用户目标,以生成类似人类的对话以进行模拟评估。使用现有的用户模拟器来评估TDSS是具有挑战性的,因为用户模拟器主要旨在优化TDSS的对话策略,并且评估功能有限。此外,对用户模拟器的评估是一个开放的挑战。在这项工作中,我们提出了一个用于端到端TDS评估的隐喻用户模拟器,如果它在与系统的交互中模拟用户的类似思维,则定义模拟器是隐喻的。我们还提出了一个基于测试人员的评估框架,以生成变体,即具有不同功能的对话系统。我们的用户模拟器构建了一个隐喻的用户模型,该模型通过参考遇到新项目时的先验知识来帮助模拟器进行推理。我们通过检查模拟器与变体之间的模拟相互作用来估计模拟器的质量。我们的实验是使用三个TDS数据集进行的。与基于议程的模拟器和三个数据集上的SEQ2SEQ模型相比,隐喻用户模拟器与手动评估的一致性更好。我们的测试人员框架展示了效率,并且可以更好地概括和可扩展性,因为它可以适用于多个域中的对话和多个任务,例如对话建议和电子商务对话。
translated by 谷歌翻译
Natural Language Generation (NLG) has improved exponentially in recent years thanks to the development of sequence-to-sequence deep learning technologies such as Transformer-based language models. This advancement has led to more fluent and coherent NLG, leading to improved development in downstream tasks such as abstractive summarization, dialogue generation and data-to-text generation. However, it is also apparent that deep learning based generation is prone to hallucinate unintended text, which degrades the system performance and fails to meet user expectations in many real-world scenarios. To address this issue, many studies have been presented in measuring and mitigating hallucinated texts, but these have never been reviewed in a comprehensive manner before. In this survey, we thus provide a broad overview of the research progress and challenges in the hallucination problem in NLG. The survey is organized into two parts: (1) a general overview of metrics, mitigation methods, and future directions; and (2) an overview of task-specific research progress on hallucinations in the following downstream tasks, namely abstractive summarization, dialogue generation, generative question answering, data-to-text generation, machine translation, and visual-language generation. This survey serves to facilitate collaborative efforts among researchers in tackling the challenge of hallucinated texts in NLG.
translated by 谷歌翻译
Conversational recommender systems (CRS) aim to employ natural language conversations to suggest suitable products to users. Understanding user preferences for prospective items and learning efficient item representations are crucial for CRS. Despite various attempts, earlier studies mostly learned item representations based on individual conversations, ignoring item popularity embodied among all others. Besides, they still need support in efficiently capturing user preferences since the information reflected in a single conversation is limited. Inspired by collaborative filtering, we propose a collaborative augmentation (COLA) method to simultaneously improve both item representation learning and user preference modeling to address these issues. We construct an interactive user-item graph from all conversations, which augments item representations with user-aware information, i.e., item popularity. To improve user preference modeling, we retrieve similar conversations from the training corpus, where the involved items and attributes that reflect the user's potential interests are used to augment the user representation through gate control. Extensive experiments on two benchmark datasets demonstrate the effectiveness of our method. Our code and data are available at https://github.com/DongdingLin/COLA.
translated by 谷歌翻译
会话推荐系统(CRS)已成为一个新兴的研究主题,试图通过交互式对话进行建议,这些对话通常由发电和建议模块组成。 CRS的先前工作倾向于将更多的外部和领域特定知识纳入项目评论,以提高性能。尽管事实的收集和注释特定于外部领域的信息需要大量的人类努力并脱离了普遍性,但过多的额外知识在它们之间带来了更大的困难。因此,我们建议从上下文中充分发现和提取内部知识。我们将实体级别和上下文级别的表示形式捕获为对建议的共同模拟用户的偏好,在这种情况下,时间吸引的注意力旨在强调实体级表示中最近出现的项目。我们进一步使用预训练的巴特来初始化生成模块,以减轻数据稀缺性并增强上下文建模。除了在流行数据集(REDIAIL)上进行实验外,我们还包括一个多域数据集(OpenDialKg)来显示我们模型的有效性。两个数据集的实验都表明,我们的模型在大多数评估指标上都具有更好的性能,其外部知识较少,并且可以很好地推广到其他领域。对建议和生成任务的其他分析证明了我们在不同情况下模型的有效性。
translated by 谷歌翻译
Controlled text generation is a very important task in the arena of natural language processing due to its promising applications. In order to achieve this task we mainly introduce the novel soft prompt tuning method of using soft prompts at both encoder and decoder levels together in a T5 model and investigate the performance as the behaviour of an additional soft prompt related to the decoder of a T5 model in controlled text generation remained unexplored. Then we also investigate the feasibility of steering the output of this extended soft prompted T5 model at decoder level and finally analyse the utility of generated text to be used in AI related tasks such as training AI models with an interpretability analysis of the classifier trained with synthetic text, as there is a lack of proper analysis of methodologies in generating properly labelled data to be utilized in AI tasks. Through the performed in-depth intrinsic and extrinsic evaluations of this generation model along with the artificially generated data, we found that this model produced better results compared to the T5 model with a single soft prompt at encoder level and the sentiment classifier trained using this artificially generated data can produce comparable classification results to the results of a classifier trained with real labelled data and also the classifier decision is interpretable with respect to the input text content.
translated by 谷歌翻译
客户评论通常包含有关一个人在线购物体验的大量信息。尽管积极的评论对商店有益,但负面评论将在很大程度上影响消费者的决定,并可能导致销售下降。因此,仔细和有说服力地回答每个负面评论并最大程度地减少其不利影响至关重要。最近的研究考虑利用生成模型来帮助卖家做出回应。但是,此问题并不深入,因为评论可能包含问题的多个方面,这些方面应相应和有说服力地解决。在这项工作中,我们为有说服力的响应生成提出了一个多源多相关生成模型。提出的模型适当地获得和利用了各种信息来源,以产生更有信息和有说服力的响应。提出了一个多方面的细心网络,以自动参与审查中的不同方面,并确保解决大多数问题。在两个现实世界数据集上进行的广泛实验表明,我们的方法优于最先进的方法和在线测试,这证明我们的部署系统大大提高了商店处理负面评论的效率。
translated by 谷歌翻译
神经网络嵌入的成功使人们对使用知识图进行各种机器学习和信息检索任务产生了重新兴趣。特别是,基于图形嵌入的当前建议方法已显示出最新的性能。这些方法通常编码潜在的评级模式和内容功能。与以前的工作不同,在本文中,我们建议利用从图表中提取的嵌入,这些嵌入结合了从评分中的信息和文本评论中表达的基于方面的意见。然后,我们根据亚马逊和Yelp评论在六个域上生成的图表调整和评估最新的图形嵌入技术,优于基线推荐器。我们的方法具有提供解释的优势,该解释利用了用户对推荐项目的基于方面的意见。此外,我们还提供了使用方面意见作为可视化仪表板中的解释的建议的适用性的示例,该说明允许获取有关从输入图的嵌入中获得的有关类似用户的最喜欢和最不喜欢的方面的信息。
translated by 谷歌翻译
本文对过去二十年来对自然语言生成(NLG)的研究提供了全面的审查,特别是与数据到文本生成和文本到文本生成深度学习方法有关,以及NLG的新应用技术。该调查旨在(a)给出关于NLG核心任务的最新综合,以及该领域采用的建筑;(b)详细介绍各种NLG任务和数据集,并提请注意NLG评估中的挑战,专注于不同的评估方法及其关系;(c)强调一些未来的强调和相对近期的研究问题,因为NLG和其他人工智能领域的协同作用而增加,例如计算机视觉,文本和计算创造力。
translated by 谷歌翻译
我们研究了检查问题的事实,旨在识别给定索赔的真实性。具体而言,我们专注于事实提取和验证(发烧)及其伴随数据集的任务。该任务包括从维基百科检索相关文件(和句子)并验证文件中的信息是否支持或驳斥所索赔的索赔。此任务至关重要,可以是假新闻检测和医疗索赔验证等应用程序块。在本文中,我们以通过以结构化和全面的方式呈现文献来更好地了解任务的挑战。我们通过分析不同方法的技术视角并讨论发热数据集的性能结果,描述了所提出的方法,这是最熟悉的和正式结构化的数据集,就是事实提取和验证任务。我们还迄今为止迄今为止确定句子检索组件的有益损失函数的最大实验研究。我们的分析表明,采样负句对于提高性能并降低计算复杂性很重要。最后,我们描述了开放的问题和未来的挑战,我们激励了未来的任务研究。
translated by 谷歌翻译