智能论文笔记

Differentiating Geographic Movement Described in Text Documents

Scott Pezanowski , Alan M. MacEachren , Prasenjit Mitra

分类：自然语言处理

2022-01-12

了解文本文件中描述的运动很重要，因为运动的文本描述包含有关人，野生动物，商品等运动的大量地理和背景信息。我们的研究为改善我们对文本中的运动描述的理解提供了几项贡献。首先，我们展示了如何解释文本中描述的地理运动是具有挑战性的，因为一般空间术语，使得搬家不清楚的语言结构，以及许多类型的时间参考和分组等。接下来，作为克服这些挑战的一步，我们报告了人类受试者的实验，我们通过它识别人类用于区分一个运动描述的运动描述的多个重要特征（在文本中发现）。根据我们的经验结果，我们提供了在文本文档中描述的运动提供了用于计算分析的建议。我们的调查结果有助于了解有关文本描述形式的地理运动的未充分利用信息的重要特征的理解。

translated by 谷歌翻译

Dimensional Modeling of Emotions in Text with Appraisal Theories: Corpus Creation, Annotation Reliability, and Prediction

Enrica Troiano , Laura Oberländer , Roman Klinger

分类：自然语言处理

2022-06-10

情绪分析中最突出的任务是为文本分配情绪，并了解情绪如何在语言中表现出来。自然语言处理的一个重要观察结果是，即使没有明确提及情感名称，也可以通过单独参考事件来隐式传达情绪。在心理学中，被称为评估理论的情感理论类别旨在解释事件与情感之间的联系。评估可以被形式化为变量，通过他们认为相关的事件的人们的认知评估来衡量认知评估。其中包括评估事件是否是新颖的，如果该人认为自己负责，是否与自己的目标以及许多其他人保持一致。这样的评估解释了哪些情绪是基于事件开发的，例如，新颖的情况会引起惊喜或不确定后果的人可能引起恐惧。我们在文本中分析了评估理论对情绪分析的适用性，目的是理解注释者是否可以可靠地重建评估概念，如果可以通过文本分类器预测，以及评估概念是否有助于识别情感类别。为了实现这一目标，我们通过要求人们发短信描述触发特定情绪并披露其评估的事件来编译语料库。然后，我们要求读者重建文本中的情感和评估。这种设置使我们能够衡量是否可以纯粹从文本中恢复情绪和评估，并为判断模型的绩效指标提供人体基准。我们将文本分类方法与人类注释者的比较表明，两者都可以可靠地检测出具有相似性能的情绪和评估。我们进一步表明，评估概念改善了文本中情绪的分类。

translated by 谷歌翻译

Understanding Machine Learning Practitioners' Data Documentation Perceptions, Needs, Challenges, and Desiderata

Amy K. Heger , Liz B. Marquis , Mihaela Vorvoreanu , Hanna Wallach , Jennifer Wortman Vaughan

分类：人工智能

2022-06-06

数据对于机器学习（ML）模型的开发和评估至关重要。但是，在部署所得模型时，使用有问题或不适当的数据集可能会造成危害。为了通过对数据集进行更故意的反思和创建过程的透明度来鼓励负责任的练习，研究人员和从业人员已开始倡导增加数据文档，并提出了几个数据文档框架。但是，几乎没有研究这些数据文档框架是否满足创建和消费数据集的ML从业者的需求。为了解决这一差距，我们着手了解ML从业人员的数据文档感知，需求，挑战和Desiderata，目的是推导设计要求，以便为将来的数据文档框架提供信息。我们对一家大型国际技术公司的14名ML从业者进行了一系列半结构化访谈。我们让他们回答从数据集的数据表中提取的问题列表（Gebru，2021）。我们的发现表明，目前的数据文档方法在很大程度上是临时的，而且本质上是近视的。参与者表达了对数据文档框架的需求，可以适应其上下文，并将其集成到现有的工具和工作流程中，并尽可能自动化。尽管事实上，数据文档框架通常是从负责人的AI的角度出发的，但参与者并未在他们被要求回答的问题与负责的AI含义之间建立联系。此外，参与者通常会在数据集消费者的需求中优先考虑，并提供了不熟悉其数据集可能需要知道的信息。基于这些发现，我们为将来的数据文档框架得出了七个设计要求。

translated by 谷歌翻译

Towards Better User Studies in Computer Graphics and Vision

Zoya Bylinskii , Laura Herman , Aaron Hertzmann , Stefanie Hutka , Yile Zhang

分类：计算机视觉

2022-06-23

在线众包平台使对算法输出进行评估变得容易，并提出诸如“哪个图像更好，A或B？”之类的问题的调查，在视觉和图形研究论文中的这些“用户研究”的扩散导致了增加匆忙进行的研究充其量是草率且无知的，并且可能有害和误导。我们认为，在计算机视觉和图形论文中的用户研究的设计和报告需要更多关注。为了提高从业者的知识并提高用户研究的可信度和可复制性，我们提供了用户体验研究（UXR），人类计算机互动（HCI）和相关领域的方法论的概述。我们讨论了目前在计算机视觉和图形研究中未利用的基础用户研究方法（例如，需要调查），但可以为研究项目提供宝贵的指导。我们为有兴趣探索其他UXR方法的读者提供了进一步的指导。最后，我们描述了研究界的更广泛的开放问题和建议。我们鼓励作者和审稿人都认识到，并非每项研究贡献都需要用户研究，而且根本没有研究比不小心进行的研究更好。

translated by 谷歌翻译

Discovering Language Model Behaviors with Model-Written Evaluations

Ethan Perez , Sam Ringer , Kamilė Lukošiūtė , Karina Nguyen , Edwin Chen , Scott Heiner , Craig Pettit , Catherine Olsson , Sandipan Kundu , Saurav Kadavath

分类：自然语言处理 | 人工智能 | 机器学习

2022-12-19

As language models (LMs) scale, they develop many novel behaviors, good and bad, exacerbating the need to evaluate how they behave. Prior work creates evaluations with crowdwork (which is time-consuming and expensive) or existing data sources (which are not always available). Here, we automatically generate evaluations with LMs. We explore approaches with varying amounts of human effort, from instructing LMs to write yes/no questions to making complex Winogender schemas with multiple stages of LM-based generation and filtering. Crowdworkers rate the examples as highly relevant and agree with 90-100% of labels, sometimes more so than corresponding human-written datasets. We generate 154 datasets and discover new cases of inverse scaling where LMs get worse with size. Larger LMs repeat back a dialog user's preferred answer ("sycophancy") and express greater desire to pursue concerning goals like resource acquisition and goal preservation. We also find some of the first examples of inverse scaling in RL from Human Feedback (RLHF), where more RLHF makes LMs worse. For example, RLHF makes LMs express stronger political views (on gun rights and immigration) and a greater desire to avoid shut down. Overall, LM-written evaluations are high-quality and let us quickly discover many novel LM behaviors.

translated by 谷歌翻译

Towards Human-centered Explainable AI: User Studies for Model Explanations

Yao Rong , Tobias Leemann , Thai-trang Nguyen , Lisa Fiedler , Peizhu Qian , Vaibhav Unhelkar , Tina Seidel , Gjergji Kasneci , Enkelejda Kasneci

分类：人工智能

2022-10-20

Explainable AI (XAI) is widely viewed as a sine qua non for ever-expanding AI research. A better understanding of the needs of XAI users, as well as human-centered evaluations of explainable models are both a necessity and a challenge. In this paper, we explore how HCI and AI researchers conduct user studies in XAI applications based on a systematic literature review. After identifying and thoroughly analyzing 85 core papers with human-based XAI evaluations over the past five years, we categorize them along the measured characteristics of explanatory methods, namely trust, understanding, fairness, usability, and human-AI team performance. Our research shows that XAI is spreading more rapidly in certain application domains, such as recommender systems than in others, but that user evaluations are still rather sparse and incorporate hardly any insights from cognitive or social sciences. Based on a comprehensive discussion of best practices, i.e., common models, design choices, and measures in user studies, we propose practical guidelines on designing and conducting user studies for XAI researchers and practitioners. Lastly, this survey also highlights several open research directions, particularly linking psychological science and human-centered XAI.

translated by 谷歌翻译

Using Affect as a Communication Modality to Improve Human-Robot Communication in Robot-Assisted Search and Rescue Scenarios

Sami Alperen Akgun , Moojan Ghafurian , Mark Crowley , Kerstin Dautenhahn

分类：机器人

2022-08-20

情绪可以提供自然的交流方式，以补充许多领域中社交机器人（例如文本和语音）现有的多模式能力。我们与112、223和151名参与者进行了三项在线研究，以调查使用情绪作为搜救（SAR）机器人的交流方式的好处。在第一个实验中，我们研究了通过机器人的情绪传达与SAR情况有关的信息的可行性，从而导致了从SAR情况到情绪的映射。第二项研究使用控制控制理论是推导此类映射的替代方法。此方法更灵活，例如允许对不同的情绪集和不同机器人进行调整。在第三个实验中，我们使用LED作为表达通道为外观受限的室外现场研究机器人创建了情感表达。在各种模拟的SAR情况下，使用这些情感表达式，我们评估了这些表达式对参与者（采用救援人员的作用）的影响。我们的结果和提议的方法提供了（a）有关情感如何帮助在SAR背景下传达信息的见解，以及（b）在（模拟）SAR通信环境中添加情绪为传播方式的有效性的证据。

translated by 谷歌翻译

Thread With Caution: Proactively Helping Users Assess and Deescalate Tension in Their Online Discussions

Jonathan P. Chang , Charlotte Schluger , Cristian Danescu-Niculescu-Mizil

分类：人工智能 | 自然语言处理

2022-12-02

Incivility remains a major challenge for online discussion platforms, to such an extent that even conversations between well-intentioned users can often derail into uncivil behavior. Traditionally, platforms have relied on moderators to -- with or without algorithmic assistance -- take corrective actions such as removing comments or banning users. In this work we propose a complementary paradigm that directly empowers users by proactively enhancing their awareness about existing tension in the conversation they are engaging in and actively guides them as they are drafting their replies to avoid further escalation. As a proof of concept for this paradigm, we design an algorithmic tool that provides such proactive information directly to users, and conduct a user study in a popular discussion platform. Through a mixed methods approach combining surveys with a randomized controlled experiment, we uncover qualitative and quantitative insights regarding how the participants utilize and react to this information. Most participants report finding this proactive paradigm valuable, noting that it helps them to identify tension that they may have otherwise missed and prompts them to further reflect on their own replies and to revise them. These effects are corroborated by a comparison of how the participants draft their reply when our tool warns them that their conversation is at risk of derailing into uncivil behavior versus in a control condition where the tool is disabled. These preliminary findings highlight the potential of this user-centered paradigm and point to concrete directions for future implementations.

translated by 谷歌翻译

Explanation in Artificial Intelligence: Insights from the Social Sciences

Tim Miller

分类：

2017-06-22

There has been a recent resurgence in the area of explainable artificial intelligence as researchers and practitioners seek to make their algorithms more understandable. Much of this research is focused on explicitly explaining decisions or actions to a human observer, and it should not be controversial to say that looking at how humans explain to each other can serve as a useful starting point for explanation in artificial intelligence. However, it is fair to say that most work in explainable artificial intelligence uses only the researchers' intuition of what constitutes a 'good' explanation. There exists vast and valuable bodies of research in philosophy, psychology, and cognitive science of how people define, generate, select, evaluate, and present explanations, which argues that people employ certain cognitive biases and social expectations towards the explanation process. This paper argues that the field of explainable artificial intelligence should build on this existing research, and reviews relevant papers from philosophy, cognitive psychology/science, and social psychology, which study these topics. It draws out some important findings, and discusses ways that these can be infused with work on explainable artificial intelligence.

translated by 谷歌翻译

Taking a Language Detour: How International Migrants Speaking a Minority Language Seek COVID-Related Information in Their Host Countries

Ge Gao , Jian Zheng , Eun Kyoung Choe , Naomi Yamashita

分类：自然语言处理

2022-09-07

在公共危机时期，寻求信息对于人们的自我保健和福祉至关重要。广泛的研究调查了经验理解和技术解决方案，以促进受影响地区的家庭公民寻求信息。但是，建立有限的知识是为了支持需要在其东道国发生危机的国际移民。当前的论文对居住在日本和美国（n = 14）的两名中国移民（n = 14）进行了访谈研究。参与者反思了他们在共同大流行期间寻求经验的信息。反思补充了两周的自我追踪，参与者保持了相关信息寻求实践的记录。我们的数据表明，参与者经常绕开语言绕道，或访问普通话资源以获取有关其东道国疫情爆发的信息。他们还进行了战略性利用普通话信息，以进行选择性阅读，交叉检查以及对日语或英语的共同信息的上下文化解释。尽管这种做法增强了参与者对共同相关信息收集和感官的有效性，但他们有时会通过有时认识的方式使人们处于不利地位。此外，参与者缺乏对审查以移民为导向的信息的认识或偏爱，尽管该信息可用，这些信息是由东道国公共当局发布的。在这些发现的基础上，我们讨论了改善国际移民在非本地语言和文化环境中寻求共同相关信息的解决方案。我们主张包容性危机基础设施，这些基础设施将吸引以当地语言流利程度，信息素养和利用公共服务的经验的不同水平的人们。

translated by 谷歌翻译

An Exploration of Post-Editing Effectiveness in Text Summarization

Vivian Lai , Alison Smith-Renner , Ke Zhang , Ruijia Cheng , Wenjuan Zhang , Joel Tetreault , Alejandro Jaimes

分类：自然语言处理 | 人工智能

2022-06-13

自动摘要方法是有效的，但可能患有低质量。相比之下，手动摘要很昂贵，但质量更高。人类和人工智能可以协作以提高总结性能吗？在类似的文本生成任务（例如机器翻译）中，人类AI合作的形式是“后编辑” AI生成的文本，可减少人类的工作量并提高AI输出的质量。因此，我们探讨了邮政编辑是否提供文本摘要中的优势。具体来说，我们对72名参与者进行了实验，将提供的后编辑摘要与手动摘要进行了摘要，以摘要质量，人为效率和用户在正式新闻（XSUM新闻）和非正式（REDDIT帖子）文本方面进行了比较。这项研究对何时编辑的文本摘要提供了宝贵的见解：在某些情况下（例如，何时参与者缺乏领域知识），但在其他情况下却没有帮助（例如，何时提供的摘要包括不准确的信息）。参与者的不同编辑策略和援助需求为未来的人类摘要系统提供了影响。

translated by 谷歌翻译

Robots as Mental Well-being Coaches: Design and Ethical Recommendations

Minja Axelsson , Micol Spitale , Hatice Gunes

分类：机器人

2022-08-31

最近十年表明，人们对机器人作为福祉教练的兴趣越来越大。但是，尚未提出针对机器人设计作为促进心理健康的教练的凝聚力和全面的准则。本文详细介绍了基于基于扎根理论方法的定性荟萃分析的设计和道德建议，该方法是通过三项以用户为中心的涉及机器人福祉教练的三个不同的以用户为中心进行的，即：（1）与参与性设计研究一起进行的。 11名参与者由两位潜在用户组成，他们与人类教练一起参加了简短的专注于解决方案的实践研究，以及不同学科的教练，（2）半结构化的个人访谈数据，这些数据来自20名参加积极心理学干预研究的参与者借助机器人福祉教练胡椒，（3）与3名积极心理学研究的参与者以及2名相关的福祉教练进行了一项参与式设计研究。在进行主题分析和定性荟萃分析之后，我们将收集到收敛性和不同主题的数据整理在一起，并从这些结果中提炼了一套设计准则和道德考虑。我们的发现可以在设计机器人心理福祉教练时考虑到关键方面的关键方面。

translated by 谷歌翻译

Modeling Task Effects in Human Reading with Neural Network-based Attention

Michael Hahn , Frank Keller

分类：自然语言处理

2018-07-31

关于人类阅读的研究长期以来一直记录在阅读行为表明特定于任务的效果，但是建立一个通用模型来预测人类在给定任务中将显示什么的通用模型。我们介绍了Neat，这是人类阅读中注意力分配的计算模型，基于人类阅读优化了一项任务中关注经济和成功之间的权衡。我们的模型是使用当代神经网络建模技术实施的，并对注意力分配的分配方式在不同任务中如何变化做出明确的测试预测。我们在一项针对阅读理解任务的两个版本的眼影研究中对此进行了测试，发现我们的模型成功说明了整个任务的阅读行为。因此，我们的工作提供了证据表明，任务效果可以建模为对任务需求的最佳适应。

translated by 谷歌翻译

Improving alignment of dialogue agents via targeted human judgements

Amelia Glaese , Nat McAleese , Maja Trębacz , John Aslanides , Vlad Firoiu , Timo Ewalds , Maribeth Rauh , Laura Weidinger , Martin Chadwick , Phoebe Thacker

分类：机器学习 | 自然语言处理

2022-09-28

我们介绍了Sparrow，这是一个寻求信息的对话代理，与提示的语言模型基线相比，训练有素，更有帮助，正确和无害。我们使用从人类反馈中的强化学习来培训我们的模型，以帮助人类评估者判断代理人的行为。首先，为了使我们的代理人更有帮助和无害，我们将良好对话的要求分解为代理人应遵循的自然语言规则，并分别向评估者询问每个规则。我们证明，这种崩溃使我们能够收集对代理行为的更多针对性的人类判断，并允许更有效的规则条件奖励模型。其次，我们的代理商在收集对模型声明的偏好判决时提供了支持事实主张的来源的证据。对于事实问题，麻雀提供的证据支持了78％的时间。比基线比基线更享受麻雀，同时对人类的对抗性探测更具弹性，在探测时只有8％的时间违反了我们的规则。最后，我们进行了广泛的分析，表明尽管我们的模型学会遵守我们的规则，但它可以表现出分布偏见。

translated by 谷歌翻译

Five Properties of Specific Curiosity You Didn't Know Curious Machines Should Have

Nadia M. Ady , Roshan Shariff , Johannes Günther , Patrick M. Pilarski

分类：人工智能 | 机器学习

2022-12-01

Curiosity for machine agents has been a focus of lively research activity. The study of human and animal curiosity, particularly specific curiosity, has unearthed several properties that would offer important benefits for machine learners, but that have not yet been well-explored in machine intelligence. In this work, we conduct a comprehensive, multidisciplinary survey of the field of animal and machine curiosity. As a principal contribution of this work, we use this survey as a foundation to introduce and define what we consider to be five of the most important properties of specific curiosity: 1) directedness towards inostensible referents, 2) cessation when satisfied, 3) voluntary exposure, 4) transience, and 5) coherent long-term learning. As a second main contribution of this work, we show how these properties may be implemented together in a proof-of-concept reinforcement learning agent: we demonstrate how the properties manifest in the behaviour of this agent in a simple non-episodic grid-world environment that includes curiosity-inducing locations and induced targets of curiosity. As we would hope, our example of a computational specific curiosity agent exhibits short-term directed behaviour while updating long-term preferences to adaptively seek out curiosity-inducing situations. This work, therefore, presents a landmark synthesis and translation of specific curiosity to the domain of machine learning and reinforcement learning and provides a novel view into how specific curiosity operates and in the future might be integrated into the behaviour of goal-seeking, decision-making computational agents in complex environments.

translated by 谷歌翻译

SalienTrack: providing salient information for semi-automated self-tracking feedback with model explanations

Yunlong Wang , Jiaying Liu , Homin Park , Jordan Schultz-McArdle , Stephanie Rosenthal , Brian Y. Lim

分类：人工智能

2021-09-21

自我跟踪可以提高人们对他们不健康的行为的认识，为行为改变提供见解。事先工作探索了自动跟踪器如何反映其记录数据，但它仍然不清楚他们从跟踪反馈中学到多少，以及哪些信息更有用。实际上，反馈仍然可以压倒，并简明扼要可以通过增加焦点和减少解释负担来改善学习。为了简化反馈，我们提出了一个自动跟踪反馈显着框架，以定义提供反馈的特定信息，为什么这些细节以及如何呈现它们（手动引出或自动反馈）。我们从移动食品跟踪的实地研究中收集了调查和膳食图像数据，并实施了Salientrack，一种机器学习模型，以预测用户从跟踪事件中学习。使用可解释的AI（XAI）技术，SalientRack识别该事件的哪些特征是最突出的，为什么它们导致正面学习结果，并优先考虑如何根据归属分数呈现反馈。我们展示了用例，并进行了形成性研究，以展示Salientrack的可用性和有用性。我们讨论自动跟踪中可读性的影响，以及如何添加模型解释性扩大了提高反馈体验的机会。

translated by 谷歌翻译

EDAssistant: Supporting Exploratory Data Analysis in Computational Notebooks with In-Situ Code Search and Recommendation

Xingjun Li , Yizhi Zhang , Justin Leung , Chengnian Sun , Jian Zhao

分类：机器学习

2021-12-15

使用计算笔记本（例如，Jupyter Notebook），数据科学家根据他们的先前经验和外部知识（如在线示例）合理化他们的探索性数据分析（EDA）。对于缺乏关于数据集或问题的具体了解的新手或数据科学家，有效地获得和理解外部信息对于执行EDA至关重要。本文介绍了eDassistant，一个jupyterlab扩展，支持EDA的原位搜索示例笔记本电脑和有用的API的推荐，由搜索结果的新颖交互式可视化供电。代码搜索和推荐是由最先进的机器学习模型启用的，培训在线收集的EDA笔记本电脑的大型语料库。进行用户学习，以调查埃迪卡斯特和数据科学家的当前实践（即，使用外部搜索引擎）。结果证明了埃迪斯坦特的有效性和有用性，与会者赞赏其对EDA的顺利和环境支持。我们还报告了有关代码推荐工具的几种设计意义。

translated by 谷歌翻译

What Do NLP Researchers Believe? Results of the NLP Community Metasurvey

Julian Michael , Ari Holtzman , Alicia Parrish , Aaron Mueller , Alex Wang , Angelica Chen , Divyam Madaan , Nikita Nangia , Richard Yuanzhe Pang , Jason Phang

分类：自然语言处理 | 人工智能

2022-08-26

我们介绍了NLP社区Metasurvey的结果。从2022年5月到2022年6月，该调查引起了关于有争议的问题的意见，包括该领域的行业影响，对AGI和道德规范的关注。我们的结果将具体数字置于几个争议中：例如，受访者几乎完全将有关人工通用智能的重要性的问题分为一半，语言模型是否理解语言以及语言结构的必要性以及解决NLP问题的必要性。此外，调查提出了元问题，要求受访者预测调查响应的分布。这不仅使我们不仅可以深入了解NLP研究人员所拥有的各种信念，还可以揭示社区预测与现实不符的错误社会学信念。我们在各种问题上发现这种不匹配。除其他结果外，社区大大高估了其对基准的实用性的信念，以及扩展解决现实世界中问题的潜力，同时低估了其对语言结构，归纳偏见和跨学科科学重要性的信念。

translated by 谷歌翻译

Towards a Science of Human-AI Decision Making: A Survey of Empirical Studies

Vivian Lai , Chacha Chen , Q. Vera Liao , Alison Smith-Renner , Chenhao Tan

分类：人工智能 | 自然语言处理 | 机器学习

2021-12-21

随着AI系统表现出越来越强烈的预测性能，它们的采用已经在许多域中种植。然而，在刑事司法和医疗保健等高赌场域中，由于安全，道德和法律问题，往往是完全自动化的，但是完全手工方法可能是不准确和耗时的。因此，对研究界的兴趣日益增长，以增加人力决策。除了为此目的开发AI技术之外，人民AI决策的新兴领域必须采用实证方法，以形成对人类如何互动和与AI合作做出决定的基础知识。为了邀请和帮助结构研究努力了解理解和改善人为 - AI决策的研究，我们近期对本课题的实证人体研究的文献。我们总结了在三个重要方面的100多篇论文中的研究设计选择：（1）决定任务，（2）AI模型和AI援助要素，以及（3）评估指标。对于每个方面，我们总结了当前的趋势，讨论了现场当前做法中的差距，并列出了未来研究的建议。我们的调查强调了开发共同框架的需要考虑人类 - AI决策的设计和研究空间，因此研究人员可以在研究设计中进行严格的选择，研究界可以互相构建并产生更广泛的科学知识。我们还希望这项调查将成为HCI和AI社区的桥梁，共同努力，相互塑造人类决策的经验科学和计算技术。

translated by 谷歌翻译

Measuring Attribution in Natural Language Generation Models

Hannah Rashkin , Vitaly Nikolaev , Matthew Lamm , Michael Collins , Dipanjan Das , Slav Petrov , Gaurav Singh Tomar , Iulia Turc , David Reitter

分类：自然语言处理

2021-12-23

随着近期自然语言生成（NLG）模型的各种应用程序的改进，它变得必须具有识别和评估NLG输出是否仅共享关于外部世界的可验证信息的手段。在这项工作中，我们提出了一个归属于识别的来源（AIS）的新评估框架，用于评估自然语言生成模型的输出，当这种输出涉及外部世界时。我们首先定义AIS，并引入两级注释管道，用于允许注释器根据AIS指南适当地评估模型输出。通过人为评估研究，我们在三个代数据集（会话QA域中的两个中和总结一下，概括地验证了这种方法，表明AIS可以作为测量模型生成的语句是否支持基础来源的常见框架。我们释放人类评估研究指南。

translated by 谷歌翻译