神经语言模型有可能支持人类写作。但是,关于其整合和对写作和产出的影响仍然存在问题。为了解决这个问题,我们设计并比较了两个用于写作的用户界面与移动设备上的AI,这些用户界面操纵主动性和控制级别:1)使用连续生成的文本编写,AI添加了逐字文字和用户转向。 2)编写建议,AI建议短语和用户从列表中选择。在监督的在线研究(n = 18)中,参与者使用了这些原型和无AI的基线。我们收集了触摸互动,关于灵感和作者的评分以及访谈数据。有了AI的建议,人们的写作不那么积极,但觉得他们是作者。连续生成的文本减少了这种感知的作者身份,但编辑行为增加了。在这两种设计中,AI都会增加文本长度,并被认为会影响措辞。我们的发现为UI设计决策对用户体验和共同创造系统的产出的影响增加了新的经验证据。
translated by 谷歌翻译
我们提出了一个文本编辑器,以帮助用户计划,结构并反思其写作过程。它使用自动文本摘要提供了不断更新的段落摘要作为边缘注释。摘要级别范围从全文到选定的(中央)句子,一直到关键字的集合。为了了解用户在写作过程中如何与该系统进行交互,我们进行了两项用户研究(n = 4和n = 8),人们在其中写了有关给定主题和文章的分析文章。作为关键发现,这些摘要使用户对他们的写作有了外部视角,并帮助他们修改了草稿段落的内容和范围。人们进一步使用该工具快速获得文本概述,并制定了整合自动摘要中见解的策略。从更广泛的角度来看,这项工作探索并突出了为作家设计AI工具的价值,其自然语言处理(NLP)功能超出了直接文本生成和更正。
translated by 谷歌翻译
我们提出了一项探索性定性研究,以了解作家如何与下一页建议相互作用。尽管对建议系统对写作的影响进行了一些定量研究,但几乎没有定性的工作来理解作家如何与建议系统互动及其如何影响他们的写作过程 - 特别是针对非本地但英国作家的。我们进行了一项研究,要求业余作家分别写两部电影评论,一本没有建议。我们发现作家以各种复杂的方式与下一页建议互动 - 作家能够抽象建议的多个部分并将其纳入他们的写作中 - 即使他们不同意整个建议。建议系统对写作过程也有各种影响 - 以独特的方式为写作过程的不同方面做出了影响。我们提出了一种用于与GPT-2写作的作家 - 探索互动模型,用于电影评论写作任务,然后是该模型可用于未来研究的方式,并概述了研究和设计的机会。
translated by 谷歌翻译
Many real-world applications of language models (LMs), such as code autocomplete and writing assistance, involve human-LM interaction, but the main LM benchmarks are non-interactive, where a system produces output without human intervention. To evaluate human-LM interaction, we develop a framework, Human-AI Language-based Interaction Evaluation (H-LINE), that expands non-interactive evaluation along three dimensions, capturing (i) the interactive process, not only the final output; (ii) the first-person subjective experience, not just a third-party assessment; and (iii) notions of preference beyond quality. We then design five tasks ranging from goal-oriented to open-ended to capture different forms of interaction. On four state-of-the-art LMs (three variants of OpenAI's GPT-3 and AI21's J1-Jumbo), we find that non-interactive performance does not always result in better human-LM interaction and that first-person and third-party metrics can diverge, suggesting the importance of examining the nuances of human-LM interaction.
translated by 谷歌翻译
Incivility remains a major challenge for online discussion platforms, to such an extent that even conversations between well-intentioned users can often derail into uncivil behavior. Traditionally, platforms have relied on moderators to -- with or without algorithmic assistance -- take corrective actions such as removing comments or banning users. In this work we propose a complementary paradigm that directly empowers users by proactively enhancing their awareness about existing tension in the conversation they are engaging in and actively guides them as they are drafting their replies to avoid further escalation. As a proof of concept for this paradigm, we design an algorithmic tool that provides such proactive information directly to users, and conduct a user study in a popular discussion platform. Through a mixed methods approach combining surveys with a randomized controlled experiment, we uncover qualitative and quantitative insights regarding how the participants utilize and react to this information. Most participants report finding this proactive paradigm valuable, noting that it helps them to identify tension that they may have otherwise missed and prompts them to further reflect on their own replies and to revise them. These effects are corroborated by a comparison of how the participants draft their reply when our tool warns them that their conversation is at risk of derailing into uncivil behavior versus in a control condition where the tool is disabled. These preliminary findings highlight the potential of this user-centered paradigm and point to concrete directions for future implementations.
translated by 谷歌翻译
Recent developments in natural language generation (NLG) using neural language models have brought us closer than ever to the goal of building AI-powered creative writing tools. However, most prior work on human-AI collaboration in the creative writing domain has evaluated new systems with amateur writers, typically in contrived user studies of limited scope. In this work, we commissioned 13 professional, published writers from a diverse set of creative writing backgrounds to craft stories using Wordcraft, a text editor with built-in AI-powered writing assistance tools. Using interviews and participant journals, we discuss the potential of NLG to have significant impact in the creative writing domain--especially with respect to brainstorming, generation of story details, world-building, and research assistance. Experienced writers, more so than amateurs, typically have well-developed systems and methodologies for writing, as well as distinctive voices and target audiences. Our work highlights the challenges in building for these writers; NLG technologies struggle to preserve style and authorial voice, and they lack deep understanding of story contents. In order for AI-powered writing assistants to realize their full potential, it is essential that they take into account the diverse goals and expertise of human writers.
translated by 谷歌翻译
最近十年表明,人们对机器人作为福祉教练的兴趣越来越大。但是,尚未提出针对机器人设计作为促进心理健康的教练的凝聚力和全面的准则。本文详细介绍了基于基于扎根理论方法的定性荟萃分析的设计和道德建议,该方法是通过三项以用户为中心的涉及机器人福祉教练的三个不同的以用户为中心进行的,即:(1)与参与性设计研究一起进行的。 11名参与者由两位潜在用户组成,他们与人类教练一起参加了简短的专注于解决方案的实践研究,以及不同学科的教练,(2)半结构化的个人访谈数据,这些数据来自20名参加积极心理学干预研究的参与者借助机器人福祉教练胡椒,(3)与3名积极心理学研究的参与者以及2名相关的福祉教练进行了一项参与式设计研究。在进行主题分析和定性荟萃分析之后,我们将收集到收敛性和不同主题的数据整理在一起,并从这些结果中提炼了一套设计准则和道德考虑。我们的发现可以在设计机器人心理福祉教练时考虑到关键方面的关键方面。
translated by 谷歌翻译
最近的神经生成系统已经证明了程序性生成游戏内容,图像,故事等的潜力。但是,大多数神经生成算法是“不受控制的”,因为用户在最初的及时规范之外的创意决策中几乎没有发言权。共同创造性的混合定位系统需要以用户为中心的影响算法,尤其是当用户不太可能拥有机器学习专业知识时。共同创造系统的关键是能够从用户到代理以及从代理到用户传达想法和意图的能力。共同创造的AI中的关键问题包括:用户如何表达自己的创造意图? Creative AI系统如何传达他们的信念,解释他们的举动或指示用户代表他们采取行动? Creative AI系统何时应该采取主动?此类问题的答案以及更多的答案将使我们能够开发出更好的共同创造系统,从而使人类更有能力表达自己的创造意图。我们介绍了Creative-Wand,这是一个可定制的框架,用于调查共同创造的混合发电生成。 Creative-Wand可以将生成模型和人类代理通信渠道的插入式注射到基于聊天的接口中。它提供了许多维度,在共同创造过程中,AI发生器和人类可以进行交流。我们通过使用该框架来研究共同创造性通信全球广播的一个维度与本地创意意图通过讲故事的上下文来说明创意范围的框架。
translated by 谷歌翻译
大型语言模型,例如OpenAI的法典和DeepMind的字母,可以生成代码来解决以自然语言表达的各种问题。这项技术已经在至少一项广泛使用的编程编辑器扩展程序中进行了商业化:Github Copilot。在本文中,我们探讨了具有大型语言模型(LLM辅助编程)的编程与程序员协助的先前概念化相似,并且与众不同。我们借鉴了公开可用的经验报告,有关LLM辅助编程以及先前的可用性和设计研究。我们发现,尽管LLM辅助编程通过搜索和重用分享了一些编译,配对编程和编程的属性,但技术可能性和实践经验都存在根本差异。因此,应该将LLM辅助编程视为具有自己独特的属性和挑战的新方法。最后,我们借鉴了用户研究的观察结果,在该观察中,非专家最终用户程序员使用LLM辅助工具来求解电子表格中的数据任务。我们讨论可能出现的问题,并在将大型语言模型应用于最终用户编程时,尤其是对于几乎没有编程专业知识的用户。
translated by 谷歌翻译
自我跟踪可以提高人们对他们不健康的行为的认识,为行为改变提供见解。事先工作探索了自动跟踪器如何反映其记录数据,但它仍然不清楚他们从跟踪反馈中学到多少,以及哪些信息更有用。实际上,反馈仍然可以压倒,并简明扼要可以通过增加焦点和减少解释负担来改善学习。为了简化反馈,我们提出了一个自动跟踪反馈显着框架,以定义提供反馈的特定信息,为什么这些细节以及如何呈现它们(手动引出或自动反馈)。我们从移动食品跟踪的实地研究中收集了调查和膳食图像数据,并实施了Salientrack,一种机器学习模型,以预测用户从跟踪事件中学习。使用可解释的AI(XAI)技术,SalientRack识别该事件的哪些特征是最突出的,为什么它们导致正面学习结果,并优先考虑如何根据归属分数呈现反馈。我们展示了用例,并进行了形成性研究,以展示Salientrack的可用性和有用性。我们讨论自动跟踪中可读性的影响,以及如何添加模型解释性扩大了提高反馈体验的机会。
translated by 谷歌翻译
In this chapter, we review and discuss the transformation of AI technology in HCI/UX work and assess how AI technology will change how we do the work. We first discuss how AI can be used to enhance the result of user research and design evaluation. We then discuss how AI technology can be used to enhance HCI/UX design. Finally, we discuss how AI-enabled capabilities can improve UX when users interact with computing systems, applications, and services.
translated by 谷歌翻译
事实证明,在学习环境中,社会智能代理(SIA)的部署在不同的应用领域具有多个优势。社会代理创作工具使场景设计师能够创造出对SIAS行为的高度控制的量身定制体验,但是,另一方面,这是有代价的,因为该方案及其创作的复杂性可能变得霸道。在本文中,我们介绍了可解释的社会代理创作工具的概念,目的是分析社会代理的创作工具是否可以理解和解释。为此,我们检查了创作工具Fatima-Toolkit是否可以理解,并且从作者的角度来看,其创作步骤可以解释。我们进行了两项用户研究,以定量评估Fatima-Toolkit的解释性,可理解性和透明度,从场景设计师的角度来看。关键发现之一是,法蒂玛 - 库尔基特(Fatima-Toolkit)的概念模型通常是可以理解的,但是基于情感的概念并不那么容易理解和使用。尽管关于Fatima-Toolkit的解释性有一些积极的方面,但仍需要取得进展,以实现完全可以解释的社会代理商创作工具。我们提供一组关键概念和可能的解决方案,可以指导开发人员构建此类工具。
translated by 谷歌翻译
创意支持工具中的反馈可以帮助人群推动他们的意思。但是,目前的反馈方法需要从促进者或同行中进行人力评估。这不可扩展到大人群。我们提出可解释的定向多样性来自动预测观点的质量和多样性分数,并提供AI解释 - 归因,对比归因和反事实建议 - 反馈意见(低),以及如何获得更高的分数。由于用户迭代地提高其想象,这些解释提供了多面反馈。我们进行了形成性和控制的用户研究,以了解解释的使用和有用性,以提高观念多样性和质量。用户感谢解释反馈帮助重点努力,并提供了改进的方向。这导致解释与没有反馈或反馈仅具有预测的反馈和反馈相比提高了多样性。因此,我们的方法为解释和丰富的反馈开辟了可解释的AI的机会,以获得迭代人群思想和创造力支​​持工具。
translated by 谷歌翻译
AI自然语言生成(NLG)是计算机系统从信息中生成可读性语言文本的过程。它可以成为人类创造性写作过程中不可或缺的一部分。重要的是,年轻人可以学会在主流教育中应用NLG,并为AI增强的写作工作和其他写作努力做好准备。为了探索学生如何将NLG应用于创意写作,我们在香港中学设计和实施了第一届人类创意写作竞赛。在本次比赛中,每个学生参与者都使用计算机生成并建立在开源语言模型上的学生自己的单词和单词,写了一篇关于500个字的短篇小说。我们为比赛设计了四个文本生成器,作为计算机的文本条目。此外,使用基于设计的研究,我们开发了七个研讨会,学生学会了与四个文本生成器一起编写并回答反思问题。在分析故事的四个学生的短篇小说和审判者的分数时,我们发现了学生使用的文本生成器单词的数量和类型的不同策略。一些策略似乎比其他策略更复杂。在分析学生的思考时,我们发现学生可以将文本生成器输入和输出描述为思想单位。此外,学生还展示了对文本生成器的偏好。他们在用文本生成器写作时表达了一系列感受。这些发现不仅为NLG的正规教育应用提供了设计含义,而且还提出了AI课程的教学策略。
translated by 谷歌翻译
使用计算笔记本(例如,Jupyter Notebook),数据科学家根据他们的先前经验和外部知识(如在线示例)合理化他们的探索性数据分析(EDA)。对于缺乏关于数据集或问题的具体了解的新手或数据科学家,有效地获得和理解外部信息对于执行EDA至关重要。本文介绍了eDassistant,一个jupyterlab扩展,支持EDA的原位搜索示例笔记本电脑和有用的API的推荐,由搜索结果的新颖交互式可视化供电。代码搜索和推荐是由最先进的机器学习模型启用的,培训在线收集的EDA笔记本电脑的大型语料库。进行用户学习,以调查埃迪卡斯特和数据科学家的当前实践(即,使用外部搜索引擎)。结果证明了埃迪斯坦特的有效性和有用性,与会者赞赏其对EDA的顺利和环境支持。我们还报告了有关代码推荐工具的几种设计意义。
translated by 谷歌翻译
本文详细概述了将连续学习(CL)应用于单课的人类机器人互动(HRI)会议(AVG。31 +-10分钟)的案例研究,其中机器人的心理健康教练是积极的(n = 20)参与者的心理学(PP)练习。我们介绍了互动会议后与参与者进行的简短半结构访谈记录的数据的主题分析(TA)的结果,以及对统计结果的分析,证明了参与者的个性如何影响他们如何看待机器人的方式及其互动。
translated by 谷歌翻译
情绪分析中最突出的任务是为文本分配情绪,并了解情绪如何在语言中表现出来。自然语言处理的一个重要观察结果是,即使没有明确提及情感名称,也可以通过单独参考事件来隐式传达情绪。在心理学中,被称为评估理论的情感理论类别旨在解释事件与情感之间的联系。评估可以被形式化为变量,通过他们认为相关的事件的人们的认知评估来衡量认知评估。其中包括评估事件是否是新颖的,如果该人认为自己负责,是否与自己的目标以及许多其他人保持一致。这样的评估解释了哪些情绪是基于事件开发的,例如,新颖的情况会引起惊喜或不确定后果的人可能引起恐惧。我们在文本中分析了评估理论对情绪分析的适用性,目的是理解注释者是否可以可靠地重建评估概念,如果可以通过文本分类器预测,以及评估概念是否有助于识别情感类别。为了实现这一目标,我们通过要求人们发短信描述触发特定情绪并披露其评估的事件来编译语料库。然后,我们要求读者重建文本中的情感和评估。这种设置使我们能够衡量是否可以纯粹从文本中恢复情绪和评估,并为判断模型的绩效指标提供人体基准。我们将文本分类方法与人类注释者的比较表明,两者都可以可靠地检测出具有相似性能的情绪和评估。我们进一步表明,评估概念改善了文本中情绪的分类。
translated by 谷歌翻译
Intelligent agents have great potential as facilitators of group conversation among older adults. However, little is known about how to design agents for this purpose and user group, especially in terms of agent embodiment. To this end, we conducted a mixed methods study of older adults' reactions to voice and body in a group conversation facilitation agent. Two agent forms with the same underlying artificial intelligence (AI) and voice system were compared: a humanoid robot and a voice assistant. One preliminary study (total n=24) and one experimental study comparing voice and body morphologies (n=36) were conducted with older adults and an experienced human facilitator. Findings revealed that the artificiality of the agent, regardless of its form, was beneficial for the socially uncomfortable task of conversation facilitation. Even so, talkative personality types had a poorer experience with the "bodied" robot version. Design implications and supplementary reactions, especially to agent voice, are also discussed.
translated by 谷歌翻译
自动摘要方法是有效的,但可能患有低质量。相比之下,手动摘要很昂贵,但质量更高。人类和人工智能可以协作以提高总结性能吗?在类似的文本生成任务(例如机器翻译)中,人类AI合作的形式是“后编辑” AI生成的文本,可减少人类的工作量并提高AI输出的质量。因此,我们探讨了邮政编辑是否提供文本摘要中的优势。具体来说,我们对72名参与者进行了实验,将提供的后编辑摘要与手动摘要进行了摘要,以摘要质量,人为效率和用户在正式新闻(XSUM新闻)和非正式(REDDIT帖子)文本方面进行了比较。这项研究对何时编辑的文本摘要提供了宝贵的见解:在某些情况下(例如,何时参与者缺乏领域知识),但在其他情况下却没有帮助(例如,何时提供的摘要包括不准确的信息)。参与者的不同编辑策略和援助需求为未来的人类摘要系统提供了影响。
translated by 谷歌翻译
支持用户日常生活的代理商不仅需要考虑用户的特征,还要考虑用户的社交状况。现有在包括社交环境的工作使用某种类型的情况提示作为信息处理技术的输入,以评估用户的预期行为。但是,研究表明,确定情况的含义非常重要,这是我们称之为社会状况理解的步骤。我们建议使用情境的心理特征,这些情况在社会科学中提出了将含义归因于情境,作为社会状况理解的基础。使用来自用户研究的数据,我们从两个角度评估了该建议。首先,从技术角度来看,我们表明,情况的心理特征可以用作预测社会情况优先级的投入,并且可以从社会状况的特征中预测情况的心理特征。其次,我们研究了理解步骤在人机含义制造中的作用。我们表明,心理特征可以成功地用作向用户解释议程管理个人助理代理商的决定的基础。
translated by 谷歌翻译