使用深度学习来产生类似人类的文本的自回归语言模型已变得越来越普遍。这样的模型为智能健康,金融和自动驾驶等领域的流行虚拟助手提供动力。尽管这些大语言模型的参数正在改善,但担心这些模型可能对社会中的所有亚组都没有平等。尽管对跨学科的AI公平性进行了越来越多的讨论,但缺乏系统的指标来评估公平在对话系统中的意义以及如何使不同人群参与评估循环。本文基于审议民主和科学技术研究的理论,提出了一个分析框架,以解开人类对话中的公平意义。使用此框架,我们进行了一项审计研究,以研究GPT-3如何应对有关关键科学和社会主题的不同亚人群的反应:气候变化和黑人生活问题(BLM)运动。我们的语料库包括在性别,种族和种族,教育水平,英语作为第一语言的GPT-3和3290个人之间的超过20,000轮对话,以及对问题的看法。我们发现,在观点和教育少数群体中,对GPT-3的用户经验实质上较差;但是,这两个小组获得了最大的知识增长,改变了聊天后对BLM和气候变化工作的态度改变。我们将这些用户的经验划分为对话差异,发现GPT-3在对教育和舆论少数群体群体做出反应时,与对多数群体的反应相比,它使用了更多的负面表达。我们讨论了我们的发现对集中多样性,公平和包容性的审议对话AI系统的含义。
translated by 谷歌翻译
人类交流越来越多地与AI产生的语言混合。在聊天,电子邮件和社交媒体中,AI系统会产生智能答复,自动完成和翻译。 AI生成的语言通常不被认为是人类语言的姿势,引起了人们对新型欺骗和操纵形式的担忧。在这里,我们研究了人类如何辨别AI产生的最个人化和结果形式之一 - 一种自我表现。在六个实验中,参与者(n = 4,650)试图识别由最先进的语言模型产生的自我表现。在专业,款待和浪漫的环境中,我们发现人类无法识别AI生成的自我表现。将定性分析与语言特征工程相结合,我们发现人类对语言的人类判断受到直观但有缺陷的启发式方法的困扰,例如将第一人称代词,真实的单词或家庭主题与人类相关联。我们表明,这些启发式方法使人类对产生的语言的判断可预测和可操纵,从而使AI系统能够产生比人类更具人类的语言。我们通过讨论解决方案(例如AI的重音或合理使用政策)来结束,以减少产生语言的欺骗潜力,从而限制人类直觉的颠覆。
translated by 谷歌翻译
越来越多的监督委员会和监管机构试图监视和管理对人们生活做出决定的算法。先前的工作已经探讨了人们如何认为应该做出算法的决策,但是对诸如社会人工学或直接经验之类的个人因素如何以决策情景的方式影响了他们的道德观点。我们通过探索人们对程序算法公平的一个方面的看法(在算法决定中使用特定功能的公平性)迈出了填补这一空白的一步,这与他们的(i)人口统计学(年龄,教育,性别,种族,政治观点,政治观点,政治观点, )和(ii)算法决策方案的个人经历。我们发现,具有算法决策背景的政治观点和个人经验会极大地影响对使用不同特征进行保释决策的公平性的看法。利用我们的结果,我们讨论了对利益相关者参与和算法监督的影响,包括需要考虑在构成监督和监管机构时考虑多样性的多个维度。
translated by 谷歌翻译
我们建议并探讨可以将语言模型作为社会科学研究中特定人类亚人群的有效代理进行研究的可能性。人工智能工具的实践和研究应用有时受到有问题的偏见(例如种族主义或性别歧视)的限制,这些偏见通常被视为模型的统一特性。我们表明,一个这样的工具中的“算法偏见”(GPT-3语言模型)既是细粒度又是人口统计相关的,这意味着适当的条件会导致其准确地仿真来自各种人类的响应分布亚组。我们将此属性称为“算法忠诚度”,并在GPT-3中探索其范围。我们通过将模型调节在美国进行的多项大型调查中的数千个社会人口统计背景故事中调节,从而创建“硅样本”。然后,我们比较硅和人类样品,以证明GPT-3中包含的信息远远超出了表面相似性。它是细微的,多方面的,并反映了特征人类态度的思想,态度和社会文化背景之间的复杂相互作用。我们建议,具有足够算法的忠诚度的语言模型构成了一种新颖而有力的工具,可以促进各种学科的人类和社会的理解。
translated by 谷歌翻译
值得信赖的人工智能(AI)已成为一个重要的话题,因为在AI系统及其创造者中的信任已经丢失。研究人员,公司和政府具有远离技术开发,部署和监督的边缘化群体的长期和痛苦的历史。结果,这些技术对小群体的有用甚至有害。我们争辩说,渴望信任的任何AI开发,部署和监测框架必须纳入女权主义,非剥削参与性设计原则和强大,外部和持续监测和测试。我们还向考虑到透明度,公平性和问责制的可靠性方面的重要性,特别是考虑对任何值得信赖的AI系统的核心价值观的正义和转移权力。创建值得信赖的AI通过资金,支持和赋予Grassroots组织,如AI Queer等基层组织开始,因此AI领域具有多样性和纳入可信和有效地发展的可信赖AI。我们利用AI的专家知识Queer通过其多年的工作和宣传来讨论以及如何以及如何在数据集和AI系统中使用如何以及如何在数据集和AI系统中使用以及沿着这些线路的危害。基于此,我们分享了对AI的性别方法,进一步提出了Queer认识论并分析它可以带来AI的好处。我们还讨论了如何在愿景中讨论如何使用此Queer认识论,提出与AI和性别多样性和隐私和酷儿数据保护相关的框架。
translated by 谷歌翻译
情绪分析中最突出的任务是为文本分配情绪,并了解情绪如何在语言中表现出来。自然语言处理的一个重要观察结果是,即使没有明确提及情感名称,也可以通过单独参考事件来隐式传达情绪。在心理学中,被称为评估理论的情感理论类别旨在解释事件与情感之间的联系。评估可以被形式化为变量,通过他们认为相关的事件的人们的认知评估来衡量认知评估。其中包括评估事件是否是新颖的,如果该人认为自己负责,是否与自己的目标以及许多其他人保持一致。这样的评估解释了哪些情绪是基于事件开发的,例如,新颖的情况会引起惊喜或不确定后果的人可能引起恐惧。我们在文本中分析了评估理论对情绪分析的适用性,目的是理解注释者是否可以可靠地重建评估概念,如果可以通过文本分类器预测,以及评估概念是否有助于识别情感类别。为了实现这一目标,我们通过要求人们发短信描述触发特定情绪并披露其评估的事件来编译语料库。然后,我们要求读者重建文本中的情感和评估。这种设置使我们能够衡量是否可以纯粹从文本中恢复情绪和评估,并为判断模型的绩效指标提供人体基准。我们将文本分类方法与人类注释者的比较表明,两者都可以可靠地检测出具有相似性能的情绪和评估。我们进一步表明,评估概念改善了文本中情绪的分类。
translated by 谷歌翻译
In this chapter, we review and discuss the transformation of AI technology in HCI/UX work and assess how AI technology will change how we do the work. We first discuss how AI can be used to enhance the result of user research and design evaluation. We then discuss how AI technology can be used to enhance HCI/UX design. Finally, we discuss how AI-enabled capabilities can improve UX when users interact with computing systems, applications, and services.
translated by 谷歌翻译
已经开发出各种工具和实践来支持从业者识别,评估和减轻AI系统造成的公平相关危害。然而,现有研究突出了这些工具和实践的预期设计与特定背景下的使用之间的差距,包括由组织因素在塑造公平工作中发挥的作用引起的差距。在本文中,我们研究了一个这样的实践的这些差距:AI系统的分类评估,旨在揭示人口统计组之间的表现差异。通过在三个技术公司的十支队伍中进行半结构化访谈和三十三名艾尔从业人员,我们在设计分列的评估时,我们识别从业者的流程,挑战,并对支持的需求。我们发现从业者在选择绩效指标时面临挑战,识别最相关的直接利益相关者和在其上进行重点的人口统计集团,并收集其进行分类评估的数据集。更一般地说,我们识别对公平工作的影响,这些工作缺乏与直接利益相关者的订婚,优先考虑通过边缘化群体的客户,以及以规模部署AI系统的驱动器。
translated by 谷歌翻译
大型语言模型会产生类似人类的文本,这些文本推动了越来越多的应用。但是,最近的文献以及越来越多的现实世界观察表明,这些模型可以产生有毒,有偏见,不真实或其他有害的语言。尽管正在进行评估语言模型危害的工作,但要远见卓识转换出可能出现的危害可能会引起严格的基准。为了促进这种翻译,我们概述了六种表征有害文本的方式,这些方法在设计新基准时值得明确考虑。然后,我们将这些特征用作镜头来识别现有基准中的趋势和差距。最后,我们将它们应用于视角API的案例研究,这是一种毒性分类器,被广泛用于HARS基准。我们的特征提供了一块桥梁,可以在远见和有效评估之间转化。
translated by 谷歌翻译
This study introduces and examines the potential of an AI system to generate health awareness messages. The topic of folic acid, a vitamin that is critical during pregnancy, served as a test case. Using prompt engineering, we generated messages that could be used to raise awareness and compared them to retweeted human-generated messages via computational and human evaluation methods. The system was easy to use and prolific, and computational analyses revealed that the AI-generated messages were on par with human-generated ones in terms of sentiment, reading ease, and semantic content. Also, the human evaluation study showed that AI-generated messages ranked higher in message quality and clarity. We discuss the theoretical, practical, and ethical implications of these results.
translated by 谷歌翻译
我们生活中情绪的重要性和普及性使得情感计算了一个非常重要和充满活力的工作。自动情感识别(AER)和情感分析的系统可以是巨大进展的促进者(例如,改善公共卫生和商业),而且还有巨大伤害的推动者(例如,用于抑制持不同政见者和操纵选民)。因此,情感计算社区必须积极地与其创作的道德后果搞。在本文中,我已经从AI伦理和情感认可文学中综合和组织信息,以提出与AER相关的五十个道德考虑因素。值得注意的是,纸张捏出了隐藏在如何框架的假设,并且在经常对数据,方法和评估的选择中的选择。特别关注在隐私和社会群体上的AER对AER的影响。沿途,关键建议是针对负责任的航空制作的。纸张的目标是促进和鼓励更加思考为什么自动化,如何自动化,以及如何在建立AER系统之前判断成功。此外,该纸张作为情感认可的有用介绍文件(补充调查文章)。
translated by 谷歌翻译
教育技术,以及他们部署的学校教育系统,制定了特定的意识形态,了解有关知识的重要事项以及学习者应该如何学习。作为人工智能技术 - 在教育和超越 - 可能导致边缘社区的不公平结果,已经制定了各种方法来评估和减轻AI的有害影响。然而,我们争辩于本文认为,在AI模型中的性能差异的基础上评估公平的主导范式是面对教育AI系统(RE)生产的系统性不公平。我们在批判理论和黑色女权主义奖学金中汲取了结构性不公正的镜头,以批判性地审查了几个普遍研究的和广泛采用的教育AI类别,并探讨了他们如何融入和重现结构不公正和不公平的历史遗产和不公平的历史遗产。他们模型绩效的奇偶阶段。我们关闭了替代愿景,为教育ai提供更公平的未来。
translated by 谷歌翻译
Intelligent agents have great potential as facilitators of group conversation among older adults. However, little is known about how to design agents for this purpose and user group, especially in terms of agent embodiment. To this end, we conducted a mixed methods study of older adults' reactions to voice and body in a group conversation facilitation agent. Two agent forms with the same underlying artificial intelligence (AI) and voice system were compared: a humanoid robot and a voice assistant. One preliminary study (total n=24) and one experimental study comparing voice and body morphologies (n=36) were conducted with older adults and an experienced human facilitator. Findings revealed that the artificiality of the agent, regardless of its form, was beneficial for the socially uncomfortable task of conversation facilitation. Even so, talkative personality types had a poorer experience with the "bodied" robot version. Design implications and supplementary reactions, especially to agent voice, are also discussed.
translated by 谷歌翻译
我们介绍了Sparrow,这是一个寻求信息的对话代理,与提示的语言模型基线相比,训练有素,更有帮助,正确和无害。我们使用从人类反馈中的强化学习来培训我们的模型,以帮助人类评估者判断代理人的行为。首先,为了使我们的代理人更有帮助和无害,我们将良好对话的要求分解为代理人应遵循的自然语言规则,并分别向评估者询问每个规则。我们证明,这种崩溃使我们能够收集对代理行为的更多针对性的人类判断,并允许更有效的规则条件奖励模型。其次,我们的代理商在收集对模型声明的偏好判决时提供了支持事实主张的来源的证据。对于事实问题,麻雀提供的证据支持了78%的时间。比基线比基线更享受麻雀,同时对人类的对抗性探测更具弹性,在探测时只有8%的时间违反了我们的规则。最后,我们进行了广泛的分析,表明尽管我们的模型学会遵守我们的规则,但它可以表现出分布偏见。
translated by 谷歌翻译
机器学习(ML)技术在教育方面越来越普遍,从预测学生辍学,到协助大学入学以及促进MOOC的兴起。考虑到这些新颖用途的快速增长,迫切需要调查ML技术如何支持长期以来的教育原则和目标。在这项工作中,我们阐明了这一复杂的景观绘制,以对教育专家的访谈进行定性见解。这些访谈包括对过去十年中著名应用ML会议上发表的ML教育(ML4ED)论文的深入评估。我们的中心研究目标是批判性地研究这些论文的陈述或暗示教育和社会目标如何与他们解决的ML问题保持一致。也就是说,技术问题的提出,目标,方法和解释结果与手头的教育问题保持一致。我们发现,在ML生命周期的两个部分中存在跨学科的差距,并且尤其突出:从教育目标和将预测转换为干预措施的ML问题的提出。我们使用这些见解来提出扩展的ML生命周期,这也可能适用于在其他领域中使用ML。我们的工作加入了越来越多的跨教育和ML研究的荟萃分析研究,以及对ML社会影响的批判性分析。具体而言,它填补了对机器学习的主要技术理解与与学生合作和政策合作的教育研究人员的观点之间的差距。
translated by 谷歌翻译
随着数据驱动的系统越来越大规模部署,对历史上边缘化的群体的不公平和歧视结果引起了道德问题,这些群体在培训数据中的代表性不足。作为回应,围绕AI的公平和包容性的工作呼吁代表各个人口组的数据集。在本文中,我们对可访问性数据集中的年龄,性别和种族和种族的代表性进行了分析 - 数据集 - 来自拥有的数据集,这些数据集来自拥有的人。残疾和老年人 - 这可能在减轻包含AI注入的应用程序的偏见方面发挥重要作用。我们通过审查190个数据集的公开信息来检查由残疾人来源的数据集中的当前表示状态,我们称这些可访问性数据集为止。我们发现可访问性数据集代表不同的年龄,但具有性别和种族表示差距。此外,我们研究了人口统计学变量的敏感和复杂性质如何使分类变得困难和不一致(例如,性别,种族和种族),标记的来源通常未知。通过反思当前代表残疾数据贡献者的挑战和机会,我们希望我们的努力扩大了更多可能将边缘化社区纳入AI注入系统的可能性。
translated by 谷歌翻译
语言的感知毒性可能会因某人的身份和信仰而有所不同,但是在收集有毒语言数据集时往往忽略这种变化,从而导致数据集和模型偏差。我们寻求理解谁,为什么,以及毒性注释的偏见背后。在两个在线研究中具有人口统计地和政治上的参与者,我们调查了注释者身份(世卫组织)和信仰的影响(为什么),从社会心理学研究中汲取仇恨言语,自由言论,种族主义信念,政治倾向等。我们解除了通过考虑三个特征的帖子作为毒性的毒性:反黑色语言,非洲裔美国英语(AAE)方言和粗俗。我们的结果显示了注释者身份和信仰之间的强有力的协会及其毒性评级。值得注意的是,更保守的注释者和那些对我们的种族信仰规模的评分的人不太可能对毒黑语言归因于毒性,但更有可能将AAE归因于毒性。我们还提供了一个案例研究,说明了流行的毒性检测系统的评级如何自然地反映特定的信念和观点。我们的调查结果要求社会变量中的毒性标签,这提高了对有毒语言注释和检测的巨大影响。
translated by 谷歌翻译
Using chatbots to deliver recommendations is increasingly popular. The design of recommendation chatbots has primarily been taking an information-centric approach by focusing on the recommended content per se. Limited attention is on how social connection and relational strategies, such as self-disclosure from a chatbot, may influence users' perception and acceptance of the recommendation. In this work, we designed, implemented, and evaluated a social chatbot capable of performing three different levels of self-disclosure: factual information (low), cognitive opinions (medium), and emotions (high). In the evaluation, we recruited 372 participants to converse with the chatbot on two topics: movies and COVID-19 experiences. In each topic, the chatbot performed small talks and made recommendations relevant to the topic. Participants were randomly assigned to four experimental conditions where the chatbot used factual, cognitive, emotional, and adaptive strategies to perform self-disclosures. By training a text classifier to identify users' level of self-disclosure in real-time, the adaptive chatbot can dynamically match its self-disclosure to the level of disclosure exhibited by the users. Our results show that users reciprocate with higher-level self-disclosure when a recommendation chatbot consistently displays emotions throughout the conversation. Chatbot's emotional disclosure also led to increased interactional enjoyment and more positive interpersonal perception towards the bot, fostering a stronger human-chatbot relationship and thus leading to increased recommendation effectiveness, including a higher tendency to accept the recommendation. We discuss the understandings obtained and implications to future design.
translated by 谷歌翻译
最近十年表明,人们对机器人作为福祉教练的兴趣越来越大。但是,尚未提出针对机器人设计作为促进心理健康的教练的凝聚力和全面的准则。本文详细介绍了基于基于扎根理论方法的定性荟萃分析的设计和道德建议,该方法是通过三项以用户为中心的涉及机器人福祉教练的三个不同的以用户为中心进行的,即:(1)与参与性设计研究一起进行的。 11名参与者由两位潜在用户组成,他们与人类教练一起参加了简短的专注于解决方案的实践研究,以及不同学科的教练,(2)半结构化的个人访谈数据,这些数据来自20名参加积极心理学干预研究的参与者借助机器人福祉教练胡椒,(3)与3名积极心理学研究的参与者以及2名相关的福祉教练进行了一项参与式设计研究。在进行主题分析和定性荟萃分析之后,我们将收集到收敛性和不同主题的数据整理在一起,并从这些结果中提炼了一套设计准则和道德考虑。我们的发现可以在设计机器人心理福祉教练时考虑到关键方面的关键方面。
translated by 谷歌翻译
Many real-world applications of language models (LMs), such as code autocomplete and writing assistance, involve human-LM interaction, but the main LM benchmarks are non-interactive, where a system produces output without human intervention. To evaluate human-LM interaction, we develop a framework, Human-AI Language-based Interaction Evaluation (H-LINE), that expands non-interactive evaluation along three dimensions, capturing (i) the interactive process, not only the final output; (ii) the first-person subjective experience, not just a third-party assessment; and (iii) notions of preference beyond quality. We then design five tasks ranging from goal-oriented to open-ended to capture different forms of interaction. On four state-of-the-art LMs (three variants of OpenAI's GPT-3 and AI21's J1-Jumbo), we find that non-interactive performance does not always result in better human-LM interaction and that first-person and third-party metrics can diverge, suggesting the importance of examining the nuances of human-LM interaction.
translated by 谷歌翻译