在研究和行业中,监督机器学习的日益增长增加了对标记数据集的需求。众包已经成为创建数据标签的一种流行方法。但是,处理大量任务会导致工人疲劳,从而产生负面影响的标签质量。为了解决这个问题,我们介绍了一个协作众包系统Trueyes,从而可以向移动应用程序用户分发微型任务。Trueyes允许机器学习实践者发布标签任务,移动应用程序开发人员以集成货币化的任务广告,以及用户来标记数据而不是观看广告。为了评估系统,我们对N = 296名参与者进行了实验。我们的结果表明,标记数据的质量与传统的众包方法相媲美,大多数用户更喜欢任务广告而不是传统广告。我们讨论了系统的扩展,并解决了将来如何将移动广告空间用作生产资源。
translated by 谷歌翻译
Crowdsourcing, in which human intelligence and productivity is dynamically mobilized to tackle tasks too complex for automation alone to handle, has grown to be an important research topic and inspired new businesses (e.g., Uber, Airbnb). Over the years, crowdsourcing has morphed from providing a platform where workers and tasks can be matched up manually into one which leverages data-driven algorithmic management approaches powered by artificial intelligence (AI) to achieve increasingly sophisticated optimization objectives. In this paper, we provide a survey presenting a unique systematic overview on how AI can empower crowdsourcing - which we refer to as AI-Empowered Crowdsourcing(AIEC). We propose a taxonomy which divides algorithmic crowdsourcing into three major areas: 1) task delegation, 2) motivating workers, and 3) quality control, focusing on the major objectives which need to be accomplished. We discuss the limitations and insights, and curate the challenges of doing research in each of these areas to highlight promising future research directions.
translated by 谷歌翻译
在过去的十年中,计算机愿景,旨在了解视觉世界的人工智能分支,从简单地识别图像中的物体来描述图片,回答有关图像的问题,以及围绕物理空间的机器人操纵甚至产生新的视觉内容。随着这些任务和应用程序的现代化,因此依赖更多数据,用于模型培训或评估。在本章中,我们展示了新颖的互动策略可以为计算机愿景提供新的数据收集和评估。首先,我们提出了一种众群界面,以通过数量级加速付费数据收集,喂养现代视觉模型的数据饥饿性质。其次,我们探索使用自动社交干预措施增加志愿者贡献的方法。第三,我们开发一个系统,以确保人类对生成视觉模型的评估是可靠的,实惠和接地在心理物理学理论中。我们结束了人机互动的未来机会,以帮助计算机愿景。
translated by 谷歌翻译
工人花费大量时间学习如何做出正确的决定。但是,评估给定决策的功效可能很复杂 - 例如,决策结果通常是长期的,并且以复杂的方式与原始决策有关。令人惊讶的是,即使学习良好的决策策略很困难,它们通常可以以简单明了的形式表达。为了关注顺序决策,我们设计了一种新颖的机器学习算法,该算法能够从跟踪数据中提取“最佳实践”,并以可解释的“提示”的形式向人类传达其见解。我们的算法选择了最能弥合人类工人所采取的行动与最佳政策所采取的行动之间差距的提示,以说明行动对实现更高绩效的影响的方式。我们通过一系列参与者管理虚拟厨房的一系列随机对照实验来评估我们的方法。我们的实验表明,我们算法产生的提示可以显着改善相对于直观基准的人类性能。此外,我们讨论了许多经验见解,这些见解可以帮助告知针对人类界面的算法设计。例如,我们发现参与者不仅盲目地遵循我们的技巧的证据。相反,他们将他们与自己的经验结合在一起,以发现改善性能的其他策略。
translated by 谷歌翻译
Incivility remains a major challenge for online discussion platforms, to such an extent that even conversations between well-intentioned users can often derail into uncivil behavior. Traditionally, platforms have relied on moderators to -- with or without algorithmic assistance -- take corrective actions such as removing comments or banning users. In this work we propose a complementary paradigm that directly empowers users by proactively enhancing their awareness about existing tension in the conversation they are engaging in and actively guides them as they are drafting their replies to avoid further escalation. As a proof of concept for this paradigm, we design an algorithmic tool that provides such proactive information directly to users, and conduct a user study in a popular discussion platform. Through a mixed methods approach combining surveys with a randomized controlled experiment, we uncover qualitative and quantitative insights regarding how the participants utilize and react to this information. Most participants report finding this proactive paradigm valuable, noting that it helps them to identify tension that they may have otherwise missed and prompts them to further reflect on their own replies and to revise them. These effects are corroborated by a comparison of how the participants draft their reply when our tool warns them that their conversation is at risk of derailing into uncivil behavior versus in a control condition where the tool is disabled. These preliminary findings highlight the potential of this user-centered paradigm and point to concrete directions for future implementations.
translated by 谷歌翻译
如今,由于最近在人工智能(AI)和机器学习(ML)中的近期突破,因此,智能系统和服务越来越受欢迎。然而,机器学习不仅满足软件工程,不仅具有有希望的潜力,而且还具有一些固有的挑战。尽管最近的一些研究努力,但我们仍然没有明确了解开发基于ML的申请和当前行业实践的挑战。此外,目前尚不清楚软件工程研究人员应将其努力集中起来,以更好地支持ML应用程序开发人员。在本文中,我们报告了一个旨在了解ML应用程序开发的挑战和最佳实践的调查。我们合成从80名从业者(以不同的技能,经验和应用领域)获得的结果为17个调查结果;概述ML应用程序开发的挑战和最佳实践。参与基于ML的软件系统发展的从业者可以利用总结最佳实践来提高其系统的质量。我们希望报告的挑战将通知研究界有关需要调查的主题,以改善工程过程和基于ML的申请的质量。
translated by 谷歌翻译
在线众包平台使对算法输出进行评估变得容易,并提出诸如“哪个图像更好,A或B?”之类的问题的调查,在视觉和图形研究论文中的这些“用户研究”的扩散导致了增加匆忙进行的研究充其量是草率且无知的,并且可能有害和误导。我们认为,在计算机视觉和图形论文中的用户研究的设计和报告需要更多关注。为了提高从业者的知识并提高用户研究的可信度和可复制性,我们提供了用户体验研究(UXR),人类计算机互动(HCI)和相关领域的方法论的概述。我们讨论了目前在计算机视觉和图形研究中未利用的基础用户研究方法(例如,需要调查),但可以为研究项目提供宝贵的指导。我们为有兴趣探索其他UXR方法的读者提供了进一步的指导。最后,我们描述了研究界的更广泛的开放问题和建议。我们鼓励作者和审稿人都认识到,并非每项研究贡献都需要用户研究,而且根本没有研究比不小心进行的研究更好。
translated by 谷歌翻译
In this chapter, we review and discuss the transformation of AI technology in HCI/UX work and assess how AI technology will change how we do the work. We first discuss how AI can be used to enhance the result of user research and design evaluation. We then discuss how AI technology can be used to enhance HCI/UX design. Finally, we discuss how AI-enabled capabilities can improve UX when users interact with computing systems, applications, and services.
translated by 谷歌翻译
自我跟踪可以提高人们对他们不健康的行为的认识,为行为改变提供见解。事先工作探索了自动跟踪器如何反映其记录数据,但它仍然不清楚他们从跟踪反馈中学到多少,以及哪些信息更有用。实际上,反馈仍然可以压倒,并简明扼要可以通过增加焦点和减少解释负担来改善学习。为了简化反馈,我们提出了一个自动跟踪反馈显着框架,以定义提供反馈的特定信息,为什么这些细节以及如何呈现它们(手动引出或自动反馈)。我们从移动食品跟踪的实地研究中收集了调查和膳食图像数据,并实施了Salientrack,一种机器学习模型,以预测用户从跟踪事件中学习。使用可解释的AI(XAI)技术,SalientRack识别该事件的哪些特征是最突出的,为什么它们导致正面学习结果,并优先考虑如何根据归属分数呈现反馈。我们展示了用例,并进行了形成性研究,以展示Salientrack的可用性和有用性。我们讨论自动跟踪中可读性的影响,以及如何添加模型解释性扩大了提高反馈体验的机会。
translated by 谷歌翻译
数据对于机器学习(ML)模型的开发和评估至关重要。但是,在部署所得模型时,使用有问题或不适当的数据集可能会造成危害。为了通过对数据集进行更故意的反思和创建过程的透明度来鼓励负责任的练习,研究人员和从业人员已开始倡导增加数据文档,并提出了几个数据文档框架。但是,几乎没有研究这些数据文档框架是否满足创建和消费数据集的ML从业者的需求。为了解决这一差距,我们着手了解ML从业人员的数据文档感知,需求,挑战和Desiderata,目的是推导设计要求,以便为将来的数据文档框架提供信息。我们对一家大型国际技术公司的14名ML从业者进行了一系列半结构化访谈。我们让他们回答从数据集的数据表中提取的问题列表(Gebru,2021)。我们的发现表明,目前的数据文档方法在很大程度上是临时的,而且本质上是近视的。参与者表达了对数据文档框架的需求,可以适应其上下文,并将其集成到现有的工具和工作流程中,并尽可能自动化。尽管事实上,数据文档框架通常是从负责人的AI的角度出发的,但参与者并未在他们被要求回答的问题与负责的AI含义之间建立联系。此外,参与者通常会在数据集消费者的需求中优先考虑,并提供了不熟悉其数据集可能需要知道的信息。基于这些发现,我们为将来的数据文档框架得出了七个设计要求。
translated by 谷歌翻译
MetaVerse,巨大的虚拟物理网络空间,为艺术家带来了前所未有的机会,将我们的身体环境的每个角落与数字创造力混合。本文对计算艺术进行了全面的调查,其中七个关键主题与成权相关,描述了混合虚拟物理现实中的新颖艺术品。主题首先涵盖了MetaVerse的建筑元素,例如虚拟场景和字符,听觉,文本元素。接下来,已经反映了诸如沉浸式艺术,机器人艺术和其他用户以其他用户的方法提供了沉浸式艺术,机器人艺术和其他用户中心的若干非凡类型的新颖创作。最后,我们提出了几项研究议程:民主化的计算艺术,数字隐私和搬迁艺术家的安全性,为数字艺术品,技术挑战等等的所有权认可。该调查还担任艺术家和搬迁技术人员的介绍材料,以开始在超现实主义网络空间领域创造。
translated by 谷歌翻译
在公共危机时期,寻求信息对于人们的自我保健和福祉至关重要。广泛的研究调查了经验理解和技术解决方案,以促进受影响地区的家庭公民寻求信息。但是,建立有限的知识是为了支持需要在其东道国发生危机的国际移民。当前的论文对居住在日本和美国(n = 14)的两名中国移民(n = 14)进行了访谈研究。参与者反思了他们在共同大流行期间寻求经验的信息。反思补充了两周的自我追踪,参与者保持了相关信息寻求实践的记录。我们的数据表明,参与者经常绕开语言绕道,或访问普通话资源以获取有关其东道国疫情爆发的信息。他们还进行了战略性利用普通话信息,以进行选择性阅读,交叉检查以及对日语或英语的共同信息的上下文化解释。尽管这种做法增强了参与者对共同相关信息收集和感官的有效性,但他们有时会通过有时认识的方式使人们处于不利地位。此外,参与者缺乏对审查以移民为导向的信息的认识或偏爱,尽管该信息可用,这些信息是由东道国公共当局发布的。在这些发现的基础上,我们讨论了改善国际移民在非本地语言和文化环境中寻求共同相关信息的解决方案。我们主张包容性危机基础设施,这些基础设施将吸引以当地语言流利程度,信息素养和利用公共服务的经验的不同水平的人们。
translated by 谷歌翻译
数字危害在移动生态系统中普遍存在。由于这些设备在日常生活中获得了更大的突出,因此太大了,因此增加了对个人的恶意攻击的潜力。最后一系列防御一系列数字伤害 - 包括数字分心,通过仇恨言论的政治极化,以及暴露于损坏材料的儿童 - 是用户界面。这项工作介绍了Greaeeterminator,使研究人员能够开发,部署和测试干预措施与最终用户的危害。我们展示了易于干预开发和部署,以及在五个深入案例研究中,潜在地覆盖了GreeSeterMinator的广泛危害。
translated by 谷歌翻译
事实证明,在学习环境中,社会智能代理(SIA)的部署在不同的应用领域具有多个优势。社会代理创作工具使场景设计师能够创造出对SIAS行为的高度控制的量身定制体验,但是,另一方面,这是有代价的,因为该方案及其创作的复杂性可能变得霸道。在本文中,我们介绍了可解释的社会代理创作工具的概念,目的是分析社会代理的创作工具是否可以理解和解释。为此,我们检查了创作工具Fatima-Toolkit是否可以理解,并且从作者的角度来看,其创作步骤可以解释。我们进行了两项用户研究,以定量评估Fatima-Toolkit的解释性,可理解性和透明度,从场景设计师的角度来看。关键发现之一是,法蒂玛 - 库尔基特(Fatima-Toolkit)的概念模型通常是可以理解的,但是基于情感的概念并不那么容易理解和使用。尽管关于Fatima-Toolkit的解释性有一些积极的方面,但仍需要取得进展,以实现完全可以解释的社会代理商创作工具。我们提供一组关键概念和可能的解决方案,可以指导开发人员构建此类工具。
translated by 谷歌翻译
神经语言模型有可能支持人类写作。但是,关于其整合和对写作和产出的影响仍然存在问题。为了解决这个问题,我们设计并比较了两个用于写作的用户界面与移动设备上的AI,这些用户界面操纵主动性和控制级别:1)使用连续生成的文本编写,AI添加了逐字文字和用户转向。 2)编写建议,AI建议短语和用户从列表中选择。在监督的在线研究(n = 18)中,参与者使用了这些原型和无AI的基线。我们收集了触摸互动,关于灵感和作者的评分以及访谈数据。有了AI的建议,人们的写作不那么积极,但觉得他们是作者。连续生成的文本减少了这种感知的作者身份,但编辑行为增加了。在这两种设计中,AI都会增加文本长度,并被认为会影响措辞。我们的发现为UI设计决策对用户体验和共同创造系统的产出的影响增加了新的经验证据。
translated by 谷歌翻译
我们探索Calico是一种微型可重新定位的可穿戴系统,具有快速,精确的运动,用于体内相互作用,驱动和感应。印花布由两轮机器人和一条轨道机制或“铁路”组成,机器人在其上行驶。机器人具有独立的,尺寸很小,并且具有其他传感器扩展选项。轨道系统允许机器人沿着用户的身体移动并到达任何预定位置。它还包括旋转开关以启用复杂的路由选项,当提出发散轨道时。我们报告了印花布的设计和实施,并通过一系列的系统性能评估。然后,我们介绍一些应用程序方案和用户研究,以了解印花布作为舞蹈教练的潜力,并探索对我们情景的定性感知,以告知该领域未来的研究。
translated by 谷歌翻译
研究过程自动化 - 对科学仪器,计算机,数据存储和其他资源的可靠,高效和可重复执行的可靠,高效和可重复执行,这是现代科学的基本要素。我们在此处报告Globus研究数据管理平台内的新服务,该服务可以将各种研究过程的规范作为可重复使用的动作集,流量以及在异质研究环境中执行此类流动的集合。为了以广泛的空间范围(例如,从科学仪器到远程数据中心)和时间范围(从几秒钟到几周),这些Globus自动化服务功能:1)云托管以可靠地执行长期持久的流量,尽管零星的失败,但这些Globus自动化服务功能:1) ; 2)声明性符号和可扩展的异步行动提供商API,用于定义和执行涉及任意资源的各种行动和流动规范; 3)授权授权机制,用于安全调用动作。这些服务允许研究人员将广泛的研究任务的管理外包和自动化为可靠,可扩展和安全的云平台。我们向Globus自动化服务提供用例
translated by 谷歌翻译
本文介绍了FLSYS的设计,实施和评估,一种支持移动应用的深度学习模型的移动云联合学习(FL)系统。 Flsys是创建使用这些模型的FL模型和应用程序开放生态系统的关键组件。 FLSYS旨在使用在智能手机上收集的移动感应数据,平衡模型性能,在手机上使用资源消耗,容忍手机通信故障,并在云中实现可扩展性。在FLSYS中,可以通过不同的应用程序培训云中具有不同流量的不同DL模型,并通过不同的应用程序同时访问和访问。此外,Flsys为第三方应用程序开发人员提供了培训FL模型的共同API。 flsys是在Android和AWS云中实现的。我们在野生FL模型中与人类活动识别(HAR)共同设计了FLSYS。在五个月的时间内,在100+大学生手机的两个地区收集了掌握数据。我们实施了Har-Wild,一种针对移动设备定制的CNN模型,具有数据增强机制,以减轻非独立和相同分布的(非IID)数据的问题,这些数据影响野外的流动模型训练。情绪分析(SA)模型用于演示FLSYS如何有效地支持并发模型,并且它使用446个用户的DataSet具有46,000多个推文。我们对Android手机和仿真器进行了广泛的实验,表明Flsys实现了良好的模型实用性和实际系统性能。
translated by 谷歌翻译
人为决策的合作努力实现超出人类或人工智能表现的团队绩效。但是,许多因素都会影响人类团队的成功,包括用户的领域专业知识,AI系统的心理模型,对建议的信任等等。这项工作检查了用户与三种模拟算法模型的互动,所有这些模型都具有相似的精度,但对其真正的正面和真实负率进行了不同的调整。我们的研究检查了在非平凡的血管标签任务中的用户性能,参与者表明给定的血管是流动还是停滞。我们的结果表明,虽然AI-Assistant的建议可以帮助用户决策,但用户相对于AI的基线性能和AI错误类型的补充调整等因素会显着影响整体团队的整体绩效。新手用户有所改善,但不能达到AI的准确性。高度熟练的用户通常能够识别何时应遵循AI建议,并通常保持或提高其性能。与AI相似的准确性水平的表演者在AI建议方面是最大的变化。此外,我们发现用户对AI的性能亲戚的看法也对给出AI建议时的准确性是否有所提高产生重大影响。这项工作提供了有关与人类协作有关的因素的复杂性的见解,并提供了有关如何开发以人为中心的AI算法来补充用户在决策任务中的建议。
translated by 谷歌翻译
拉力请求是当今协作软件开发和代码审核过程的关键部分。但是,当审阅者或作者不积极参与拉动请求时,拉动请求也可以减慢软件开发过程。在这项工作中,我们设计了一项端到端服务,以提醒作者或审阅者与他们的逾期拉动请求互动,以加速逾期拉动请求。首先,我们根据努力估算和机器学习使用模型来预测给定拉的请求的完成时间。其次,我们使用活动检测来滤除可能逾期的拉请请求,但仍在采取足够的动作。最后,我们使用演员身份证来了解拉动请求的阻止者是谁,并推动适当的演员(作者或审稿人)。轻推的主要新颖性是它成功地减少了拉动请求解决时间,同时确保开发人员认为发送的通知在成千上万的存储库中是有用的。在Microsoft使用的147个存储库的随机试验中,Nudge能够将拉的请求分辨率时间减少60%,而与Nudge未发送通知的逾期拉动请求相比,该请求的8,500次拉。此外,收到推动通知的开发人员将这些通知的73%置于正面。我们观察到在Microsoft的8,000个存储库中扩展Nudge的部署时,我们观察到了类似的结果,在整整一年中,Nudge发送了210,000个通知。这表明了Nudge可以扩展到数千个存储库的能力。最后,我们对选择通知的定性分析指示了未来研究的领域,例如在拉动请求和开发人员的可用性中考虑依赖性。
translated by 谷歌翻译