由于Covid-19大流行,机器人可以被视为任务中的潜在资源,如帮助人们从远程工作,维持社会疏散和改善精神或身体健康。为了提高人机互动,通过在复杂的真实环境中处理多个社会线索,机器人必须变得更加社交。我们的研究采用了凝视触发的视听跨透视整合的神经毒性范例,使ICUB机器人表达人类的社会关注反应。起初,在37名人体参与者进行行为实验。为了提高生态有效性,设计了一个具有三个蒙面动画头像的圆桌会议场景,其中包括能够进行凝视偏移的中间的一个,以及能够产生声音的其他两个。凝视方向和声音位置是一致或不一致的。掩模用于覆盖除了头像之外的所有面部视觉线索。我们观察到,阿凡达的目光可以在视听通道条件下具有更好的人类性能来引发跨型社会关注,而不是在不一致状态。然后,我们的计算模型,喘气,培训,以实现社会提示检测,视听显着性预测和选择性关注。在完成模型培训之后,ICUB机器人被暴露于与人类参与者相似的实验室条件,表明它可以将类似的关注响应作为人类的同时性和不协调性表现进行复制,而人类表现仍然优越。因此,这种跨学科工作提供了对跨型社会关注机制的新见解以及如何在复杂环境中为机器人建模的机制。
translated by 谷歌翻译
显着性预测是指建模公开注意的计算任务。社会提示极大地影响了我们的注意力,从而改变了我们的眼睛运动和行为。为了强调此类特征的功效,我们提出了一种神经模型,用于整合社会提示和加权其影响。我们的模型包括两个阶段。在第一阶段,我们通过关注凝视,估计凝视方向和认识情感来检测两个社会线索。然后,通过图像处理操作将这些特征转化为时空图。转换的表示形式传播到第二阶段(GASP),在那里我们探索了晚期融合的各种技术,以整合社会提示并引入两个子网络,以将注意力引向相关的刺激。我们的实验表明,融合方法为静态整合方法获得了更好的结果,而非融合方法每种模态的影响尚不清楚,当与复发模型进行动态显着性预测相结合时,会产生更好的结果。我们表明,与没有社交线索的动态显着性模型相​​比,凝视方向和情感表示对基础真相对应的提高至少为5%。此外,情感表示可以改善喘气,支持在预测显着性方面考虑偏见的注意力。
translated by 谷歌翻译
这项工作对最近的努力进行了系统的综述(自2010年以来),旨在自动分析面对面共同关联的人类社交互动中显示的非语言提示。专注于非语言提示的主要原因是,这些是社会和心理现象的物理,可检测到的痕迹。因此,检测和理解非语言提示至少在一定程度上意味着检测和理解社会和心理现象。所涵盖的主题分为三个:a)建模社会特征,例如领导力,主导,人格特质,b)社会角色认可和社会关系检测以及c)群体凝聚力,同情,rapport和so的互动动态分析向前。我们针对共同的相互作用,其中相互作用的人永远是人类。该调查涵盖了各种各样的环境和场景,包括独立的互动,会议,室内和室外社交交流,二元对话以及人群动态。对于他们每个人,调查都考虑了非语言提示分析的三个主要要素,即数据,传感方法和计算方法。目的是突出显示过去十年的主要进步,指出现有的限制并概述未来的方向。
translated by 谷歌翻译
人类的感知基于无意识的推论,其中感觉输入与先前的信息集成在一起。这种现象被称为上下文依赖性,有助于面对外部世界的不确定性,并在先前的经验上构建了预测。另一方面,人类的感知过程固有地是由社会互动塑造的。但是,上下文依赖性的机制如何影响到迄今为止未知。如果使用以前的经验 - 先验 - 在单个环境中是有益的,那么它可能代表了其他代理商可能没有相同先验的社会场景中的问题,从而在共享环境上造成了感知的错误。本研究解决了这个问题。我们研究了与人形机器人ICUB的互动环境中的上下文依赖性,该机器人是刺激示威者。参与者在两个条件下重现了机器人所示的长度:一个具有社交性的ICUB,另一个与ICUB充当机械臂。机器人的不同行为显着影响了感知的先验使用。此外,社会机器人通过提高准确性并减少参与者的总体感知错误,从而对感知性能产生积极影响。最后,观察到的现象是按照贝叶斯的方法加深和探索共同感知的新概念进行了建模的。
translated by 谷歌翻译
人眼目光在传递信息,交流意图和理解他人的心理状态方面起着重要作用。先前的研究表明,机器人的目光也会影响人类在互动过程中的决策和策略。然而,有限的研究已经在人类机器人相互作用方案中培训了针对基于凝视数据的人形机器人。考虑到凝视会影响社会交流的自然性并改变了观察者的决策过程,应将其视为人类机器人互动中的关键组成部分。为了研究机器人凝视对人类的影响,我们提出了一种体现的神经模型,用于进行类似人类的凝视转移。这是通过扩展社会关注模型并在吸引人的数据上训练它来实现的,该数据通过观看人类玩游戏而收集。我们将比较在人类合作游戏中采用不同凝视策略的机器人面前的人类行为表现。
translated by 谷歌翻译
我们开发了数据驱动的模型,以预测机器人在社交就餐场景中何时应进食。能够与朋友和家人独立饮食被认为是具有行动不便的人的最令人难忘,最重要的活动之一。机器人可以潜在地帮助这项活动,但是由机器人辅助的喂养是一个多方面的问题,在咬合,咬合时机和咬合转移方面面临挑战。特别是在社交就餐场景中,特别是由于在社交用餐场景中变得唯一挑战性,因为可能会中断社交人类机器人群体的互动。我们的关键见解是,考虑到社交线索的微妙平衡的咬合时序策略可能会导致在社交用餐场景中在机器人辅助喂养过程中进行无缝互动。我们通过收集一个包含30组三人共同饮食的多模式人类尊贵数据集(HHCD)来解决这个问题。我们使用此数据集分析人类人类的赋形行为,并在社交用餐场景中开发咬合时正时预测模型。我们还将这些模型转移到人类机器人的态度方案中。我们的用户研究表明,当我们的算法使用食客之间的多模式社交信号线索来建模时,预测会有所改善。 HHCD数据集,用户研究的视频和代码将在接受后公开发布。
translated by 谷歌翻译
Sensory and emotional experiences such as pain and empathy are essential for mental and physical health. Cognitive neuroscience has been working on revealing mechanisms underlying pain and empathy. Furthermore, as trending research areas, computational pain recognition and empathic artificial intelligence (AI) show progress and promise for healthcare or human-computer interaction. Although AI research has recently made it increasingly possible to create artificial systems with affective processing, most cognitive neuroscience and AI research do not jointly address the issues of empathy in AI and cognitive neuroscience. The main aim of this paper is to introduce key advances, cognitive challenges and technical barriers in computational pain recognition and the implementation of artificial empathy. Our discussion covers the following topics: How can AI recognize pain from unimodal and multimodal information? Is it crucial for AI to be empathic? What are the benefits and challenges of empathic AI? Despite some consensus on the importance of AI, including empathic recognition and responses, we also highlight future challenges for artificial empathy and possible paths from interdisciplinary perspectives. Furthermore, we discuss challenges for responsible evaluation of cognitive methods and computational techniques and show approaches to future work to contribute to affective assistants capable of empathy.
translated by 谷歌翻译
视觉和听力是两种在人类交流和场景理解中起着至关重要的作用的感觉。为了模仿人类的感知能力,旨在开发从音频和视觉方式学习的计算方法的视听学习一直是一个蓬勃发展的领域。预计可以系统地组织和分析视听领域的研究的全面调查。从对视听认知基础的分析开始,我们介绍了几个关键发现,这些发现激发了我们的计算研究。然后,我们系统地回顾了最近的视听学习研究,并将其分为三类:视听,跨模式感知和视听合作。通过我们的分析,我们发现,跨语义,空间和时间支持上述研究的视听数据的一致性。为了重新审视视听学习领域的当前发展,我们进一步提出了关于视听场景理解的新观点,然后讨论和分析视听学习领域的可行未来方向。总体而言,这项调查从不同方面审查并展示了当前视听学习领域。我们希望它可以为研究人员提供对这一领域的更好理解。发布了包括不断更新的调查在内的网站:\ url {https://gewu-lab.github.io/audio-visual-learning/}。
translated by 谷歌翻译
Taking advice from others requires confidence in their competence. This is important for interaction with peers, but also for collaboration with social robots and artificial agents. Nonetheless, we do not always have access to information about others' competence or performance. In these uncertain environments, do our prior beliefs about the nature and the competence of our interacting partners modulate our willingness to rely on their judgments? In a joint perceptual decision making task, participants made perceptual judgments and observed the simulated estimates of either a human participant, a social humanoid robot or a computer. Then they could modify their estimates based on this feedback. Results show participants' belief about the nature of their partner biased their compliance with its judgments: participants were more influenced by the social robot than human and computer partners. This difference emerged strongly at the very beginning of the task and decreased with repeated exposure to empirical feedback on the partner's responses, disclosing the role of prior beliefs in social influence under uncertainty. Furthermore, the results of our functional task suggest an important difference between human-human and human-robot interaction in the absence of overt socially relevant signal from the partner: the former is modulated by social normative mechanisms, whereas the latter is guided by purely informational mechanisms linked to the perceived competence of the partner.
translated by 谷歌翻译
人类不断受到他人的行为和观点的影响。至关重要的是,人类之间的社会影响是由互惠构成的:我们更多地遵循一直在考虑我们意见的人的建议。在当前的工作中,我们研究了与社会类人机器人互动时相互影响的影响是否可以出现。在一项联合任务中,人类参与者和人形机器人进行了感知估计,然后在观察伴侣的判断后可以公开修改它们。结果表明,赋予机器人表达和调节其对人类判断的易感水平的能力代表了双刃剑。一方面,当机器人遵循他们的建议时,参与者对机器人的能力失去了信心。另一方面,参与者不愿透露他们对易感机器人缺乏信心,这表明出现了支持人类机器人合作的社会影响力的相互机制。
translated by 谷歌翻译
本文详细概述了将连续学习(CL)应用于单课的人类机器人互动(HRI)会议(AVG。31 +-10分钟)的案例研究,其中机器人的心理健康教练是积极的(n = 20)参与者的心理学(PP)练习。我们介绍了互动会议后与参与者进行的简短半结构访谈记录的数据的主题分析(TA)的结果,以及对统计结果的分析,证明了参与者的个性如何影响他们如何看待机器人的方式及其互动。
translated by 谷歌翻译
最近十年表明,人们对机器人作为福祉教练的兴趣越来越大。但是,尚未提出针对机器人设计作为促进心理健康的教练的凝聚力和全面的准则。本文详细介绍了基于基于扎根理论方法的定性荟萃分析的设计和道德建议,该方法是通过三项以用户为中心的涉及机器人福祉教练的三个不同的以用户为中心进行的,即:(1)与参与性设计研究一起进行的。 11名参与者由两位潜在用户组成,他们与人类教练一起参加了简短的专注于解决方案的实践研究,以及不同学科的教练,(2)半结构化的个人访谈数据,这些数据来自20名参加积极心理学干预研究的参与者借助机器人福祉教练胡椒,(3)与3名积极心理学研究的参与者以及2名相关的福祉教练进行了一项参与式设计研究。在进行主题分析和定性荟萃分析之后,我们将收集到收敛性和不同主题的数据整理在一起,并从这些结果中提炼了一套设计准则和道德考虑。我们的发现可以在设计机器人心理福祉教练时考虑到关键方面的关键方面。
translated by 谷歌翻译
Intelligent agents have great potential as facilitators of group conversation among older adults. However, little is known about how to design agents for this purpose and user group, especially in terms of agent embodiment. To this end, we conducted a mixed methods study of older adults' reactions to voice and body in a group conversation facilitation agent. Two agent forms with the same underlying artificial intelligence (AI) and voice system were compared: a humanoid robot and a voice assistant. One preliminary study (total n=24) and one experimental study comparing voice and body morphologies (n=36) were conducted with older adults and an experienced human facilitator. Findings revealed that the artificiality of the agent, regardless of its form, was beneficial for the socially uncomfortable task of conversation facilitation. Even so, talkative personality types had a poorer experience with the "bodied" robot version. Design implications and supplementary reactions, especially to agent voice, are also discussed.
translated by 谷歌翻译
The task of emotion recognition in conversations (ERC) benefits from the availability of multiple modalities, as offered, for example, in the video-based MELD dataset. However, only a few research approaches use both acoustic and visual information from the MELD videos. There are two reasons for this: First, label-to-video alignments in MELD are noisy, making those videos an unreliable source of emotional speech data. Second, conversations can involve several people in the same scene, which requires the detection of the person speaking the utterance. In this paper we demonstrate that by using recent automatic speech recognition and active speaker detection models, we are able to realign the videos of MELD, and capture the facial expressions from uttering speakers in 96.92% of the utterances provided in MELD. Experiments with a self-supervised voice recognition model indicate that the realigned MELD videos more closely match the corresponding utterances offered in the dataset. Finally, we devise a model for emotion recognition in conversations trained on the face and audio information of the MELD realigned videos, which outperforms state-of-the-art models for ERC based on vision alone. This indicates that active speaker detection is indeed effective for extracting facial expressions from the uttering speakers, and that faces provide more informative visual cues than the visual features state-of-the-art models have been using so far.
translated by 谷歌翻译
情绪可以提供自然的交流方式,以补充许多领域中社交机器人(例如文本和语音)现有的多模式能力。我们与112、223和151名参与者进行了三项在线研究,以调查使用情绪作为搜救(SAR)机器人的交流方式的好处。在第一个实验中,我们研究了通过机器人的情绪传达与SAR情况有关的信息的可行性,从而导致了从SAR情况到情绪的映射。第二项研究使用控制控制理论是推导此类映射的替代方法。此方法更灵活,例如允许对不同的情绪集和不同机器人进行调整。在第三个实验中,我们使用LED作为表达通道为外观受限的室外现场研究机器人创建了情感表达。在各种模拟的SAR情况下,使用这些情感表达式,我们评估了这些表达式对参与者(采用救援人员的作用)的影响。我们的结果和提议的方法提供了(a)有关情感如何帮助在SAR背景下传达信息的见解,以及(b)在(模拟)SAR通信环境中添加情绪为传播方式的有效性的证据。
translated by 谷歌翻译
MetaVerse,巨大的虚拟物理网络空间,为艺术家带来了前所未有的机会,将我们的身体环境的每个角落与数字创造力混合。本文对计算艺术进行了全面的调查,其中七个关键主题与成权相关,描述了混合虚拟物理现实中的新颖艺术品。主题首先涵盖了MetaVerse的建筑元素,例如虚拟场景和字符,听觉,文本元素。接下来,已经反映了诸如沉浸式艺术,机器人艺术和其他用户以其他用户的方法提供了沉浸式艺术,机器人艺术和其他用户中心的若干非凡类型的新颖创作。最后,我们提出了几项研究议程:民主化的计算艺术,数字隐私和搬迁艺术家的安全性,为数字艺术品,技术挑战等等的所有权认可。该调查还担任艺术家和搬迁技术人员的介绍材料,以开始在超现实主义网络空间领域创造。
translated by 谷歌翻译
主动演讲者的检测和语音增强已成为视听场景中越来越有吸引力的主题。根据它们各自的特征,独立设计的体系结构方案已被广泛用于与每个任务的对应。这可能导致模型特定于任务所学的表示形式,并且不可避免地会导致基于多模式建模的功能缺乏概括能力。最近的研究表明,建立听觉和视觉流之间的跨模式关系是针对视听多任务学习挑战的有前途的解决方案。因此,作为弥合视听任务中多模式关联的动机,提出了一个统一的框架,以通过在本研究中通过联合学习视听模型来实现目标扬声器的检测和语音增强。
translated by 谷歌翻译
探索人类在动态全景场景中关注的是许多基本应用有用,包括零售,AR动力招聘和视觉语言导航的增强现实(AR)。通过这一目标,我们提出了PV-SOD,旨在从全景视频分割突出对象的新任务。与现有的固定/对象级显着性检测任务相比,我们专注于音频引起的突出物体检测(SOD),其中凸起对象标有音频引起的眼球运动的指导。为了支持此任务,我们收集名为ASOD60K的第一个大规模数据集,其中包含具有六级层次结构的4K分辨率视频帧,从而将自己与丰富,多样性和质量区分开。具体地,每个序列都标有其超级/子类,每个子类的对象进一步用人眼固定,边界框,对象/实例级别掩模和相关属性(例如,几何失真)。这些粗细的注释能够对PV-SOD模型进行详细分析,例如,确定现有SOD模型的主要挑战,并预测扫描路径,以研究人类的长期眼固结行为。我们系统地基准于ASOD60K上的11个代表方法并导出了几个有趣的发现。我们希望这项研究能够作为推进全景视频的良好起点。数据集和基准测试将在https://github.com/panoash/asod60k公开使用。
translated by 谷歌翻译
非语言交流在人类机器人相互作用(HRI)的各种场景中起着特别重要的作用。因此,这项工作解决了人类手势识别的问题。特别是,我们专注于头部和眼睛手势,并使用眼镜摄像头采用以自我为中心的(第一人称)观点。我们认为,这种自我为中心的观点可能对场景或以机器人为中心的观点提供了许多概念和技术利益。提出了一种基于运动的识别方法,该方法以两个时间粒度运行。在本地,框架到框架的同谱是通过卷积神经网络(CNN)估算的。该CNN的输出输入了长期记忆(LSTM)以捕获与表征手势相关的长期时间视觉关系。关于网络体系结构的配置,一个特别有趣的发现是,使用同型CNN的内部层的输出增加了使用同型矩阵本身的识别率。尽管这项工作侧重于行动识别,并且尚未进行机器人或用户研究,但该系统旨在满足实时限制。令人鼓舞的结果表明,所提出的以自我为中心的观点是可行的,这项概念验证工作为HRI令人兴奋的领域提供了新颖而有用的贡献。
translated by 谷歌翻译
The thud of a bouncing ball, the onset of speech as lips open -when visual and audio events occur together, it suggests that there might be a common, underlying event that produced both signals. In this paper, we argue that the visual and audio components of a video signal should be modeled jointly using a fused multisensory representation. We propose to learn such a representation in a self-supervised way, by training a neural network to predict whether video frames and audio are temporally aligned. We use this learned representation for three applications: (a) sound source localization, i.e. visualizing the source of sound in a video; (b) audio-visual action recognition; and (c) on/offscreen audio source separation, e.g. removing the off-screen translator's voice from a foreign official's speech. Code, models, and video results are available on our webpage: http://andrewowens.com/multisensory.
translated by 谷歌翻译