智能论文笔记

IEMOCAP: Interactive emotional dyadic motion capture database

分类：

Since emotions are expressed through a combination of verbal and non-verbal channels, a joint analysis of speech and gestures is required to understand expressive human communication. To facilitate such investigations, this paper describes a new corpus named the "interactive emotional dyadic motion capture database" (IEMOCAP), collected by the Speech Analysis and Interpretation Laboratory (SAIL) at the University of Southern California (USC). This database was recorded from ten actors in dyadic sessions with markers on the face, head, and hands, which provide detailed information about their facial expression and hand movements during scripted and spontaneous spoken communication scenarios. The actors performed selected emotional scripts and also improvised hypothetical scenarios designed to elicit specific types of emotions (happiness, anger, sadness, frustration and neutral state). The corpus contains approximately twelve hours of data. The detailed motion capture information, the interactive setting to elicit authentic emotions, and the size of the database make this corpus a valuable addition to the existing databases in the community for the study and modeling of multimodal and expressive human communication.

translated by 谷歌翻译

BEAT: A Large-Scale Semantic and Emotional Multi-Modal Dataset for Conversational Gestures Synthesis

Haiyang Liu , Zihao Zhu , Naoya Iwamoto , Yichen Peng , Zhengqing Li , You Zhou , Elif Bozkurt , Bo Zheng

分类：计算机视觉 | 自然语言处理 | 机器学习

2022-03-10

由于缺乏可用的数据集，模型和标准评估指标，因此以多模式数据为条件的现实，生动和类似人类的合成对话手势仍然是一个未解决的问题。为了解决这个问题，我们构建了人体表达式 - aauio-Text数据集，Beat，它具有76小时，高质量的，高质量的多模式数据，这些数据从30位扬声器中捕获了八种不同的情绪，用四种不同的语言，ii）32数以百万计的框架级别的情感和语义相关注释。我们对BEAT的统计分析表明，除了与音频，文本和说话者身份的已知相关性外，对话式手势与面部表情，情感和语义的相关性。基于此观察结果，我们提出了一个基线模型，即级联运动网络（CAMN），该模型由以上六种模式组成，该模式在级联的架构中建模以进行手势合成。为了评估语义相关性，我们引入了指标，语义相关性召回（SRGR）。定性和定量实验证明了指标的有效性，地面真相数据质量以及基线的最先进性能。据我们所知，BEAT是用于研究人类手势的最大运动捕获数据集，这可能有助于许多不同的研究领域，包括可控的手势合成，跨模式分析和情感手势识别。数据，代码和模型可在https://pantomatrix.github.io/beat/上获得。

translated by 谷歌翻译

A New Amharic Speech Emotion Dataset and Classification Benchmark

Ephrem A. Retta , Eiad Almekhlafi , Richard Sutcliffe , Mustafa Mhamed , Haider Ali , Jun Feng

分类：自然语言处理

2022-01-07

在本文中，我们介绍了Amharic语音情绪数据集（亚胺），涵盖了四条方言（Gojjam，Wollo，Shewa和Londer）和五种不同的情绪（中性，恐惧，快乐，悲伤和生气）。我们认为它是Amharic语言的第一个语音情感认可（Ser）数据集。 65志愿者参与者，所有母语人员，记录2,474个声音样本，长度为2至4秒。八名法官将情绪分配给具有高协议水平的样本（Fleiss Kappa = 0.8）。生成的数据集可免费下载。接下来，我们开发了一个四层变体，我们称之为vggb。然后使用vggb进行三种实验，用于Ser，使用ASED。首先，我们研究了熔融谱图特征或熔融频率谱系数（MFCC）的特点是Amharic最适合的。这是通过培训ASID的两个VGGB SER模型来完成的，使用MEL-谱图和使用MFCC的另一个。尝试了四种形式的培训，标准交叉验证和三种变体，基于句子，方言和扬声器组。因此，用于训练的句子不会用于测试，以及方言和扬声器组的句子。结论是，在所有四种训练方案下，MFCC功能都是优越的。因此，MFCC采用实验2，其中VGGB和其他三种现有模型进行了验证：Resnet50，Alex-Net和LSTM。 vggb被发现具有非常好的准确性（90.73％）以及最快的培训时间。在实验3中，在培训在两个现有的SER数据集，RAVDES（英语）和EMO-DB（德语）以及ASED（Amharic）上进行培训时比较VGGB的性能。结果与这些语言相当，仿真是最高的。这表明VGGB可以成功应用于其他语言。我们希望Ased将鼓励研究人员试验其他模型为Amharic Ser。

translated by 谷歌翻译

Face-to-Face Co-Located Human-Human Social Interaction Analysis using Nonverbal Cues: A Survey

Cigdem Beyan , Alessandro Vinciarelli , Alessio Del Bue

分类：人工智能 | 计算机视觉 | 机器学习

2022-07-20

这项工作对最近的努力进行了系统的综述（自2010年以来），旨在自动分析面对面共同关联的人类社交互动中显示的非语言提示。专注于非语言提示的主要原因是，这些是社会和心理现象的物理，可检测到的痕迹。因此，检测和理解非语言提示至少在一定程度上意味着检测和理解社会和心理现象。所涵盖的主题分为三个：a）建模社会特征，例如领导力，主导，人格特质，b）社会角色认可和社会关系检测以及c）群体凝聚力，同情，rapport和so的互动动态分析向前。我们针对共同的相互作用，其中相互作用的人永远是人类。该调查涵盖了各种各样的环境和场景，包括独立的互动，会议，室内和室外社交交流，二元对话以及人群动态。对于他们每个人，调查都考虑了非语言提示分析的三个主要要素，即数据，传感方法和计算方法。目的是突出显示过去十年的主要进步，指出现有的限制并概述未来的方向。

translated by 谷歌翻译

Emotional Voice Conversion: Theory, Databases and ESD

Kun Zhou , Berrak Sisman , Rui Liu , Haizhou Li

分类：自然语言处理

2021-05-31

在本文中，我们首先提供了述评最先进的情感语音转换研究以及现有的情绪语音数据库。然后，我们激励开发一种新颖的情绪语音数据库（ESD），这些数据库（ESD）解决了越来越多的研究需求。借鉴了本文，现在可以向研究界提供ESD数据库。ESD数据库由10名母语和10个母语的扬声器发表的350个平行话语组成，涵盖5个情感类别（中性，快乐，愤怒，悲伤和惊喜）。在受控的声学环境中记录了超过29小时的语音数据。该数据库适用于多扬声器和交叉语言情绪转换研究。如案例研究，我们在ESD数据库上实施了几种最先进的情绪转换系统。本文在释放释放时提供了对ESD的参考研究。

translated by 谷歌翻译

Dimensional Modeling of Emotions in Text with Appraisal Theories: Corpus Creation, Annotation Reliability, and Prediction

Enrica Troiano , Laura Oberländer , Roman Klinger

分类：自然语言处理

2022-06-10

情绪分析中最突出的任务是为文本分配情绪，并了解情绪如何在语言中表现出来。自然语言处理的一个重要观察结果是，即使没有明确提及情感名称，也可以通过单独参考事件来隐式传达情绪。在心理学中，被称为评估理论的情感理论类别旨在解释事件与情感之间的联系。评估可以被形式化为变量，通过他们认为相关的事件的人们的认知评估来衡量认知评估。其中包括评估事件是否是新颖的，如果该人认为自己负责，是否与自己的目标以及许多其他人保持一致。这样的评估解释了哪些情绪是基于事件开发的，例如，新颖的情况会引起惊喜或不确定后果的人可能引起恐惧。我们在文本中分析了评估理论对情绪分析的适用性，目的是理解注释者是否可以可靠地重建评估概念，如果可以通过文本分类器预测，以及评估概念是否有助于识别情感类别。为了实现这一目标，我们通过要求人们发短信描述触发特定情绪并披露其评估的事件来编译语料库。然后，我们要求读者重建文本中的情感和评估。这种设置使我们能够衡量是否可以纯粹从文本中恢复情绪和评估，并为判断模型的绩效指标提供人体基准。我们将文本分类方法与人类注释者的比较表明，两者都可以可靠地检测出具有相似性能的情绪和评估。我们进一步表明，评估概念改善了文本中情绪的分类。

translated by 谷歌翻译

A Survey on Sentiment and Emotion Analysis for Computational Literary Studies

Evgeny Kim , Roman Klinger

分类：自然语言处理

2018-08-09

情感是引人入胜的叙事的关键部分：文学向我们讲述了有目标，欲望，激情和意图的人。情绪分析是情感分析更广泛，更大的领域的一部分，并且在文学研究中受到越来越多的关注。过去，文学的情感维度主要在文学诠释学的背景下进行了研究。但是，随着被称为数字人文科学（DH）的研究领域的出现，在文学背景下对情绪的一些研究已经发生了计算转折。鉴于DH仍被形成为一个领域的事实，这一研究方向可以相对较新。在这项调查中，我们概述了现有的情感分析研究机构，以适用于文献。所评论的研究涉及各种主题，包括跟踪情节发展的巨大变化，对文学文本的网络分析以及了解文本的情感以及其他主题。

translated by 谷歌翻译

Inconsistencies in Measuring Student Engagement in Virtual Learning -- A Critical Review

Shehroz S. Khan , Ali Abedi , Tracey Colella

分类：计算机视觉

2022-08-09

近年来，虚拟学习已成为传统课堂教学的替代方法。学生参与虚拟学习可能会对满足学习目标和计划辍学风险产生重大影响。在虚拟学习环境中，有许多专门针对学生参与度（SE）的测量工具。在这项关键综述中，我们分析了这些作品，并从不同的参与定义和测量量表上突出了不一致之处。现有研究人员之间的这种多样性在比较不同的注释和构建可推广的预测模型时可能会出现问题。我们进一步讨论了有关参与注释和设计缺陷的问题。我们根据我们定义的七个参与注释的七个维度分析现有的SE注释量表，包括来源，用于注释的数据模式，注释发生的时间，注释发生的时间段，抽象，组合和组合水平的时间段，定量。令人惊讶的发现之一是，在SE测量中，很少有审查的数据集使用了现有的精神法法学验证量表中的注释中。最后，我们讨论了除虚拟学习以外的其他一些范围，这些量表具有用于测量虚拟学习中SE的潜力。

translated by 谷歌翻译

"Are you okay, honey?": Recognizing Emotions among Couples Managing Diabetes in Daily Life using Multimodal Real-World Smartwatch Data

George Boateng , Prabhakaran Santhanam , Elgar Fleisch , Janina Lüscher , Theresa Pauly , Urte Scholz , Guy Bodenmann , Tobias Kowatsch

分类：自然语言处理

2022-08-16

夫妻通常在一起管理慢性疾病，管理层对患者及其浪漫伴侣造成了情感上的伤害。因此，认识到日常生活中每个伴侣的情绪可以提供对他们在慢性疾病管理中的情感健康的见解。当前，评估每个伴侣的情绪的过程是手动，时间密集和昂贵的。尽管夫妻之间存在着关于情感识别的作品，但这些作品都没有使用夫妻在日常生活中的互动中收集的数据。在这项工作中，我们收集了85小时（1,021个5分钟样本）现实世界多模式智能手表传感器数据（语音，心率，加速度计和陀螺仪）和自我报告的情绪数据（n = 612）（13个伙伴）（13）夫妻）在日常生活中管理2型糖尿病。我们提取了生理，运动，声学和语言特征，以及训练有素的机器学习模型（支持向量机和随机森林），以识别每个伴侣的自我报告的情绪（价和唤醒）。我们最佳模型的结果比偶然的结果更好，唤醒和价值分别为63.8％和78.1％。这项工作有助于建立自动情绪识别系统，最终使伙伴能够监视他们在日常生活中的情绪，并能够提供干预措施以改善其情感幸福感。

translated by 谷歌翻译

Towards Understanding Confusion and Affective States Under Communication Failures in Voice-Based Human-Machine Interaction

Sujeong Kim , Abhinav Garlapati , Jonah Lubin , Amir Tamrakar , Ajay Divakaran

分类：人工智能 | 机器学习

2022-07-15

我们提出了一系列两项研究，以了解基于语音的人机相互作用期间用户的情感状态。重点放在通信错误或失败的情况下。特别是，我们有兴趣了解与其他情感状态有关的“混乱”。研究由两种类型的任务组成：（1）与基于语音的虚拟代理的通信有关：与机器交谈并了解机器所说的话，（2）与参与者解决的无通信，解决问题的任务难题和谜语，但被要求口头解释机器的答案。我们收集了参与者情感状态的视听数据和自我报告。我们报告了两项研究的结果和分析收集的数据。根据注释者的观察对第一项研究进行了分析，并根据自我报告分析了第二项研究。

translated by 谷歌翻译

DAiSEE: Towards User Engagement Recognition in the Wild

Abhay Gupta , Arjun D'Cunha , Kamal Awasthi , Vineeth Balasubramanian

分类：计算机视觉 | 机器学习

2016-09-07

我们介绍了Daisee，这是第一个多标签视频分类数据集，该数据集由112个用户捕获的9068个视频片段，用于识别野外无聊，混乱，参与度和挫败感的用户情感状态。该数据集具有四个级别的标签 - 每个情感状态都非常低，低，高和很高，它们是人群注释并与使用专家心理学家团队创建的黄金标准注释相关的。我们还使用当今可用的最先进的视频分类方法在此数据集上建立了基准结果。我们认为，黛西（Daisee）将为研究社区提供特征提取，基于上下文的推理以及为相关任务开发合适的机器学习方法的挑战，从而为进一步的研究提供了跳板。该数据集可在https://people.iith.ac.in/vineethnb/resources/daisee/daisee/index.html下载。

translated by 谷歌翻译

Speech Synthesis with Mixed Emotions

Kun Zhou , Berrak Sisman , Rajib Rana , B. W. Schuller , Haizhou Li

分类：自然语言处理 | 人工智能

2022-08-11

情感语音综合旨在使人类的声音具有各种情感影响。当前的研究主要集中于模仿属于特定情感类型的平均风格。在本文中，我们试图在运行时与情感混合在一起。我们提出了一种新颖的表述，可以衡量不同情绪的语音样本之间的相对差异。然后，我们将公式纳入序列到序列情感文本到语音框架中。在培训期间，该框架不仅明确地表征了情感风格，而且还通过用其他情感量化差异来探索情绪的序数。在运行时，我们通过手动定义情感属性向量来控制模型以产生所需的情绪混合物。客观和主观评估验证了拟议框架的有效性。据我们所知，这项研究是关于言语中混合情绪的建模，综合和评估混合情绪的第一项研究。

translated by 谷歌翻译

Robots as Mental Well-being Coaches: Design and Ethical Recommendations

Minja Axelsson , Micol Spitale , Hatice Gunes

分类：机器人

2022-08-31

最近十年表明，人们对机器人作为福祉教练的兴趣越来越大。但是，尚未提出针对机器人设计作为促进心理健康的教练的凝聚力和全面的准则。本文详细介绍了基于基于扎根理论方法的定性荟萃分析的设计和道德建议，该方法是通过三项以用户为中心的涉及机器人福祉教练的三个不同的以用户为中心进行的，即：（1）与参与性设计研究一起进行的。 11名参与者由两位潜在用户组成，他们与人类教练一起参加了简短的专注于解决方案的实践研究，以及不同学科的教练，（2）半结构化的个人访谈数据，这些数据来自20名参加积极心理学干预研究的参与者借助机器人福祉教练胡椒，（3）与3名积极心理学研究的参与者以及2名相关的福祉教练进行了一项参与式设计研究。在进行主题分析和定性荟萃分析之后，我们将收集到收敛性和不同主题的数据整理在一起，并从这些结果中提炼了一套设计准则和道德考虑。我们的发现可以在设计机器人心理福祉教练时考虑到关键方面的关键方面。

translated by 谷歌翻译

Using Affect as a Communication Modality to Improve Human-Robot Communication in Robot-Assisted Search and Rescue Scenarios

Sami Alperen Akgun , Moojan Ghafurian , Mark Crowley , Kerstin Dautenhahn

分类：机器人

2022-08-20

情绪可以提供自然的交流方式，以补充许多领域中社交机器人（例如文本和语音）现有的多模式能力。我们与112、223和151名参与者进行了三项在线研究，以调查使用情绪作为搜救（SAR）机器人的交流方式的好处。在第一个实验中，我们研究了通过机器人的情绪传达与SAR情况有关的信息的可行性，从而导致了从SAR情况到情绪的映射。第二项研究使用控制控制理论是推导此类映射的替代方法。此方法更灵活，例如允许对不同的情绪集和不同机器人进行调整。在第三个实验中，我们使用LED作为表达通道为外观受限的室外现场研究机器人创建了情感表达。在各种模拟的SAR情况下，使用这些情感表达式，我们评估了这些表达式对参与者（采用救援人员的作用）的影响。我们的结果和提议的方法提供了（a）有关情感如何帮助在SAR背景下传达信息的见解，以及（b）在（模拟）SAR通信环境中添加情绪为传播方式的有效性的证据。

translated by 谷歌翻译

CORAA: a large corpus of spontaneous and prepared speech manually validated for speech recognition in Brazilian Portuguese

Arnaldo Candido Junior , Edresson Casanova , Anderson Soares , Frederico Santos de Oliveira , Lucas Oliveira , Ricardo Corso Fernandes Junior , Daniel Peixoto Pinto da Silva , Fernando Gorgulho Fayet , Bruno Baldissera Carlotto , Lucas Rafael Stefanel Gris

分类：自然语言处理

2021-10-14

自动语音识别（ASR）是一个复杂和具有挑战性的任务。近年来，该地区出现了重大进展。特别是对于巴西葡萄牙语（BP）语言，在2020年的下半年，有大约376小时的公众可供ASR任务。在2021年初发布新数据集，这个数字增加到574小时。但是，现有资源由仅包含读取和准备的演讲的Audios组成。缺少数据集包括自发性语音，这在不同的ASR应用中是必不可少的。本文介绍了Coraa（注释Audios语料库）V1。使用290.77小时，在包含验证对（音频转录）的BP中ASR的公共可用数据集。科拉还含有欧洲葡萄牙音像（4.69小时）。我们还提供了一个基于Wav2VEC 2.0 XLSR-53的公共ASR模型，并通过CoraA进行微调。我们的模型在CoraA测试集中实现了24.18％的单词误差率，并且在常见的语音测试集上为20.08％。测量字符错误率时，我们分别获得11.02％和6.34％，分别为CoraA和常见声音。 Coraa Corpora在自发言论中与BP中的改进ASR模型进行了组装，并激励年轻研究人员开始研究葡萄牙语的ASR。所有Corpora都在CC By-NC-ND 4.0许可证下公开提供Https://github.com/nilc-nlp/coraa。

translated by 谷歌翻译

Deep Semantic Manipulation of Facial Videos

Girish Kumar Solanki , Anastasios Roussos

分类：计算机视觉 | 人工智能

2021-11-15

编辑和操纵视频中的面部特征是一种有趣而重要的研究领域，具有夸张的应用，从电影生产和视觉效果到视频游戏和虚拟助手的现实头像。据我们所知，本文提出了第一种在视频中进行了对面部表情的照相型式操纵的方法。我们的方法支持基于神经渲染和基于3D的面部表情建模的语义视频操纵。我们专注于通过改变和控制面部表情来互动操纵视频，实现有前途的光电温度效果。该方法基于用于3D面部形状和活动的脱屑表示和估计，为用户提供对输入视频中的面部表情的直观且易于使用的控制。我们还介绍了一个用户友好的交互式AI工具，该工具处理有关输入视频的特定部分的所需情绪操纵的人类可读的语义标签，并合成光电环境拟人的操纵视频。我们通过将情绪标签映射到价值（VA）值来实现这一点，又通过特别设计和训练的表达式解码器网络映射到解开的3D面部表达式。本文提出了详细的定性和定量实验，展示了我们系统的有效性以及它实现的有希望的结果。可以在补充材料中找到其他结果和视频（https://github.com/girish-03/deepsemmanipulation）。

translated by 谷歌翻译

A Multimodal Approach for Automatic Mania Assessment in Bipolar Disorder

Pınar Baki

分类：自然语言处理 | 机器学习

2021-12-17

双相情感障碍是一种心理健康障碍，导致情绪波动，从令人沮丧到狂热。双相障碍的诊断通常是根据患者访谈进行的，并从患者的护理人员获得的报告。随后，诊断取决于专家的经验，并且可以与其他精神障碍的疾病混淆。双极性障碍诊断中的自动化过程可以帮助提供定量指标，并让患者的更容易观察较长的时间。此外，在Covid-19大流行期间，对遥控和诊断的需求变得尤为重要。在本论文中，我们根据声学，语言和视觉方式的患者录制来创建一种多模态决策系统。该系统培养在双极障碍语料库上。进行综合分析单峰和多模式系统，以及各种融合技术。除了使用单向特征处理整个患者会话外，还研究了剪辑的任务级调查。在多模式融合系统中使用声学，语言和视觉特征，我们实现了64.8％的未加权平均召回得分，这提高了在该数据集上实现的最先进的性能。

translated by 谷歌翻译

STUDIES: Corpus of Japanese Empathetic Dialogue Speech Towards Friendly Voice Agent

Yuki Saito , Yuto Nishimura , Shinnosuke Takamichi , Kentaro Tachibana , Hiroshi Saruwatari

分类：人工智能 | 自然语言处理 | 机器学习

2022-03-28

我们提出了研究，这是一种新的演讲语料库，用于开发一个可以以友好方式讲话的语音代理。人类自然会控制他们的言语韵律以相互同情。通过将这种“同情对话”行为纳入口语对话系统，我们可以开发一个可以自然响应用户的语音代理。我们设计了研究语料库，以包括一位演讲者，他明确地对对话者的情绪表示同情。我们描述了构建善解人意的对话语音语料库的方法论，并报告研究语料库的分析结果。我们进行了文本到语音实验，以最初研究如何开发更多的自然语音代理，以调整其口语风格，以对应对话者的情绪。结果表明，对话者的情绪标签和对话上下文嵌入的使用可以与使用代理商的情感标签相同的自然性产生语音。我们的研究项目页面是http://sython.org/corpus/studies。

translated by 谷歌翻译

The Many Faces of Anger: A Multicultural Video Dataset of Negative Emotions in the Wild (MFA-Wild)

Roya Javadi , Angelica Lim

分类：计算机视觉 | 机器学习

2021-12-10

愤怒等负面情绪的写照可以在文化和背景之间广泛变化，这取决于表达全面情绪的可接受性而不是抑制保持和谐。大多数情绪数据集收集了广泛的标签`“愤怒”下的数据，但社会信号可以从生气，轻蔑，愤怒，愤怒，仇恨等的范围内。在这项工作中，我们策划了第一个野外的多元文化视频情绪数据集，并通过询问文化流利的注释器来标记具有6个标签和13个Emojis的视频，深入了解愤怒相关的情感表达式。我们在我们的数据集中提供基准多标签分类器，并显示如何EMOJIS可以有效地用作注释的语言无话可测工具。

translated by 谷歌翻译

Multilingual Audio-Visual Smartphone Dataset And Evaluation

Hareesh Mandalapu , Aravinda Reddy P N , Raghavendra Ramachandra , K Sreenivasa Rao , Pabitra Mitra , S R Mahadeva Prasanna , Christoph Busch

分类：计算机视觉

2021-09-09

智能手机已经使用基于生物识别的验证系统，以在高度敏感的应用中提供安全性。视听生物识别技术因其可用性而受欢迎，并且由于其多式化性质，欺骗性将具有挑战性。在这项工作中，我们介绍了一个在五个不同最近智能手机中捕获的视听智能手机数据集。考虑到不同的现实情景，这个新数据集包含在三个不同的会话中捕获的103个科目。在该数据集中获取三种不同的语言，以包括扬声器识别系统的语言依赖性问题。这些数据集的这些独特的特征将为实施新的艺术技术的单向或视听扬声器识别系统提供途径。我们还报告了DataSet上的基准标记的生物识别系统的性能。生物识别算法的鲁棒性朝向具有广泛实验的重播和合成信号等信号噪声，设备，语言和呈现攻击等多种依赖性。获得的结果提出了许多关于智能手机中最先进的生物识别方法的泛化特性的担忧。

translated by 谷歌翻译