对于许多下游任务(例如,情感分析,关系检测等),脑电图(EEG)和语言已被广泛探索。研究这两个领域的多模式方法尚未得到很好的探索,即使近年来,多模式学习被认为比单峰对应物更强大。在这项研究中,我们希望探索脑电图与语言之间的关系和依赖性,即一个领域如何反映和代表另一个领域。为了研究表示级别的关系,我们引入了MTAM(一种多模式变压器对准模型),以观察两种模式之间的协调表示,因此采用了转换表示来进行下游应用。我们使用各种关系对齐的寻求对准技术,例如规范相关性分析和Wasserstein距离,作为转化低级语言的损失函数,并将EEG特征转化为高级转化的特征。在下游应用程序,情感分析和关系检测上,我们在两个数据集(Zuco和k-emocon)上实现了新的最新结果。我们的方法在K-Emocon的情感分析中获得了16.5%的F1得分提高,对Zuco的情感分析的26.6%,以及对Zuco的关系检测的31.1%。此外,我们通过以下方式提供对性能改进的解释:(1)可视化原始特征分布和变换的特征分布,显示对齐模块发现和编码脑电图与语言之间的关系的有效性; (2)可视化单词级别和句子级的脑电图对齐权重,显示不同语言语义和脑电图频率特征的影响; (3)可视化大脑地形图,以提供有关大脑区域中脑电图和语言反应的连通性的直观演示。
translated by 谷歌翻译
苏黎世认知语言处理语料库(Zuco)提供了来自两种读取范例,正常读取和特定任务读数的眼跟踪和脑电图信号。我们分析了机器学习方法是否能够使用眼睛跟踪和EEG功能对这两个任务进行分类。我们使用聚合的句子级别功能以及细粒度的单词级别来实现模型。我们在主题内和交叉对象评估方案中测试模型。所有模型都在Zuco 1.0和Zuco 2.0数据子集上进行测试,其特征在于不同的记录程序,因此允许不同的概括水平。最后,我们提供了一系列的控制实验,以更详细地分析结果。
translated by 谷歌翻译
最先进的脑部到文本系统通过使用神经网络直接从脑信号直接取得了巨大的成功。然而,目前的方法仅限于小封闭词汇,远远超过自然通信。此外,大多数高性能方法都需要来自侵入性设备的数据(例如,ECOG)。在本文中,我们将问题扩展到打开词汇脑电图(EEG)-To文本序列到序列解码和自然读取任务的零击句情感分类。我们假设人类大脑用作特殊文本编码器,并提出了一种利用预先训练的语言模型(例如,BART)的新颖框架。我们的模型在EEG-to text解码中实现了40.1%的BLE-1分数,并获得了55.6%的基于eEG的Ternary情绪分类的F1分数,这显着优于受监管基线。此外,我们表明我们所提出的模型可以处理来自各种科目和源的数据,显示出高性能开放词汇脑到文本系统的巨大潜力,一旦提供足够的数据
translated by 谷歌翻译
认知处理信号可用于改善自然语言处理(NLP)任务。但是,目前尚不清楚这些信号如何与语言信息相关。在神经语言学中,人类语言处理和语言特征之间的桥接通常通过具有高度控制的刺激的单可变控制实验,广泛研究。这些方法不仅损害了自然读数的真实性,而且耗时且昂贵。在本文中,我们提出了一种数据驱动方法来研究认知处理信号与语言特征之间的关系。具体而言,我们提出了一种统一的注意力框架,它由嵌入,注意,编码和预测层组成,以选择性地将认知处理信号映射到语言特征。我们将映射过程定义为桥接任务,并为词汇,句法和语义特征开发12个桥接任务。所提出的框架仅需要在自然读数下记录的认知处理信号作为输入,并且可用于检测具有单个认知数据集的广泛的语言特征。实验结果的观察结果与以前的神经科学结果共鸣。除此之外,我们的实验还揭示了许多有趣的发现,例如语境上跟踪特征与句子时态之间的相关性。
translated by 谷歌翻译
认识到人类的感情在日常沟通中发挥着关键作用。神经科学已经证明,不同的情绪状态存在于不同脑区,脑电图频带和颞戳中不同程度的激活。在本文中,我们提出了一种新颖的结构来探索情感认可的信息脑电图。所提出的模块,由PST-Integn表示,由位置,光谱和颞件注意力模块组成,用于探索更多辨别性EEG特征。具体地,位置注意模块是捕获在空间尺寸中的不同情绪刺激的激活区域。光谱和时间注意力模块分别分配不同频带和时间片的权重。我们的方法是自适应的,也可以符合其作为插入式模块的3D卷积神经网络(3D-CNN)。我们在两个现实世界数据集进行实验。 3D-CNN结合我们的模块实现了有希望的结果,并证明了PST-关注能够从脑电图中捕获稳定的情感识别模式。
translated by 谷歌翻译
Human language is often multimodal, which comprehends a mixture of natural language, facial gestures, and acoustic behaviors. However, two major challenges in modeling such multimodal human language time-series data exist: 1) inherent data non-alignment due to variable sampling rates for the sequences from each modality; and 2) long-range dependencies between elements across modalities. In this paper, we introduce the Multimodal Transformer (MulT) to generically address the above issues in an end-to-end manner without explicitly aligning the data. At the heart of our model is the directional pairwise crossmodal attention, which attends to interactions between multimodal sequences across distinct time steps and latently adapt streams from one modality to another. Comprehensive experiments on both aligned and non-aligned multimodal time-series show that our model outperforms state-of-the-art methods by a large margin. In addition, empirical analysis suggests that correlated crossmodal signals are able to be captured by the proposed crossmodal attention mechanism in MulT.
translated by 谷歌翻译
语言基础与视觉是一个积极的研究领域,旨在通过利用视觉感知知识来丰富基于文本的单词含义的表示。尽管进行了多次接地尝试,但仍不清楚如何以一种保持文本和视觉知识的适当平衡的方式将视觉知识注入语言嵌入一词。一些普遍的问题是以下内容。视觉基础对抽象单词有益吗?还是仅限于具体单词的贡献?弥合文本和视觉之间差距的最佳方法是什么?通过视觉接地的文本嵌入,我们可以获得多少收益?本研究通过提出一种简单但非常有效的基础方法来解决这些问题,以预先训练的单词嵌入。我们的模型将文本嵌入与视觉保持一致,同时在很大程度上保留了在文本语料库中使用单词使用的分布统计数据。通过应用学习的对齐方式,我们能够生成视觉接地的嵌入,用于看不见的单词,包括抽象单词。一系列对单词相似性基准的评估表明,视觉接地不仅对具体单词有益,而且对抽象单词也有益。我们还表明,我们的视觉接地方法为上下文化的嵌入提供了优势,但只有在对相对尺寸相对较小的语料库进行培训时,我们才能提供优势。可以在https://github.com/hazel1994/visaly_grounded_word_word_embeddings_2上获得英语的代码和接地嵌入。
translated by 谷歌翻译
在本文中,我们介绍了2022年多模式情感分析挑战(MUSE)的解决方案,其中包括Muse-Humor,Muse-Rection和Muse Surns Sub-Challenges。 2022年穆斯穆斯(Muse 2022)着重于幽默检测,情绪反应和多模式的情感压力,利用不同的方式和数据集。在我们的工作中,提取了不同种类的多模式特征,包括声学,视觉,文本和生物学特征。这些功能由Temma和Gru融合到自发机制框架中。在本文中,1)提取了一些新的音频功能,面部表达功能和段落级文本嵌入以进行准确的改进。 2)我们通过挖掘和融合多模式特征来显着提高多模式情感预测的准确性和可靠性。 3)在模型培训中应用有效的数据增强策略,以减轻样本不平衡问题并防止模型形成学习有偏见的主题字符。对于博物馆的子挑战,我们的模型获得了0.8932的AUC分数。对于Muse Rection子挑战,我们在测试集上的Pearson相关系数为0.3879,它的表现优于所有其他参与者。对于Muse Surst Sub-Challenge,我们的方法在测试数据集上的唤醒和价值都优于基线,达到了0.5151的最终综合结果。
translated by 谷歌翻译
Our experience of the world is multimodal -we see objects, hear sounds, feel texture, smell odors, and taste flavors. Modality refers to the way in which something happens or is experienced and a research problem is characterized as multimodal when it includes multiple such modalities. In order for Artificial Intelligence to make progress in understanding the world around us, it needs to be able to interpret such multimodal signals together. Multimodal machine learning aims to build models that can process and relate information from multiple modalities. It is a vibrant multi-disciplinary field of increasing importance and with extraordinary potential. Instead of focusing on specific multimodal applications, this paper surveys the recent advances in multimodal machine learning itself and presents them in a common taxonomy. We go beyond the typical early and late fusion categorization and identify broader challenges that are faced by multimodal machine learning, namely: representation, translation, alignment, fusion, and co-learning. This new taxonomy will enable researchers to better understand the state of the field and identify directions for future research.
translated by 谷歌翻译
社交媒体网络已成为人们生活的重要方面,它是其思想,观点和情感的平台。因此,自动化情绪分析(SA)对于以其他信息来源无法识别人们的感受至关重要。对这些感觉的分析揭示了各种应用,包括品牌评估,YouTube电影评论和医疗保健应用。随着社交媒体的不断发展,人们以不同形式发布大量信息,包括文本,照片,音频和视频。因此,传统的SA算法已变得有限,因为它们不考虑其他方式的表现力。通过包括来自各种物质来源的此类特征,这些多模式数据流提供了新的机会,以优化基于文本的SA之外的预期结果。我们的研究重点是多模式SA的最前沿领域,该领域研究了社交媒体网络上发布的视觉和文本数据。许多人更有可能利用这些信息在这些平台上表达自己。为了作为这个快速增长的领域的学者资源,我们介绍了文本和视觉SA的全面概述,包括数据预处理,功能提取技术,情感基准数据集以及适合每个字段的多重分类方法的疗效。我们还简要介绍了最常用的数据融合策略,并提供了有关Visual Textual SA的现有研究的摘要。最后,我们重点介绍了最重大的挑战,并调查了一些重要的情感应用程序。
translated by 谷歌翻译
神经科学领域的研究揭示了情绪模式和脑功能区域之间的关系,展示了不同脑区之间的动态关系是影响通过脑电图(EEG)确定的情绪识别的必要因素。此外,在脑电情绪识别中,我们可以观察到,基于相同的脑电图数据,我们可以观察到粗粒情绪之间的粗粒情绪之间的边界;这表明大型粗糙和小细粒度情绪变化的同意。因此,来自粗糙到细粒度类别的渐进分类过程可能有助于EEG情绪识别。因此,在本研究中,我们提出了一种逐步的图表卷积网络(PGCN),用于捕获EEG情绪信号中的这种固有特性,并逐步学习鉴别性EEG特征。为了适应不同的EEG模式,我们构建了一个双图模块,以表征不同EEG通道之间的内在关系,其中包含神经科学研究的动态功能连接和脑区的静态空间接近信息。此外,通过观察粗糙和细粒度的情绪之间的关系,我们采用双头模块,使PGCN能够逐步了解更多辨别性EEG特征,从粗粒(简单)到细粒度的类别(困难),参考情绪的分层特征。为了验证我们模型的性能,在两个公共数据集中进行了广泛的实验:种子-46和多模态生理情绪数据库(MPED)。
translated by 谷歌翻译
通过脑电图信号的情绪分类取得了许多进步。但是,诸如缺乏数据和学习重要特征和模式之类的问题始终是具有在计算和预测准确性方面改进的领域。这项工作分析了基线机器学习分类器在DEAP数据集上的性能以及一种表格学习方法,该方法提供了最新的可比结果,从而利用了性能提升,这是由于其深度学习架构而无需部署重型神经网络。
translated by 谷歌翻译
学习模当融合的表示和处理未对准的多模式序列在多式联情绪识别中是有意义的,具有挑战性。现有方法使用定向成对注意力或消息中心到熔丝语言,视觉和音频模态。然而,这些方法在融合特征时介绍信息冗余,并且在不考虑方式的互补性的情况下效率低效。在本文中,我们提出了一种高效的神经网络,以学习与CB变压器(LMR-CBT)的模型融合表示,用于从未对准的多模式序列进行多峰情绪识别。具体地,我们首先为三种方式执行特征提取,以获得序列的局部结构。然后,我们设计具有跨模块块(CB变压器)的新型变压器,其能够实现不同模式的互补学习,主要分为局部时间学习,跨模型特征融合和全球自我关注表示。此外,我们将融合功能与原始特征拼接以对序列的情绪进行分类。最后,我们在三个具有挑战性的数据集,IEMocap,CMU-MOSI和CMU-MOSEI进行词语对齐和未对准的实验。实验结果表明我们在两个设置中提出的方法的优势和效率。与主流方法相比,我们的方法以最小数量的参数达到最先进的。
translated by 谷歌翻译
人类通过不同的渠道表达感受或情绪。以语言为例,它在不同的视觉声学上下文下需要不同的情绪。为了精确了解人类意图,并减少歧义和讽刺引起的误解,我们应该考虑多式联路信号,包括文本,视觉和声学信号。至关重要的挑战是融合不同的特征模式以进行情绪分析。为了有效地融合不同的方式携带的信息,更好地预测情绪,我们设计了一种基于新的多主题的融合网络,这是由任何两个对方式之间的相互作用不同的观察来启发,它们是不同的,并且它们不同样有助于最终的情绪预测。通过分配具有合理关注和利用残余结构的声学 - 视觉,声学 - 文本和视觉文本特征,我们参加了重要的特征。我们对四个公共多模式数据集进行了广泛的实验,包括中文和三种英文中的一个。结果表明,我们的方法优于现有的方法,并可以解释双模相互作用在多种模式中的贡献。
translated by 谷歌翻译
人们对人类情感状态的稀疏代表性格式的需求日益增长,这些格式可以在有限的计算记忆资源的情况下使用。我们探讨了在潜在矢量空间中代表神经数据对情绪刺激的响应是否可以用于预测情绪状态,并生成参与者和/或情绪特定于情绪的合成EEG数据。我们提出了一个有条件的基于变异自动编码器的框架EEG2VEC,以从脑电图数据中学习生成歧视性表示。关于情感脑电图记录数据集的实验结果表明,我们的模型适用于无监督的脑电图建模,基于潜在表示的三个不同情绪类别(正,中性,负)的分类,可实现68.49%的稳健性能,并产生的合成eeg序列共同存在于真实的脑电图数据输入到特别重建低频信号组件。我们的工作推进了情感脑电图表示可以在例如生成人工(标签)训练数据或减轻手动功能提取的领域,并为记忆约束的边缘计算应用程序提供效率。
translated by 谷歌翻译
视频中的多模式情感分析是许多现实世界应用中的关键任务,通常需要集成多模式流,包括视觉,言语和声学行为。为了提高多模式融合的鲁棒性,某些现有方法使不同的模态相互通信,并通过变压器模态跨模式相互作用。但是,这些方法仅在交互期间使用单尺度表示,但忘记利用包含不同语义信息级别的多尺度表示。结果,对于未对齐的多模式数据,变压器学到的表示形式可能会偏差。在本文中,我们提出了多模式情感分析的多尺度合作多模式变压器(MCMULT)体系结构。总体而言,“多尺度”机制能够利用每种模式的不同语义信息级别,用于细粒度的跨模式相互作用。同时,每种模式通过从其源模式的多个级别特征集成了交叉模式的交互来学习其特征层次结构。这样,每对方式分别以合作的方式逐步构建特征层次结构。经验结果表明,我们的MCMULT模型不仅在未对齐的多模式序列上胜过现有的方法,而且在对齐的多模式序列上具有强烈的性能。
translated by 谷歌翻译
最近,自我监督的表示学习(SSRL)在计算机视觉,语音,自然语言处理(NLP)以及最近的其他类型的模式(包括传感器的时间序列)中引起了很多关注。自我监督学习的普及是由传统模型通常需要大量通知数据进行培训的事实所驱动的。获取带注释的数据可能是一个困难且昂贵的过程。已经引入了自我监督的方法,以通过使用从原始数据自由获得的监督信号对模型进行判别预训练来提高训练数据的效率。与现有的对SSRL的评论不同,该评论旨在以单一模式为重点介绍CV或NLP领域的方法,我们旨在为时间数据提供对多模式自我监督学习方法的首次全面审查。为此,我们1)提供现有SSRL方法的全面分类,2)通过定义SSRL框架的关键组件来引入通用管道,3)根据其目标功能,网络架构和潜在应用程序,潜在的应用程序,潜在的应用程序,比较现有模型, 4)查看每个类别和各种方式中的现有多模式技术。最后,我们提出了现有的弱点和未来的机会。我们认为,我们的工作对使用多模式和/或时间数据的域中SSRL的要求有了一个观点
translated by 谷歌翻译
阅读理解是一个复杂的认知过程,涉及许多人类大脑活动。大量作品研究了在信息检索相关方案中阅读理解的模式和注意力分配。但是,关于阅读理解过程中人脑中发生的事情以及这些认知活动如何影响信息检索过程,知之甚少。此外,随着脑成像技术(例如脑电图(EEG))的进步,几乎可以实时收集大脑信号,并探索是否可以用作反馈来促进信息获取性能。在本文中,我们仔细设计了一项基于实验室的用户研究,以调查阅读理解过程中的大脑活动。我们的发现表明,神经反应随着不同类型的阅读内容而变化,即可以满足用户信息需求和无法无法满足的内容的内容。我们建议在阅读理解过程中以微观时间量表以微观时间量表来支持各种认知活动,例如认知负载,语义主题理解和推论处理。从这些发现中,我们说明了一些有关信息检索任务的见解,例如排名模型构建和界面设计。此外,我们建议有可能检测主动现实世界系统的阅读理解状态。为此,我们为基于脑电图的阅读理解建模(UERCM)提出了一个统一的框架。为了验证其有效性,我们基于脑电图特征进行了大量的实验,以进行两项阅读理解任务:回答句子分类和回答提取。结果表明,通过大脑信号提高两个任务的性能是可行的。
translated by 谷歌翻译
情感估计是一个积极的研究领域,对人与计算机之间的互动产生了重要影响。在评估情绪的不同方式中,代表电脑活动的脑电图(EEG)在过去十年中呈现了激励结果。 EEG的情感估计可以有助于某些疾病的诊断或康复。在本文中,我们提出了一种考虑到专家定义的生理学知识,与最初致力于计算机视觉的新型深度学习(DL)模型。具有模型显着性分析的联合学习得到了增强。为了呈现全局方法,该模型已经在四个公共可用数据集中进行了评估,并实现了与TheS-of TheakeS的方法和优于两个所提出的数据集的结果,其具有较低标准偏差的较高的稳定性。为获得再现性,本文提出的代码和模型可在Github.com/vdelv/emotion-eeg中获得。
translated by 谷歌翻译
The goal of building dialogue agents that can converse with humans naturally has been a long-standing dream of researchers since the early days of artificial intelligence. The well-known Turing Test proposed to judge the ultimate validity of an artificial intelligence agent on the indistinguishability of its dialogues from humans'. It should come as no surprise that human-level dialogue systems are very challenging to build. But, while early effort on rule-based systems found limited success, the emergence of deep learning enabled great advance on this topic. In this thesis, we focus on methods that address the numerous issues that have been imposing the gap between artificial conversational agents and human-level interlocutors. These methods were proposed and experimented with in ways that were inspired by general state-of-the-art AI methodologies. But they also targeted the characteristics that dialogue systems possess.
translated by 谷歌翻译