智能论文笔记

Detecting Dementia from Speech and Transcripts using Transformers

Loukas Ilias , Dimitris Askounis , John Psarras

分类：自然语言处理 | 计算机视觉

2021-10-27

阿尔茨海默氏病（AD）构成了一种神经退行性疾病，对人们的日常生活造成了严重后果，如果没有可用的治愈方法，请及早诊断出来。阿尔茨海默氏症是痴呆症的最常见原因，它构成了记忆丧失的一般术语。由于痴呆症会影响言语，因此现有的研究计划着重于检测自发言语的痴呆症。然而，关于语音数据转换为对数 - 梅尔频谱图和梅尔频率cepstral系数（MFCC）以及预验证模型的使用，几乎没有做出的工作。同时，关于变压器网络的使用以及两种模式（即语音和笔录）的方式，几乎没有完成工作。为了解决这些局限性，首先我们采用了几个验证的模型，而视觉变压器（VIT）则取得了最高的评估结果。其次，我们提出了多模型模型。更具体地说，我们引入的模型包括封闭式的多模式单元，以控制每种模态对最终分类和跨模式关注的影响，以便以有效的方式捕获两种模态之间的关系。在Adress挑战数据集上进行的广泛实验证明了所提出的模型的有效性及其优于最先进的方法。

translated by 谷歌翻译

Explainable Identification of Dementia from Transcripts using Transformer Networks

Loukas Ilias , Dimitris Askounis

分类：自然语言处理 | 机器学习

2021-09-14

阿尔茨海默氏病（AD）是痴呆症的主要原因，伴随着记忆力的丧失，如果未按时诊断，可能会导致人们的日常生活造成严重后果。很少有作品利用基于变压器的网络，尽管获得了高度的精度，但在模型可解释性方面几乎没有完成工作。此外，尽管迷你精神状态考试（MMSE）分数与痴呆症的识别密不可分，但研究工作面临着痴呆症鉴定的任务以及将MMSE分数作为两个独立任务的预测任务。为了解决这些局限性，我们采用了几种基于变压器的模型，伯特（Bert）的准确性最高为87.50％。同时，我们提出了一种可解释的方法来检测基于暹罗网络的准确性高达83.75％的患者。接下来，我们介绍了两个多任务学习模型，其中主要任务是指痴呆症的识别（二进制分类），而辅助辅助学则对应于痴呆症的严重程度（多类分类）。我们的模型在多任务学习环境中检测AD患者的准确度等于86.25％。最后，我们提出了一些新方法，以识别AD患者和非AD的语言模式，包括文本统计，词汇唯一性，单词用法，通过详细的语言分析和解释性技术（LIME）（LIME）。发现表明AD和非AD患者之间的语言差异显着差异。

translated by 谷歌翻译

A Multimodal Approach for Dementia Detection from Spontaneous Speech with Tensor Fusion Layer

Loukas Ilias , Dimitris Askounis , John Psarras

分类：自然语言处理 | 计算机视觉

2022-11-08

Alzheimer's disease (AD) is a progressive neurological disorder, meaning that the symptoms develop gradually throughout the years. It is also the main cause of dementia, which affects memory, thinking skills, and mental abilities. Nowadays, researchers have moved their interest towards AD detection from spontaneous speech, since it constitutes a time-effective procedure. However, existing state-of-the-art works proposing multimodal approaches do not take into consideration the inter- and intra-modal interactions and propose early and late fusion approaches. To tackle these limitations, we propose deep neural networks, which can be trained in an end-to-end trainable way and capture the inter- and intra-modal interactions. Firstly, each audio file is converted to an image consisting of three channels, i.e., log-Mel spectrogram, delta, and delta-delta. Next, each transcript is passed through a BERT model followed by a gated self-attention layer. Similarly, each image is passed through a Swin Transformer followed by an independent gated self-attention layer. Acoustic features are extracted also from each audio file. Finally, the representation vectors from the different modalities are fed to a tensor fusion layer for capturing the inter-modal interactions. Extensive experiments conducted on the ADReSS Challenge dataset indicate that our introduced approaches obtain valuable advantages over existing research initiatives reaching Accuracy and F1-score up to 86.25% and 85.48% respectively.

translated by 谷歌翻译

Comparing Acoustic-based Approaches for Alzheimer's Disease Detection

Aparna Balagopalan , Jekaterina Novikova

分类：自然语言处理

2021-06-03

鉴于AD的高流行，对阿尔茨海默氏病（AD）检测的强大策略很重要。在本文中，我们研究了来自最近的Adresso挑战数据集的三种AD检测方法的性能和概括性：1）使用常规声学特征2）使用新型的预训练的声学嵌入式3）结合声学特征和嵌入。我们发现，尽管基于特征的方法具有更高的精度，但依赖于预训练的嵌入的分类方法证明在多个性能的多个指标中具有更高且更平衡的交叉验证性能。此外，仅嵌入方法更具概括性。我们的最佳模型在挑战中优于声学基线2.8％。

translated by 谷歌翻译

A Multimodal Approach for Automatic Mania Assessment in Bipolar Disorder

Pınar Baki

分类：自然语言处理 | 机器学习

2021-12-17

双相情感障碍是一种心理健康障碍，导致情绪波动，从令人沮丧到狂热。双相障碍的诊断通常是根据患者访谈进行的，并从患者的护理人员获得的报告。随后，诊断取决于专家的经验，并且可以与其他精神障碍的疾病混淆。双极性障碍诊断中的自动化过程可以帮助提供定量指标，并让患者的更容易观察较长的时间。此外，在Covid-19大流行期间，对遥控和诊断的需求变得尤为重要。在本论文中，我们根据声学，语言和视觉方式的患者录制来创建一种多模态决策系统。该系统培养在双极障碍语料库上。进行综合分析单峰和多模式系统，以及各种融合技术。除了使用单向特征处理整个患者会话外，还研究了剪辑的任务级调查。在多模式融合系统中使用声学，语言和视觉特征，我们实现了64.8％的未加权平均召回得分，这提高了在该数据集上实现的最先进的性能。

translated by 谷歌翻译

Multimodal Hate Speech Detection from Bengali Memes and Texts

Md. Rezaul Karim , Sumon Kanti Dey , Tanhim Islam , Md. Shajalal , Bharathi Raja Chakravarthi

分类：自然语言处理 | 人工智能

2022-04-19

Numerous machine learning (ML) and deep learning (DL)-based approaches have been proposed to utilize textual data from social media for anti-social behavior analysis like cyberbullying, fake news detection, and identification of hate speech mainly for highly-resourced languages such as English. However, despite having a lot of diversity and millions of native speakers, some languages like Bengali are under-resourced, which is due to a lack of computational resources for natural language processing (NLP). Similar to other languages, Bengali social media contents also include images along with texts (e.g., multimodal memes are posted by embedding short texts into images on Facebook). Therefore, only the textual data is not enough to judge them since images might give extra context to make a proper judgement. This paper is about hate speech detection from multimodal Bengali memes and texts. We prepared the only multimodal hate speech dataset for-a-kind of problem for Bengali, which we use to train state-of-the-art neural architectures (e.g., Bi-LSTM/Conv-LSTM with word embeddings, ConvNets + pre-trained language models, e.g., monolingual Bangla BERT, multilingual BERT-cased/uncased, and XLM-RoBERTa) to jointly analyze textual and visual information for hate speech detection. Conv-LSTM and XLM-RoBERTa models performed best for texts, yielding F1 scores of 0.78 and 0.82, respectively. As of memes, ResNet-152 and DenseNet-161 models yield F1 scores of 0.78 and 0.79, respectively. As for multimodal fusion, XLM-RoBERTa + DenseNet-161 performed the best, yielding an F1 score of 0.83. Our study suggests that text modality is most useful for hate speech detection, while memes are moderately useful.

translated by 谷歌翻译

Exploring linguistic feature and model combination for speech recognition based automatic AD detection

Yi Wang , Tianzi Wang , Zi Ye , Lingwei Meng , Shoukang Hu , Xixin Wu , Xunying Liu , Helen Meng

分类：机器学习

2022-06-28

阿尔茨海默氏病（AD）的早期诊断对于促进预防性护理和延迟进展至关重要。基于语音的自动广告筛选系统为其他临床筛查技术提供了一种非侵入性，更可扩展的替代方案。此类专业数据的稀缺性会导致模型选择和特征学习的不确定性。为此，本文调查了功能和模型组合方法的使用，以改善Bert和Roberta预先训练的文本编码有限数据的域微调的鲁棒性，然后在将结果的嵌入功能馈入后端分类器集合之前通过多数投票制定最终的广告检测决定。在ADRESS20挑战数据集上进行的实验表明，使用模型和功能组合在系统开发中获得了一致的性能改进。使用手册和ASR语音转录本在ADRESS20测试集上分别获得了91.67％和93.75％的最先进的AD检测精度，该准确的准确性是由48位老年人组成的。

translated by 谷歌翻译

A Heuristic-driven Uncertainty based Ensemble Framework for Fake News Detection in Tweets and News Articles

Sourya Dipta Das , Ayan Basak , Saikat Dutta

分类：自然语言处理 | 人工智能

2021-04-05

社交媒体的重要性在过去几十年中增加了流畅，因为它帮助人们甚至是世界上最偏远的角落保持联系。随着技术的出现，数字媒体比以往任何时候都变得更加相关和广泛使用，并且在此之后，假冒新闻和推文的流通中有一种复兴，需要立即关注。在本文中，我们描述了一种新的假新闻检测系统，可自动识别新闻项目是“真实的”或“假”，作为我们在英语挑战中的约束Covid-19假新闻检测中的工作的延伸。我们使用了一个由预先训练的模型组成的集合模型，然后是统计特征融合网络，以及通过在新闻项目或推文中的各种属性，如源，用户名处理，URL域和作者中的各种属性结合到统计特征中的各种属性。我们所提出的框架还规定了可靠的预测性不确定性以及分类任务的适当类别输出置信水平。我们在Covid-19假新闻数据集和Fakenewsnet数据集上评估了我们的结果，以显示所提出的算法在短期内容中检测假新闻以及新闻文章中的算法。我们在Covid-19数据集中获得了0.9892的最佳F1分，以及Fakenewsnet数据集的F1分数为0.9073。

translated by 谷歌翻译

Multimodal E-Commerce Product Classification Using Hierarchical Fusion

Tsegaye Misikir Tashu , Sara Fattouh , Peter Kiss , Tomas Horvath

分类：人工智能

2022-07-07

在这项工作中，我们提出了用于商业产品分类的多模式模型，该模型结合了使用简单的融合技术从Textual（Camembert和Flaubert）和视觉数据（SE-Resnext-50）中提取的功能。所提出的方法显着优于单峰模型的性能以及在我们的特定任务上报告的类似模型的报告。我们进行了多种融合技术的实验，并发现，结合单峰网络的单个嵌入的最佳性能技术是基于结合串联和平均特征向量的方法。每种模式都补充了其他方式的缺点，表明增加模态的数量可能是改善多标签和多模式分类问题的有效方法。

translated by 谷歌翻译

Hybrid Multimodal Fusion for Humor Detection

Haojie Xu , Weifeng Liu , Jingwei Liu , Mingzheng Li , Yu Feng , Yasi Peng , Yunwei Shi , Xiao Sun , Meng Wang

分类：机器学习 | 人工智能 | 自然语言处理

2022-09-24

在本文中，我们将解决方案介绍给Muse-Humor的多模式情感挑战（MUSE）2022的邮件，库穆尔人子挑战的目标是发现幽默并从德国足球馆的视听录音中计算出AUC新闻发布会。它是针对教练表现出的幽默的注释。对于此子挑战，我们首先使用变压器模块和BilstM模块构建一个判别模型，然后提出一种混合融合策略，以使用每种模式的预测结果来提高模型的性能。我们的实验证明了我们提出的模型和混合融合策略对多模式融合的有效性，并且我们在测试集中提出的模型的AUC为0.8972。

translated by 谷歌翻译

Fake or Genuine? Contextualised Text Representation for Fake Review Detection

Rami Mohawesh , Shuxiang Xu , Matthew Springer , Muna Al-Hawawreh , Sumbal Maqsood

分类：自然语言处理 | 人工智能

2021-12-29

在线评论对客户的购买决策有了重大影响，以满足任何产品或服务。但是，假审查可以误导消费者和公司。已经开发了几种模型来使用机器学习方法检测假审查。许多这些模型具有一些限制，导致在虚假和真正的评论之间具有低准确性。这些模型仅集中在语言特征上，以检测虚假评论，未能捕获评论的语义含义。要解决此问题，本文提出了一种新的集合模型，采用变换器架构，以在一系列虚假评论中发现隐藏的模式并准确地检测它们。该拟议方法结合了三种变压器模型来提高虚假和真正行为分析和建模的鲁棒性，以检测虚假评论。使用半真实基准数据集的实验结果显示了拟议的型号模型的优越性。

translated by 谷歌翻译

Computational Sarcasm Analysis on Social Media: A Systematic Review

Faria Binte Kader , Nafisa Hossain Nujat , Tasmia Binte Sogir , Mohsinul Kabir , Hasan Mahmud , Kamrul Hasan

分类：自然语言处理

2022-09-13

讽刺可以被定义为说或写讽刺与一个人真正想表达的相反，通常是为了侮辱，刺激或娱乐某人。由于文本数据中讽刺性的性质晦涩难懂，因此检测到情感分析研究社区的困难和非常感兴趣。尽管讽刺检测的研究跨越了十多年，但最近已经取得了一些重大进步，包括在多模式环境中采用了无监督的预训练的预训练的变压器，并整合了环境以识别讽刺。在这项研究中，我们旨在简要概述英语计算讽刺研究的最新进步和趋势。我们描述了与讽刺有关的相关数据集，方法，趋势，问题，挑战和任务，这些数据集，趋势，问题，挑战和任务是无法检测到的。我们的研究提供了讽刺数据集，讽刺特征及其提取方法以及各种方法的性能分析，这些表可以帮助相关领域的研究人员了解当前的讽刺检测中最新实践。

translated by 谷歌翻译

CubeMLP: A MLP-based Model for Multimodal Sentiment Analysis and Depression Estimation

Hao Sun , Hongyi Wang , Jiaqing Liu , Yen-Wei Chen , Lanfen Lin

分类：自然语言处理 | 计算机视觉

2022-07-28

多模式情感分析和抑郁估计是两个重要的研究主题，旨在使用多模式数据预测人类精神状态。先前的研究重点是制定有效的融合策略，以交换和整合不同模式的与思想有关的信息。一些基于MLP的技术最近在各种计算机视觉任务中取得了巨大的成功。受到这一点的启发，我们探索了本研究中具有混合视角的多模式方法。为此，我们介绍了完全基于MLP的多模式特征处理框架CubeMLP。 CUBEMLP由三个独立的MLP单元组成，每个单元都有两个仿射转换。 CUBEMLP接受所有相关的模态特征作为输入，并在三个轴上混合它们。使用CubeMLP提取特性后，将混合的多模式特征扁平以进行任务预测。我们的实验是在情感分析数据集上进行的：CMU-MOSI和CMU-MOSEI，以及抑郁估计数据集：AVEC2019。结果表明，CUBEMLP可以以低得多的计算成本来实现最先进的性能。

translated by 谷歌翻译

A Comparative Study of Speaker Role Identification in Air Traffic Communication Using Deep Learning Approaches

Dongyue Guo , Jianwei Zhang , Bo Yang , Yi Lin

分类：自然语言处理

2021-11-03

在空中交通管制（ATC）控制器飞行员谈话的自动语音指令的理解（SIU）不仅需要认识到的演讲词和语义，但也确定了演讲者的角色。然而，很少有在空中交通通信专注于扬声器的作用识别（SRI）自动认识系统发表的作品。在本文中，我们制定管制员 - 驾驶员通信的SRI任务作为二元分类问题。提出此外，基于文本的，基于语音和语音和文本为基础的多模态的方法来达到SRI任务的全面比较。消融的比较方法的影响，各种先进的神经网络架构应用进行优化的，基于语音的基于文本和方法的实现。最重要的是，多模态扬声器的作用识别网络（MMSRINet）设计同时考虑语音和文本模式功能实现的SRI任务。聚集形态特征，模态融合模块提出了保险丝和模态注意机制和自我关注池层，分别挤声音和文本表示。最后，比较的方法进行验证从现实世界ATC环境中收集的语料库ATCSpeech。实验结果表明，所有的比较方法是对SRI任务分别工作，并提议MMSRINet显示出比上都看到和看不到数据的其他方法的有竞争力的性能和稳定性，达到98.56％，98.08和％的准确度。

translated by 谷歌翻译

Deep convolutional forest: a dynamic deep ensemble approach for spam detection in text

Mai A. Shaaban , Yasser F. Hassan , Shawkat K. Guirguis

分类：自然语言处理 | 人工智能 | 机器学习

2021-10-10

人们使用移动消息传递服务的增加导致了像网络钓鱼一样的社会工程攻击的传播，考虑到垃圾邮件文本是传播网络钓鱼攻击的主要因素之一，以窃取信用卡和密码等敏感数据。此外，关于Covid-19大流行的谣言和不正确的医疗信息在社交媒体上广泛分享，导致人们的恐惧和混乱。因此，过滤垃圾邮件内容对于降低风险和威胁至关重要。以前的研究依赖于机器学习和深入学习的垃圾邮件分类方法，但这些方法有两个限制。机器学习模型需要手动功能工程，而深度神经网络需要高计算成本。本文介绍了一种动态的深度集合模型，用于垃圾邮件检测，调整其复杂性并自动提取功能。所提出的模型利用卷积和汇集层进行特征提取以及基础分类器，如随机森林和极其随机的树木，用于将文本分类为垃圾邮件或合法的树。此外，该模型采用了Boosting和Bagging等集合学习程序。结果，该模型达到了高精度，召回，F1分数和精度为98.38％。

translated by 谷歌翻译

Data Augmentation for Dementia Detection in Spoken Language

Anna Hlédiková , Dominika Woszczyk , Alican Acman , Soteris Demetriou , Björn Schuller

分类：自然语言处理 | 机器学习

2022-06-26

随着我们的社会年龄的增长，痴呆症是一个日益严重的问题，检测方法通常是侵入性且昂贵的。最近的深度学习技术可以提供更快的诊断，并显示出令人鼓舞的结果。但是，它们需要大量标记的数据，这些数据不容易用于痴呆检测任务。稀疏数据问题的一个有效解决方案是数据扩展，尽管需要仔细选择确切的方法。迄今为止，尚无对NLP和语音处理的阿尔茨海默氏病（AD）数据集的数据增强的实证研究。在这项工作中，我们研究了针对AD检测任务的数据增强技术，并对文本和音频域的两种模型上的不同方法进行经验评估。我们分别为两个域，SVM和随机森林模型使用基于变压器的模型，分别为文本和音频域。我们使用传统和基于深度学习的方法生成其他样本，并表明数据增强改善了基于文本和音频的模型的性能，并且此类结果可与流行的Adress集合中的最新结果相媲美，具有精心制作的架构和功能。

translated by 谷歌翻译

Hybrid Multimodal Feature Extraction, Mining and Fusion for Sentiment Analysis

Jia Li , Ziyang Zhang , Junjie Lang , Yueqi Jiang , Liuwei An , Peng Zou , Yangyang Xu , Sheng Gao , Jie Lin , Chunxiao Fan

分类：计算机视觉 | 自然语言处理

2022-08-05

在本文中，我们介绍了2022年多模式情感分析挑战（MUSE）的解决方案，其中包括Muse-Humor，Muse-Rection和Muse Surns Sub-Challenges。 2022年穆斯穆斯（Muse 2022）着重于幽默检测，情绪反应和多模式的情感压力，利用不同的方式和数据集。在我们的工作中，提取了不同种类的多模式特征，包括声学，视觉，文本和生物学特征。这些功能由Temma和Gru融合到自发机制框架中。在本文中，1）提取了一些新的音频功能，面部表达功能和段落级文本嵌入以进行准确的改进。 2）我们通过挖掘和融合多模式特征来显着提高多模式情感预测的准确性和可靠性。 3）在模型培训中应用有效的数据增强策略，以减轻样本不平衡问题并防止模型形成学习有偏见的主题字符。对于博物馆的子挑战，我们的模型获得了0.8932的AUC分数。对于Muse Rection子挑战，我们在测试集上的Pearson相关系数为0.3879，它的表现优于所有其他参与者。对于Muse Surst Sub-Challenge，我们的方法在测试数据集上的唤醒和价值都优于基线，达到了0.5151的最终综合结果。

translated by 谷歌翻译

Impact of Environmental Noise on Alzheimer's Disease Detection from Speech: Should You Let a Baby Cry?

Jekaterina Novikova

分类：自然语言处理

2022-03-31

鉴于AD的高流行和传统方法的高成本，与自动检测阿尔茨海默氏病（AD）有关的研究很重要。由于广告会显着影响自发语音的声学，因此语音处理和机器学习（ML）为可靠地检测AD提供了有希望的技术。但是，语音音频可能会受到不同类型的背景噪声的影响，重要的是要了解噪声如何影响ML模型检测到语音的AD的准确性。在本文中，我们研究了来自五个不同类别的15种类型的环境噪声对四种具有三种声音表示的ML模型的性能的影响。我们进行了彻底的分析，显示了ML模型和声学特征如何受到不同类型的声学噪声的影响。我们表明声音噪声不一定是有害的 - 某些类型的噪声对AD检测模型有益，并帮助将精度提高到4.8％。我们提供有关如何利用声学噪声的建议，以通过在现实世界中部署的ML模型获得最佳性能结果。

translated by 谷歌翻译

Multi-modal Depression Estimation based on Sub-attentional Fusion

Ping-Cheng Wei , Kunyu Peng , Alina Roitberg , Kailun Yang , Jiaming Zhang , Rainer Stiefelhagen

分类：计算机视觉 | 机器人

2022-07-13

未能及时诊断并有效治疗抑郁症会导致全世界有超过2.8亿人患有这种心理障碍。抑郁症的信息提示可以从不同的异质资源（例如音频，视觉和文本数据）中收获，从而提高了对自动估计的新有效多模式融合方法的需求。在这项工作中，我们解决了从多模式数据中自动识别抑郁症的任务，并引入了一种接触机制，以连接异质信息，同时利用卷积双向LSTM作为我们的骨架。为了验证这一想法，我们对公共DAIC-WOZ基准进行了广泛的实验，以进行抑郁评估，该评估具有不同的评估模式，并考虑了特定性别的偏见。提出的模型在检测严重抑郁症和4.92 MAE时以0.89的精度和0.70 F1得分产生有效的结果。我们基于注意力的融合模块始终优于常规的晚期融合方法，并且与先前发表的抑郁估计框架相比，取得了竞争性能，同时学习诊断端到端的疾病并依靠较少的预处理步骤。

translated by 谷歌翻译

Multimodal Prediction of Spontaneous Humour: A Novel Dataset and First Results

Lukas Christ , Shahin Amiriparian , Alexander Kathan , Niklas Müller , Andreas König , Björn W. Schuller

分类：机器学习 | 自然语言处理 | 计算机视觉

2022-09-28

幽默是人类情感和认知的重要因素。它的自动理解可以促进更自然的人类设备互动和人工智能的人性化。当前的幽默检测方法仅基于分阶段数据，使其不适用于“现实世界”应用程序。我们通过引入新颖的Passau自发足球教练幽默（Passau-SFCH）数据集来解决这种缺陷，包括大约11个小时的录音。在马丁的幽默风格问卷中提出的幽默及其尺寸（情感和方向）的存在，请注释Passau-SFCH数据集。我们进行了一系列实验，采用了经过预定的变压器，卷积神经网络和专家设计的功能。分析了每种模式（文本，音频，视频）的表现，以进行自发幽默识别，并研究了它们的互补性。我们的发现表明，对于对幽默及其情感的自动分析，面部表情是最有希望的，而幽默方向可以通过基于文本的功能进行建模。结果揭示了各种主题之间的差异，突出了幽默用法和风格的个性。此外，我们观察到决策级融合会产生最佳认可结果。最后，我们在https://www.github.com/eihw/passau-sfch上公开代码。可以根据要求获得Passau-SFCH数据集。

translated by 谷歌翻译