对于痴呆症筛查和监测,标准化测试在临床常规中起着关键作用,因为它们旨在通过测量各种认知任务的性能来最大程度地降低主观性。在本文中,我们报告了一项由半标准化病史组成的研究,然后进行了两个标准化的神经心理学测试,即SKT和CERAD-NB。这些测试包括基本任务,例如命名对象,学习单词列表,以及广泛使用的工具,例如MMSE。大多数任务是在口头上执行的,因此应适用于基于成绩单的自动评分。对于第一批30例患者,我们根据手动和自动转录分析了专家手动评估与自动评估之间的相关性。对于SKT和CERAD-NB,我们都可以使用手动笔录观察到高至完美的相关性。对于某些相关性较低的任务,自动评分比人类参考更严格,因为它仅限于音频。使用自动转录,相关性降低,并且与识别精度有关;但是,我们仍然观察到高达0.98(SKT)和0.85(CERAD-NB)的高相关性。我们表明,使用单词替代方案有助于减轻识别错误,并随后改善与专家分数的相关性。
translated by 谷歌翻译
标准化测试在检测认知障碍中起着至关重要的作用。先前的工作表明,使用标准化图片描述任务中的音频数据可以自动检测认知障碍。提出的研究超出了这一点,评估了我们对来自两个标准化神经心理学测试的数据,即德国SKT和德国版本的CERAD-NB,以及患者与心理学家之间的半结构化临床访谈。对于测试,我们关注三个子测试的语音记录:阅读数字(SKT 3),干扰(SKT 7)和口头流利度(Cerad-NB 1)。我们表明,标准化测试的声学特征可用于可靠地区分非受损的人的认知受损个体。此外,我们提供的证据表明,即使是从访谈的随机语音样本中提取的特征也可能是认知障碍的歧视者。在我们的基线实验中,我们使用开米的功能和支持向量机分类器。在改进的设置中,我们表明使用WAV2VEC 2.0功能,我们可以达到高达85%的精度。
translated by 谷歌翻译
作为最普遍的神经退行性疾病之一,帕金森病(PD)对患者的精细运动技能产生了重大影响。在语音生产过程中不同铰接器的复杂相互作用和所需肌肉张力的实现变得越来越困难,从而导致发狂的言论。在受影响的个体中通常可以观察到元音不稳定性,浆液发音和慢演说的特征模式,并在先前的研究中分析以确定PD的存在和进展。在这项工作中,我们使用了专门培训的语音识别器,以研究PD如何影响患者的语音占地面积。我们重新发现了许多在以前的贡献中描述的模式,尽管我们的系统从未见过此前从未见过任何病理演讲。此外,我们可以表明来自神经网络的中间激活可以用作编码与个人疾病状态有关的信息的特征向量。我们还能够直接将演讲者的专家额定智能性与语音预测的平均置信相提并论。我们的结果支持假设,即培训能够分析PD语音的系统不一定需要病理数据。
translated by 谷歌翻译
自动语音识别(ASR)是一个复杂和具有挑战性的任务。近年来,该地区出现了重大进展。特别是对于巴西葡萄牙语(BP)语言,在2020年的下半年,有大约376小时的公众可供ASR任务。在2021年初发布新数据集,这个数字增加到574小时。但是,现有资源由仅包含读取和准备的演讲的Audios组成。缺少数据集包括自发性语音,这在不同的ASR应用中是必不可少的。本文介绍了Coraa(注释Audios语料库)V1。使用290.77小时,在包含验证对(音频转录)的BP中ASR的公共可用数据集。科拉还含有欧洲葡萄牙音像(4.69小时)。我们还提供了一个基于Wav2VEC 2.0 XLSR-53的公共ASR模型,并通过CoraA进行微调。我们的模型在CoraA测试集中实现了24.18%的单词误差率,并且在常见的语音测试集上为20.08%。测量字符错误率时,我们分别获得11.02%和6.34%,分别为CoraA和常见声音。 Coraa Corpora在自发言论中与BP中的改进ASR模型进行了组装,并激励年轻研究人员开始研究葡萄牙语的ASR。所有Corpora都在CC By-NC-ND 4.0许可证下公开提供Https://github.com/nilc-nlp/coraa。
translated by 谷歌翻译
口吃是一种言语障碍,在此期间,语音流被非自愿停顿和声音重复打断。口吃识别是一个有趣的跨学科研究问题,涉及病理学,心理学,声学和信号处理,使检测很难且复杂。机器和深度学习的最新发展已经彻底彻底改变了语音领域,但是对口吃的识别受到了最小的关注。这项工作通过试图将研究人员从跨学科领域聚集在一起来填补空白。在本文中,我们回顾了全面的声学特征,基于统计和深度学习的口吃/不足分类方法。我们还提出了一些挑战和未来的指示。
translated by 谷歌翻译
由于医疗技术的进步,预防性医疗保健以及对老年医学健康的越来越重视,全球平均预期寿命正在增加。因此,必须开发检测和跟踪老年人人群认知功能中与衰老相关的疾病的技术。特别是,鉴于该疾病的患病率和当前方法的成本,与自动检测和评估有关阿尔茨海默氏病(AD)的研究至关重要。由于广告影响了语音和词汇的声学,因此自然语言处理和机器学习为可靠地检测AD提供了有希望的技术。我们比较和对比十个线性回归模型的性能,以预测Adress挑战数据集上的迷你门会状态考试得分。我们提取了13000多种手工制作和学习的功能,可捕捉语言和声学现象。使用通过两种方法选择的54个顶部功能的子集:(1)递归消除和(2)相关得分,我们的表现要优于同一任务的最新基线。在评分和评估每个模型选定特征子集的统计显着性时,我们发现,对于给定的任务,手工制作的语言特征比声学和学识渊博的特征更为重要。
translated by 谷歌翻译
情绪分析中最突出的任务是为文本分配情绪,并了解情绪如何在语言中表现出来。自然语言处理的一个重要观察结果是,即使没有明确提及情感名称,也可以通过单独参考事件来隐式传达情绪。在心理学中,被称为评估理论的情感理论类别旨在解释事件与情感之间的联系。评估可以被形式化为变量,通过他们认为相关的事件的人们的认知评估来衡量认知评估。其中包括评估事件是否是新颖的,如果该人认为自己负责,是否与自己的目标以及许多其他人保持一致。这样的评估解释了哪些情绪是基于事件开发的,例如,新颖的情况会引起惊喜或不确定后果的人可能引起恐惧。我们在文本中分析了评估理论对情绪分析的适用性,目的是理解注释者是否可以可靠地重建评估概念,如果可以通过文本分类器预测,以及评估概念是否有助于识别情感类别。为了实现这一目标,我们通过要求人们发短信描述触发特定情绪并披露其评估的事件来编译语料库。然后,我们要求读者重建文本中的情感和评估。这种设置使我们能够衡量是否可以纯粹从文本中恢复情绪和评估,并为判断模型的绩效指标提供人体基准。我们将文本分类方法与人类注释者的比较表明,两者都可以可靠地检测出具有相似性能的情绪和评估。我们进一步表明,评估概念改善了文本中情绪的分类。
translated by 谷歌翻译
双相情感障碍是一种心理健康障碍,导致情绪波动,从令人沮丧到狂热。双相障碍的诊断通常是根据患者访谈进行的,并从患者的护理人员获得的报告。随后,诊断取决于专家的经验,并且可以与其他精神障碍的疾病混淆。双极性障碍诊断中的自动化过程可以帮助提供定量指标,并让患者的更容易观察较长的时间。此外,在Covid-19大流行期间,对遥控和诊断的需求变得尤为重要。在本论文中,我们根据声学,语言和视觉方式的患者录制来创建一种多模态决策系统。该系统培养在双极障碍语料库上。进行综合分析单峰和多模式系统,以及各种融合技术。除了使用单向特征处理整个患者会话外,还研究了剪辑的任务级调查。在多模式融合系统中使用声学,语言和视觉特征,我们实现了64.8%的未加权平均召回得分,这提高了在该数据集上实现的最先进的性能。
translated by 谷歌翻译
众所周知,学习障碍主要干扰阅读,写作和数学等基本学习技能,会影响世界上约10%的儿童。作为神经发育障碍的一部分的运动技能和运动协调不足可能成为学习写作困难(障碍)的原因因素,从而阻碍了个人的学术轨道。障碍症的体征和症状包括但不限于不规则的笔迹,不正确的写作媒介处理,缓慢或劳力的写作,不寻常的手部位等。所有类型的学习障碍的评估标准是由医学医学进行的检查专家。少数可用的人工智能筛查系统用于障碍症,依赖于相应图像中手写的独特特征。这项工作对文献中儿童的现有自动化障碍诊断系统进行了综述。这项工作的主要重点是审查基于人工智能的儿童诊断的基于人工智能的系统。这项工作讨论了数据收集方法,重要的手写功能,用于诊断障碍症的文献中使用的机器学习算法。除此之外,本文还讨论了一些基于非人工智能的自动化系统。此外,本文讨论了现有系统的缺点,并提出了一个新颖的障碍诊断框架。
translated by 谷歌翻译
英语水平评估已成为过滤和选择学术界和工业的预期候选人的必要度量。随着这种评估需求的增加,越来越必要拥有自动化的人类可意识的结果,以防止不一致并确保对第二语言学习者有意义的反馈。基于特征的经典方法在理解得分模型学习的内容方面更具可解释。因此,在这项工作中,我们利用古典机器学习模型作为分类和回归问题的语音评分任务,其次是彻底的研究来解释和研究语言线索与扬声器的英语水平之间的关系。首先,我们提取五个类别(流利,发音,内容,语法和词汇和声学)的语言学家特征,并列车模型到级响应。相比之下,我们发现基于回归的模型相当于或更好地比分类方法更好。其次,我们进行消融研究以了解每个特征和特征类别对熟练分级性能的影响。此外,要了解个别特征贡献,我们展示了顶部特征对分级任务的最佳执行算法的重要性。第三,我们利用部分依赖性地块和福芙值来探索特征重要性,并得出结论,最好的培训模式了解用于分级本研究中使用的数据集的底层尺寸。
translated by 谷歌翻译
处理感官输入的机器学习系统的兴起使人与机器感知之间的比较有所增加。但是,这种比较面临着一个挑战:尽管机器对某些刺激的感知通常可以通过直接和明确的措施来探讨,但人类知识的大部分知识是潜在的,不完整的或不可用的。在这里,我们探讨了这种不对称性如何导致这种比较误解人类和机器感知的重叠。作为一个案例研究,我们考虑了人类对\ textit {对抗性语音}的感知 - 合成音频命令被自动语音识别系统识别为有效消息,但据报道,人类听众听到了无意义的噪音。在五个实验中,我们适应了人类心理物理学文献的任务设计,以表明即使受试者无法自由地抄写此类语音命令(以前的人类理解基准),他们也可以表现出其他形式的理解,包括从紧密匹配的对抗性语言中歧视对抗性演讲非语音(实验1--2),在对抗性语音(实验3--4)中开始完成的常见短语,并解决了对抗性语音中提出的简单数学问题(实验5) - 即使对于先前被描述为人类无法理解的刺激听众。我们建议在比较人类和机器感知时采用这种“敏感测试”,并讨论评估系统之间重叠的这种方法的更广泛的后果。
translated by 谷歌翻译
The International Workshop on Reading Music Systems (WoRMS) is a workshop that tries to connect researchers who develop systems for reading music, such as in the field of Optical Music Recognition, with other researchers and practitioners that could benefit from such systems, like librarians or musicologists. The relevant topics of interest for the workshop include, but are not limited to: Music reading systems; Optical music recognition; Datasets and performance evaluation; Image processing on music scores; Writer identification; Authoring, editing, storing and presentation systems for music scores; Multi-modal systems; Novel input-methods for music to produce written music; Web-based Music Information Retrieval services; Applications and projects; Use-cases related to written music. These are the proceedings of the 3rd International Workshop on Reading Music Systems, held in Alicante on the 23rd of July 2021.
translated by 谷歌翻译
苏黎世认知语言处理语料库(Zuco)提供了来自两种读取范例,正常读取和特定任务读数的眼跟踪和脑电图信号。我们分析了机器学习方法是否能够使用眼睛跟踪和EEG功能对这两个任务进行分类。我们使用聚合的句子级别功能以及细粒度的单词级别来实现模型。我们在主题内和交叉对象评估方案中测试模型。所有模型都在Zuco 1.0和Zuco 2.0数据子集上进行测试,其特征在于不同的记录程序,因此允许不同的概括水平。最后,我们提供了一系列的控制实验,以更详细地分析结果。
translated by 谷歌翻译
我们对瑞士德语的四个市售语音到文本(STT)系统进行了深入评估。该系统在本报告中被匿名化,并称为系统A-D。我们将这四个系统与我们的STT模型进行了比较,该模型之后称为FHNW,并提供了有关我们如何训练模型的详细信息。为了评估模型,我们使用来自不同域的两个STT数据集。瑞士议会语料库(SPC)测试集和新闻领域中的私人数据集,在七个方言区域进行了均匀分布。我们提供详细的误差分析,以检测三个系统的优势和劣势。该分析受两个测试集的特征的限制。我们的模型在两个数据集上均评分了双语评估研究(BLEU)。在SPC测试集中,我们获得了0.607的BLEU分数,而最佳商业系统的BLEU得分为0.509。在我们的私人测试集中,我们获得了0.722的BLEU分数,最佳商业系统的BLEU得分为0.568。
translated by 谷歌翻译
With the advancements in deep learning (DL) and an increasing interest in data-driven speech processing methods, there is a major challenge in accessing pathological speech data. Public challenge data offers a potential remedy for this but may expose patient health information by re-identification attacks. Therefore, we investigate in this study whether or not pathological speech is more vulnerable to such re-identification than healthy speech. Our study is the first large-scale investigation on the effects of different speech pathology on automatic speaker verification (ASV) using a real-world pathological speech corpus of more than 2,000 test subjects with various speech and voice disorders from different ages. Utilizing a DL-based ASV method, we obtained a mean equal error rate (EER) of 0.89% with a standard deviation of 0.06%, which is a factor of three lower than comparable healthy speech databases. We further perform detailed analyses of external influencing factors on ASV such as age, pathology, recording environment, utterance length, and intelligibility, to explore their respective effect. Our experiments indicate that some types of speech pathology, in particular dysphonia, regardless of speech intelligibility, are more vulnerable to a breach of privacy compared to healthy speech. We also observe that the effect of pathology lies in the range of other factors, such as age, microphone, and recording environment.
translated by 谷歌翻译
本文报告了基准数据驱动的自动共鸣手势生成的第二个基因挑战。参与的团队使用相同的语音和运动数据集来构建手势生成系统。所有这些系统生成的运动都使用标准化的可视化管道将视频渲染到视频中,并在几个大型众包用户研究中进行了评估。与比较不同的研究论文不同,结果差异仅是由于方法之间的差异,从而实现了系统之间的直接比较。今年的数据集基于18个小时的全身运动捕获,包括手指,参与二元对话的不同人。十个团队参加了两层挑战:全身和上身手势。对于每个层,我们都评估了手势运动的人类风格及其对特定语音信号的适当性。我们的评估使人类的忠诚度与手势适当性解脱,这是该领域的主要挑战。评估结果是一场革命和启示。某些合成条件被评为比人类运动捕获更明显的人类样。据我们所知,这从未在高保真的头像上展示过。另一方面,发现所有合成运动比原始运动捕获记录要小得多。其他材料可通过项目网站https://youngwoo-yoon.github.io/geneachallenge2022/获得
translated by 谷歌翻译
夫妻通常在一起管理慢性疾病,管理层对患者及其浪漫伴侣造成了情感上的伤害。因此,认识到日常生活中每个伴侣的情绪可以提供对他们在慢性疾病管理中的情感健康的见解。当前,评估每个伴侣的情绪的过程是手动,时间密集和昂贵的。尽管夫妻之间存在着关于情感识别的作品,但这些作品都没有使用夫妻在日常生活中的互动中收集的数据。在这项工作中,我们收集了85小时(1,021个5分钟样本)现实世界多模式智能手表传感器数据(语音,心率,加速度计和陀螺仪)和自我报告的情绪数据(n = 612)(13个伙伴)(13)夫妻)在日常生活中管理2型糖尿病。我们提取了生理,运动,声学和语言特征,以及训练有素的机器学习模型(支持向量机和随机森林),以识别每个伴侣的自我报告的情绪(价和唤醒)。我们最佳模型的结果比偶然的结果更好,唤醒和价值分别为63.8%和78.1%。这项工作有助于建立自动情绪识别系统,最终使伙伴能够监视他们在日常生活中的情绪,并能够提供干预措施以改善其情感幸福感。
translated by 谷歌翻译
爆发两年多后,Covid-19的大流行继续困扰世界各地的医疗系统,给稀缺资源带来压力,并夺走了人类的生命。从一开始,已经采用了各种基于AI的CoVID-19检测和监测工具,以试图通过及时诊断来阻止感染的潮流。特别是,已经建议计算机试听是一种非侵入性,成本效益和环保的替代方法,可通过声音通过声音来检测COVID-19的感染。但是,像所有AI方法一样,计算机试镜也很大程度上取决于可用数据的数量和质量,并且由于此类数据的敏感性,大规模的COVID-19声音数据集很难获取 - 除其他原因外。为此,我们介绍了COVYT数据集 - 一种新颖的Covid-19数据集,该数据集是从包含来自65位演讲者的8个小时以上语音的公共资源中收集的。与其他现有的COVID-19声音数据集相比,COVYT数据集的独特功能是,它包括所有65位扬声器的covid-19正和负样本。我们使用可解释的音频描述来分析Covid-19的声学表现,并使用可解释的音频描述,并研究几种分类场景,并调查一些分类场景,以将基于公平的言语的COVID进行适当的分配策略-19检测。
translated by 谷歌翻译
我们研究了精神病学临床领域中脑唤醒的调节改变了面部行为的统计特性。潜在的机制与对某些心理状态的行为替代测量的警惕性连续体的经验解释有关。我们以基于经典的头皮的审视传感器(OEG)的意义命名了所提出的测量,该传感器光电脑摄影(OEG)仅依赖于现代基于摄像机的实时信号处理和计算机视觉。基于随机表示作为面部动力学的连贯性,反映了情绪表达中的半径不对称性,我们证明了患者与健康对照之间几乎没有完美的区别,以及精神疾病抑郁症和精神分裂症和症状的严重性。与标准诊断过程相反,该过程耗时,主观,不包含神经生物学数据,例如实时面部动力学,情感响应能力的客观随机建模仅需要几分钟的基于视频的面部录制。我们还强调了该方法作为因果推断模型在转诊分析中的潜力,以预测药理治疗的结果。所有结果均在临床纵向数据收集中获得,其中有100名患者和50例对照。
translated by 谷歌翻译
Personal assistants, automatic speech recognizers and dialogue understanding systems are becoming more critical in our interconnected digital world. A clear example is air traffic control (ATC) communications. ATC aims at guiding aircraft and controlling the airspace in a safe and optimal manner. These voice-based dialogues are carried between an air traffic controller (ATCO) and pilots via very-high frequency radio channels. In order to incorporate these novel technologies into ATC (low-resource domain), large-scale annotated datasets are required to develop the data-driven AI systems. Two examples are automatic speech recognition (ASR) and natural language understanding (NLU). In this paper, we introduce the ATCO2 corpus, a dataset that aims at fostering research on the challenging ATC field, which has lagged behind due to lack of annotated data. The ATCO2 corpus covers 1) data collection and pre-processing, 2) pseudo-annotations of speech data, and 3) extraction of ATC-related named entities. The ATCO2 corpus is split into three subsets. 1) ATCO2-test-set corpus contains 4 hours of ATC speech with manual transcripts and a subset with gold annotations for named-entity recognition (callsign, command, value). 2) The ATCO2-PL-set corpus consists of 5281 hours of unlabeled ATC data enriched with automatic transcripts from an in-domain speech recognizer, contextual information, speaker turn information, signal-to-noise ratio estimate and English language detection score per sample. Both available for purchase through ELDA at http://catalog.elra.info/en-us/repository/browse/ELRA-S0484. 3) The ATCO2-test-set-1h corpus is a one-hour subset from the original test set corpus, that we are offering for free at https://www.atco2.org/data. We expect the ATCO2 corpus will foster research on robust ASR and NLU not only in the field of ATC communications but also in the general research community.
translated by 谷歌翻译