注意缺陷/多动症(ADHD)是一种神经发育障碍,高度流行,需要临床专家才能诊断。众所周知,个人的观察行为反映在眼睛运动中,直接与注意机制和高阶认知过程有关。因此,我们探讨了是否可以根据记录的眼动动作以及在免费观看任务中的视频刺激信息进行检测到多动症。为此,我们开发了一个基于端到端的深度学习序列模型%,该模型%使用眼动扫描路径,我们将其预先培训在相关任务上,该任务可获得更多数据。我们发现该方法实际上能够检测ADHD并胜过相关的基线。我们在消融研究中研究了输入特征的相关性。有趣的是,我们发现该模型的性能与视频内容密切相关,该视频为未来的实验设计提供了见解。
translated by 谷歌翻译
我们展示了一个新的数据集和基准,其目的是在大脑活动和眼球运动的交叉口中推进研究。我们的数据集EEGEYENET包括从三种不同实验范式中收集的356个不同受试者的同时脑电图(EEG)和眼睛跟踪(ET)录像。使用此数据集,我们还提出了一种评估EEG测量的凝视预测的基准。基准由三个任务组成,难度越来越高:左右,角度幅度和绝对位置。我们在该基准测试中运行大量实验,以便根据经典机器学习模型和大型神经网络提供实心基线。我们释放了我们的完整代码和数据,并提供了一种简单且易于使用的界面来评估新方法。
translated by 谷歌翻译
早期发现焦虑症对于减少精神障碍患者的苦难并改善治疗结果至关重要。基于MHealth平台的焦虑筛查在提高筛选效率和降低筛查成本方面具有特殊实用价值。实际上,受试者的身体和心理评估中移动设备的差异以及数据质量不均匀的问题和现实世界中数据的少量数据量使现有方法无效。因此,我们提出了一个基于时空特征融合的框架,用于非触发焦虑。为了降低数据质量不平衡的影响,我们构建了一个基于“ 3DCNN+LSTM”的特征提取网络,并融合了面部行为和非接触式生理学的时空特征。此外,我们设计了一种相似性评估策略,以解决较小的数据样本量导致模型准确性下降的问题。我们的框架已通过现实世界中的机组数据集进行了验证,并且两个公共数据集UBFC-Phys和Swell-KW。实验结果表明,我们框架的总体性能要比最新的比较方法更好。
translated by 谷歌翻译
眼目光信息的收集为人类认知,健康和行为的许多关键方面提供了一个窗口。此外,许多神经科学研究补充了从眼睛跟踪中获得的行为信息,以及脑电图(EEG)提供的高时间分辨率和神经生理学标记。必不可少的眼睛跟踪软件处理步骤之一是将连续数据流的分割为与扫视,固定和眨眼等眼睛跟踪应用程序相关的事件。在这里,我们介绍了Detrtime,这是一个新颖的时间序列分割框架,该框架创建了不需要额外记录的眼睛跟踪模式并仅依靠脑电图数据的眼部事件检测器。我们的端到端基于深度学习的框架将计算机视觉的最新进展带到了脑电图数据的《时代》系列分割的最前沿。 Detr Time在各种眼睛追踪实验范式上实现眼部事件检测中的最新性能。除此之外,我们还提供了证据表明我们的模型在脑电图阶段分割的任务中很好地概括了。
translated by 谷歌翻译
Eye movements are known to reflect cognitive processes in reading, and psychological reading research has shown that eye gaze patterns differ between readers with and without dyslexia. In recent years, researchers have attempted to classify readers with dyslexia based on their eye movements using Support Vector Machines (SVMs). However, these approaches (i) are based on highly aggregated features averaged over all words read by a participant, thus disregarding the sequential nature of the eye movements, and (ii) do not consider the linguistic stimulus and its interaction with the reader's eye movements. In the present work, we propose two simple sequence models that process eye movements on the entire stimulus without the need of aggregating features across the sentence. Additionally, we incorporate the linguistic stimulus into the model in two ways -- contextualized word embeddings and manually extracted linguistic features. The models are evaluated on a Mandarin Chinese dataset containing eye movements from children with and without dyslexia. Our results show that (i) even for a logographic script such as Chinese, sequence models are able to classify dyslexia on eye gaze sequences, reaching state-of-the-art performance, and (ii) incorporating the linguistic stimulus does not help to improve classification performance.
translated by 谷歌翻译
骨科疾病在马匹中常见,通常导致安乐死,这通常可以通过早期的检测来避免。这些条件通常会产生不同程度的微妙长期疼痛。培训视觉疼痛识别方法具有描绘这种疼痛的视频数据是挑战性的,因为所产生的疼痛行为也是微妙的,稀疏出现,变得不同,使得甚至是专家兰德尔的挑战,为数据提供准确的地面真实性。我们表明,一款专业培训的模型,仅涉及急性实验疼痛的马匹(标签不那么暧昧)可以帮助识别更微妙的骨科疼痛显示。此外,我们提出了一个问题的人类专家基线,以及对各种领域转移方法的广泛实证研究以及由疼痛识别方法检测到矫形数据集的清洁实验疼痛中的疼痛识别方法检测到的内容。最后,这伴随着围绕现实世界动物行为数据集所带来的挑战以及如何为类似的细粒度行动识别任务建立最佳实践的讨论。我们的代码可在https://github.com/sofiabroome/painface-recognition获得。
translated by 谷歌翻译
在急诊室(ER)环境中,中风分类或筛查是一个普遍的挑战。由于MRI的慢速吞吐量和高成本,通常会进行快速CT而不是MRI。在此过程中通常提到临床测试,但误诊率仍然很高。我们提出了一个新型的多模式深度学习框架,深沉的中风,以通过识别较小的面部肌肉不协调的模式来实现计算机辅助中风的存在评估,并使怀疑急性环境中的中风的患者无能为力。我们提出的深雷克斯(Deepstroke)在中风分流器中容易获得一分钟的面部视频数据和音频数据,用于局部面部瘫痪检测和全球语音障碍分析。采用了转移学习来减少面部侵蚀偏见并提高普遍性。我们利用多模式的横向融合来结合低水平和高级特征,并为关节训练提供相互正则化。引入了新型的对抗训练以获得无身份和中风的特征。与实际急诊室患者进行的视频ADIO数据集进行的实验表明,与分类团队和ER医生相比,中风的表现要优于最先进的模型,并且取得更好的性能,比传统的敏感性高出10.94%,高7.37%的精度高出7.37%。当特异性对齐时,中风分类。同时,每个评估都可以在不到六分钟的时间内完成,这表明该框架的临床翻译潜力很大。
translated by 谷歌翻译
呼吸声分类中的问题已在去年的临床科学家和医学研究员团体中获得了良好的关注,以诊断Covid-19疾病。迄今为止,各种模型的人工智能(AI)进入了现实世界,从人类生成的声音等人生成的声音中检测了Covid-19疾病,例如语音/言语,咳嗽和呼吸。实现卷积神经网络(CNN)模型,用于解决基于人工智能(AI)的机器上的许多真实世界问题。在这种情况下,建议并实施一个维度(1D)CNN,以诊断Covid-19的呼吸系统疾病,例如语音,咳嗽和呼吸。应用基于增强的机制来改善Covid-19声音数据集的预处理性能,并使用1D卷积网络自动化Covid-19疾病诊断。此外,使用DDAE(数据去噪自动编码器)技术来产生诸如输入功能的深声特征,而不是采用MFCC(MEL频率跳跃系数)的标准输入,并且它更好地执行比以前的型号的准确性和性能。
translated by 谷歌翻译
The International Workshop on Reading Music Systems (WoRMS) is a workshop that tries to connect researchers who develop systems for reading music, such as in the field of Optical Music Recognition, with other researchers and practitioners that could benefit from such systems, like librarians or musicologists. The relevant topics of interest for the workshop include, but are not limited to: Music reading systems; Optical music recognition; Datasets and performance evaluation; Image processing on music scores; Writer identification; Authoring, editing, storing and presentation systems for music scores; Multi-modal systems; Novel input-methods for music to produce written music; Web-based Music Information Retrieval services; Applications and projects; Use-cases related to written music. These are the proceedings of the 3rd International Workshop on Reading Music Systems, held in Alicante on the 23rd of July 2021.
translated by 谷歌翻译
创伤后应激障碍(PTSD)是一种长期衰弱的精神状况,是针对灾难性生活事件(例如军事战斗,性侵犯和自然灾害)而发展的。 PTSD的特征是过去的创伤事件,侵入性思想,噩梦,过度维护和睡眠障碍的闪回,所有这些都会影响一个人的生活,并导致相当大的社会,职业和人际关系障碍。 PTSD的诊断是由医学专业人员使用精神障碍诊断和统计手册(DSM)中定义的PTSD症状的自我评估问卷进行的。在本文中,这是我们第一次收集,注释并为公共发行准备了一个新的视频数据库,用于自动PTSD诊断,在野生数据集中称为PTSD。该数据库在采集条件下表现出“自然”和巨大的差异,面部表达,照明,聚焦,分辨率,年龄,性别,种族,遮挡和背景。除了描述数据集集合的详细信息外,我们还提供了评估野生数据集中PTSD的基于计算机视觉和机器学习方法的基准。此外,我们建议并评估基于深度学习的PTSD检测方法。提出的方法显示出非常有希望的结果。有兴趣的研究人员可以从:http://www.lissi.fr/ptsd-dataset/下载PTSD-in-wild数据集的副本
translated by 谷歌翻译
意识检测技术一直在各种企业中获得牵引力;最常用于驾驶员疲劳检测,最近的研究已经转向使用计算机视觉技术来分析在线教室等环境中的用户注意。本文旨在通过分析预测意识和疲劳的最大贡献,扩展了以前的分支检测研究。我们利用开源面部分析工具包OpenFace,以分析不同程度的注意力水平的受试者的视觉数据。然后,使用支持向量机(SVM),我们创建了几种用于用户注意的预测模型,并识别导向渐变(HOG)和动作单位的直方图,是我们测试的功能的最大预测因子。我们还将这种SVM的性能与利用卷积和/或经常性神经网络(CNN和CRNN)的性能进行了比较了这种SVM的性能。有趣的是,CRNN似乎没有比他们的CNN同行更好地表现出来。虽然深入学习方法实现了更大的预测精度,但使用较少的资源,使用某些参数来利用SVMS,能够逼近深度学习方法的性能。
translated by 谷歌翻译
如今,人工智能(AI)已成为临床和远程医疗保健应用程序的基本组成部分,但是最佳性能的AI系统通常太复杂了,无法自我解释。可解释的AI(XAI)技术被定义为揭示系统的预测和决策背后的推理,并且在处理敏感和个人健康数据时,它们变得更加至关重要。值得注意的是,XAI并未在不同的研究领域和数据类型中引起相同的关注,尤其是在医疗保健领域。特别是,许多临床和远程健康应用程序分别基于表格和时间序列数据,而XAI并未在这些数据类型上进行分析,而计算机视觉和自然语言处理(NLP)是参考应用程序。为了提供最适合医疗领域表格和时间序列数据的XAI方法的概述,本文提供了过去5年中文献的审查,说明了生成的解释的类型以及为评估其相关性所提供的努力和质量。具体而言,我们确定临床验证,一致性评估,客观和标准化质量评估以及以人为本的质量评估作为确保最终用户有效解释的关键特征。最后,我们强调了该领域的主要研究挑战以及现有XAI方法的局限性。
translated by 谷歌翻译
苏黎世认知语言处理语料库(Zuco)提供了来自两种读取范例,正常读取和特定任务读数的眼跟踪和脑电图信号。我们分析了机器学习方法是否能够使用眼睛跟踪和EEG功能对这两个任务进行分类。我们使用聚合的句子级别功能以及细粒度的单词级别来实现模型。我们在主题内和交叉对象评估方案中测试模型。所有模型都在Zuco 1.0和Zuco 2.0数据子集上进行测试,其特征在于不同的记录程序,因此允许不同的概括水平。最后,我们提供了一系列的控制实验,以更详细地分析结果。
translated by 谷歌翻译
多代理行为建模旨在了解代理之间发生的交互。我们从行为神经科学,Caltech鼠标社交交互(CALMS21)数据集中提供了一个多代理数据集。我们的数据集由社交交互的轨迹数据组成,从标准居民入侵者测定中自由行为小鼠的视频记录。为了帮助加速行为研究,CALMS21数据集提供基准,以评估三种设置中自动行为分类方法的性能:(1)用于培训由单个注释器的所有注释,(2)用于风格转移以进行学习互动在特定有限培训数据的新行为学习的行为定义和(3)的注释差异。 DataSet由600万个未标记的追踪姿势的交互小鼠组成,以及超过100万帧,具有跟踪的姿势和相应的帧级行为注释。我们的数据集的挑战是能够使用标记和未标记的跟踪数据准确地对行为进行分类,以及能够概括新设置。
translated by 谷歌翻译
口吃是一种言语障碍,在此期间,语音流被非自愿停顿和声音重复打断。口吃识别是一个有趣的跨学科研究问题,涉及病理学,心理学,声学和信号处理,使检测很难且复杂。机器和深度学习的最新发展已经彻底彻底改变了语音领域,但是对口吃的识别受到了最小的关注。这项工作通过试图将研究人员从跨学科领域聚集在一起来填补空白。在本文中,我们回顾了全面的声学特征,基于统计和深度学习的口吃/不足分类方法。我们还提出了一些挑战和未来的指示。
translated by 谷歌翻译
虚拟现实(VR)视频(通常以360美元$^\ Circ $视频形式)由于VR技术的快速开发以及消费级360 $^\ Circ $摄像机和显示器的显着普及而引起了人们的关注。因此,了解人们如何看待用户生成的VR视频,这些视频可能会受到混乱的真实扭曲,通常是在时空和时间上局部的。在本文中,我们建立了最大的360美元$^\ Circ $视频数据库之一,其中包含502个用户生成的视频,内容丰富和失真多样性。我们捕获了139位用户的观看行为(即扫描路径),并在四个不同的观看条件下(两个起点$ \ times $ $ $ $ $两个探索时间)收集了他们的意见分数。我们对记录的数据提供了详尽的统计分析,从而产生了一些有趣的观察结果,例如观看条件对观看行为和感知质量的重大影响。此外,我们还探讨了我们的数据和分析的其他用法,包括评估360 $^\ CIRC $视频的质量评估和显着性检测的计算模型。我们已经在https://github.com/yao-yiru/vr-video-database上提供了数据集和代码。
translated by 谷歌翻译
Current learning machines have successfully solved hard application problems, reaching high accuracy and displaying seemingly "intelligent" behavior. Here we apply recent techniques for explaining decisions of state-of-the-art learning machines and analyze various tasks from computer vision and arcade games. This showcases a spectrum of problem-solving behaviors ranging from naive and short-sighted, to wellinformed and strategic. We observe that standard performance evaluation metrics can be oblivious to distinguishing these diverse problem solving behaviors. Furthermore, we propose our semi-automated Spectral Relevance Analysis that provides a practically effective way of characterizing and validating the behavior of nonlinear learning machines. This helps to assess whether a learned model indeed delivers reliably for the problem that it was conceived for. Furthermore, our work intends to add a voice of caution to the ongoing excitement about machine intelligence and pledges to evaluate and judge some of these recent successes in a more nuanced manner.
translated by 谷歌翻译
阅读理解是一个复杂的认知过程,涉及许多人类大脑活动。大量作品研究了在信息检索相关方案中阅读理解的模式和注意力分配。但是,关于阅读理解过程中人脑中发生的事情以及这些认知活动如何影响信息检索过程,知之甚少。此外,随着脑成像技术(例如脑电图(EEG))的进步,几乎可以实时收集大脑信号,并探索是否可以用作反馈来促进信息获取性能。在本文中,我们仔细设计了一项基于实验室的用户研究,以调查阅读理解过程中的大脑活动。我们的发现表明,神经反应随着不同类型的阅读内容而变化,即可以满足用户信息需求和无法无法满足的内容的内容。我们建议在阅读理解过程中以微观时间量表以微观时间量表来支持各种认知活动,例如认知负载,语义主题理解和推论处理。从这些发现中,我们说明了一些有关信息检索任务的见解,例如排名模型构建和界面设计。此外,我们建议有可能检测主动现实世界系统的阅读理解状态。为此,我们为基于脑电图的阅读理解建模(UERCM)提出了一个统一的框架。为了验证其有效性,我们基于脑电图特征进行了大量的实验,以进行两项阅读理解任务:回答句子分类和回答提取。结果表明,通过大脑信号提高两个任务的性能是可行的。
translated by 谷歌翻译
众所周知,学习障碍主要干扰阅读,写作和数学等基本学习技能,会影响世界上约10%的儿童。作为神经发育障碍的一部分的运动技能和运动协调不足可能成为学习写作困难(障碍)的原因因素,从而阻碍了个人的学术轨道。障碍症的体征和症状包括但不限于不规则的笔迹,不正确的写作媒介处理,缓慢或劳力的写作,不寻常的手部位等。所有类型的学习障碍的评估标准是由医学医学进行的检查专家。少数可用的人工智能筛查系统用于障碍症,依赖于相应图像中手写的独特特征。这项工作对文献中儿童的现有自动化障碍诊断系统进行了综述。这项工作的主要重点是审查基于人工智能的儿童诊断的基于人工智能的系统。这项工作讨论了数据收集方法,重要的手写功能,用于诊断障碍症的文献中使用的机器学习算法。除此之外,本文还讨论了一些基于非人工智能的自动化系统。此外,本文讨论了现有系统的缺点,并提出了一个新颖的障碍诊断框架。
translated by 谷歌翻译
自闭症谱系障碍(ASD)是一种神经发育障碍,导致发生改变的行为,社会发展和通信模式。在过去几年中,自闭症患病率增加了两倍,现在有1分中有1个现在受到影响。鉴于传统诊断是一种冗长,劳动密集型的过程,已经对自动筛选自闭症的发展系统来说,已经提出了重大关注。韵律异常是自闭症的最明显的迹象,受影响的儿童展示言语特质,包括梯度,单调的语调,非典型音高和不规则语言压力模式。在这项工作中,我们展示了一套机器学习方法,以检测自闭症和神经典型(NT)儿童在家庭环境中捕获的自闭症语音音频中的自闭症。我们考虑了三种方法来检测儿童的自闭症语言:首先,在提取的音频特征(包括熔融频率跳跃系数)上培训的随机森林;二,卷积神经网络(CNNS)培训谱图;第三,微调Wav2Vec 2.0 - 基于最先进的基于变压器的ASR模型。我们在从斯坦福的猜测中培训我们的小说Todaset的小说数据集的分类器?移动游戏,一个应用程序,旨在在自然家庭环境中占有自闭症和神经典型的儿童的视频。随机森林分类器实现了70%的精度,微调Wav2Vec 2.0型号达到了77%的精度,CNN在将儿童的音频视为ASD或NT时,CNN可实现79%的准确性。我们的模型能够在具有不一致的录制质量选择的家庭音频剪辑上培训时预测自闭症状态,这可能更广泛地对现实世界的条件。这些结果表明,机器学习方法提供了在没有专门设备的语音中自动检测自闭症的承诺。
translated by 谷歌翻译