睡眠是一种基本的生理过程,对于维持健康的身心至关重要。临床睡眠监测的黄金标准是多核桃摄影(PSG),基于哪个睡眠可以分为五个阶段,包括尾脉冲睡眠(REM睡眠)/非REM睡眠1(N1)/非REM睡眠2 (n2)/非REM睡眠3(n3)。然而,PSG昂贵,繁重,不适合日常使用。对于长期睡眠监测,无处不在的感测可以是解决方案。最近,心脏和运动感测在分类三阶段睡眠方面变得流行,因为两种方式都可以从研究级或消费者级设备中获得(例如,Apple Watch)。但是,为最大准确性融合数据的最佳仍然是一个打开的问题。在这项工作中,我们综合地研究了深度学习(DL)的高级融合技术,包括三种融合策略,三个融合方法以及三级睡眠分类,基于两个公共数据集。实验结果表明,通过融合心脏/运动传感方式可以可靠地分类三阶段睡眠,这可能成为在睡眠中进行大规模睡眠阶段评估研究或长期自动跟踪的实用工具。为了加快普遍存在/可穿戴计算社区的睡眠研究的进展,我们制作了该项目开源,可以在:https://github.com/bzhai/ubi-sleepnet找到代码。
translated by 谷歌翻译
如今,人工智能(AI)已成为临床和远程医疗保健应用程序的基本组成部分,但是最佳性能的AI系统通常太复杂了,无法自我解释。可解释的AI(XAI)技术被定义为揭示系统的预测和决策背后的推理,并且在处理敏感和个人健康数据时,它们变得更加至关重要。值得注意的是,XAI并未在不同的研究领域和数据类型中引起相同的关注,尤其是在医疗保健领域。特别是,许多临床和远程健康应用程序分别基于表格和时间序列数据,而XAI并未在这些数据类型上进行分析,而计算机视觉和自然语言处理(NLP)是参考应用程序。为了提供最适合医疗领域表格和时间序列数据的XAI方法的概述,本文提供了过去5年中文献的审查,说明了生成的解释的类型以及为评估其相关性所提供的努力和质量。具体而言,我们确定临床验证,一致性评估,客观和标准化质量评估以及以人为本的质量评估作为确保最终用户有效解释的关键特征。最后,我们强调了该领域的主要研究挑战以及现有XAI方法的局限性。
translated by 谷歌翻译
早期发现焦虑症对于减少精神障碍患者的苦难并改善治疗结果至关重要。基于MHealth平台的焦虑筛查在提高筛选效率和降低筛查成本方面具有特殊实用价值。实际上,受试者的身体和心理评估中移动设备的差异以及数据质量不均匀的问题和现实世界中数据的少量数据量使现有方法无效。因此,我们提出了一个基于时空特征融合的框架,用于非触发焦虑。为了降低数据质量不平衡的影响,我们构建了一个基于“ 3DCNN+LSTM”的特征提取网络,并融合了面部行为和非接触式生理学的时空特征。此外,我们设计了一种相似性评估策略,以解决较小的数据样本量导致模型准确性下降的问题。我们的框架已通过现实世界中的机组数据集进行了验证,并且两个公共数据集UBFC-Phys和Swell-KW。实验结果表明,我们框架的总体性能要比最新的比较方法更好。
translated by 谷歌翻译
信号处理是几乎任何传感器系统的基本组件,具有不同科学学科的广泛应用。时间序列数据,图像和视频序列包括可以增强和分析信息提取和量化的代表性形式的信号。人工智能和机器学习的最近进步正在转向智能,数据驱动,信号处理的研究。该路线图呈现了最先进的方法和应用程序的关键概述,旨在突出未来的挑战和对下一代测量系统的研究机会。它涵盖了广泛的主题,从基础到工业研究,以简明的主题部分组织,反映了每个研究领域的当前和未来发展的趋势和影响。此外,它为研究人员和资助机构提供了识别新前景的指导。
translated by 谷歌翻译
近年来,深度学习显示了广泛区域的潜力和效率,包括计算机视觉,图像和信号处理。然而,由于缺乏算法决策和结果的解释性,用户应用程序仍然存在转化挑战。这个黑匣子问题对于高风险应用程序(例如与医疗相关的决策制定)尤其有问题。当前的研究目标是设计一个可解释的深度学习系统,用于对脑电图的时间序列分类(EEG)进行睡眠阶段评分,以此作为设计透明系统的一步。我们已经开发了一个可解释的深神经网络,该网络包括基于内核的层,该层是基于人类专家在视觉分析记录的视觉分析中用于睡眠评分的一组原理。将基于内核的卷积层定义并用作系统的第一层,并可用于用户解释。训练有素的系统及其结果从脑电图信号的微观结构(例如训练的内核)以及每个内核对检测到的阶段的效果,宏观结构(例如阶段之间的过渡)中解释了四个级别。拟议的系统表现出比先前的研究更大的性能,而解释的结果表明,该系统学习了与专家知识一致的信息。
translated by 谷歌翻译
社交媒体网络已成为人们生活的重要方面,它是其思想,观点和情感的平台。因此,自动化情绪分析(SA)对于以其他信息来源无法识别人们的感受至关重要。对这些感觉的分析揭示了各种应用,包括品牌评估,YouTube电影评论和医疗保健应用。随着社交媒体的不断发展,人们以不同形式发布大量信息,包括文本,照片,音频和视频。因此,传统的SA算法已变得有限,因为它们不考虑其他方式的表现力。通过包括来自各种物质来源的此类特征,这些多模式数据流提供了新的机会,以优化基于文本的SA之外的预期结果。我们的研究重点是多模式SA的最前沿领域,该领域研究了社交媒体网络上发布的视觉和文本数据。许多人更有可能利用这些信息在这些平台上表达自己。为了作为这个快速增长的领域的学者资源,我们介绍了文本和视觉SA的全面概述,包括数据预处理,功能提取技术,情感基准数据集以及适合每个字段的多重分类方法的疗效。我们还简要介绍了最常用的数据融合策略,并提供了有关Visual Textual SA的现有研究的摘要。最后,我们重点介绍了最重大的挑战,并调查了一些重要的情感应用程序。
translated by 谷歌翻译
我们提出了跨模式的细心连接,这是一种从可穿戴数据中学习的新型动态和有效技术。我们的解决方案可以集成到管道的任何阶段,即在任何卷积层或块之后,以在负责处理每种模式的单个流之间创建中间连接。此外,我们的方法受益于两个属性。首先,它可以单向共享信息(从一种方式到另一种方式)或双向分别。其次,可以同时将其集成到多个阶段中,以进一步允许以几个接触点交换网络梯度。我们对三个公共多模式可穿戴数据集(Wesad,Swell-KW和案例)进行了广泛的实验,并证明我们的方法可以有效地调节不同模式之间的信息,以学习更好的表示。我们的实验进一步表明,一旦整合到基于CNN的多模式溶液(2、3或4模态)中,我们的方法就会导致卓越或竞争性的性能,而不是最先进的表现,并且表现优于各种基线模式和经典的多模式方法。
translated by 谷歌翻译
我们提出了一种新的四管齐下的方法,在文献中首次建立消防员的情境意识。我们构建了一系列深度学习框架,彼此之叠,以提高消防员在紧急首次响应设置中进行的救援任务的安全性,效率和成功完成。首先,我们使用深度卷积神经网络(CNN)系统,以实时地分类和识别来自热图像的感兴趣对象。接下来,我们将此CNN框架扩展了对象检测,跟踪,分割与掩码RCNN框架,以及具有多模级自然语言处理(NLP)框架的场景描述。第三,我们建立了一个深入的Q学习的代理,免受压力引起的迷失方向和焦虑,能够根据现场消防环境中观察和存储的事实来制定明确的导航决策。最后,我们使用了一种低计算无监督的学习技术,称为张量分解,在实时对异常检测进行有意义的特征提取。通过这些临时深度学习结构,我们建立了人工智能系统的骨干,用于消防员的情境意识。要将设计的系统带入消防员的使用,我们设计了一种物理结构,其中处理后的结果被用作创建增强现实的投入,这是一个能够建议他们所在地的消防员和周围的关键特征,这对救援操作至关重要在手头,以及路径规划功能,充当虚拟指南,以帮助迷彩的第一个响应者恢复安全。当组合时,这四种方法呈现了一种新颖的信息理解,转移和综合方法,这可能会大大提高消防员响应和功效,并降低寿命损失。
translated by 谷歌翻译
使用诸如嵌入惯性测量单元(IMU)传感器的可穿戴设备(如智能手表)的人类活动识别(Har)具有与我们日常生活相关的各种应用,例如锻炼跟踪和健康监控。在本文中,我们使用在不同身体位置佩戴的多个IMU传感器提出了一种基于人类活动识别的新颖性方法。首先,设计传感器设计特征提取模块以提取具有卷积神经网络(CNNS)的各个传感器的最辨别特征。其次,开发了一种基于注意的融合机制,以了解不同车身位置处的传感器的重要性,并产生细节特征表示。最后,应用传感器间特征提取模块来学习与分类器连接的传感器间相关性以输出预测的活动。所提出的方法是使用五个公共数据集进行评估,并且在各种活动类别上优于最先进的方法。
translated by 谷歌翻译
Seizure type identification is essential for the treatment and management of epileptic patients. However, it is a difficult process known to be time consuming and labor intensive. Automated diagnosis systems, with the advancement of machine learning algorithms, have the potential to accelerate the classification process, alert patients, and support physicians in making quick and accurate decisions. In this paper, we present a novel multi-path seizure-type classification deep learning network (MP-SeizNet), consisting of a convolutional neural network (CNN) and a bidirectional long short-term memory neural network (Bi-LSTM) with an attention mechanism. The objective of this study was to classify specific types of seizures, including complex partial, simple partial, absence, tonic, and tonic-clonic seizures, using only electroencephalogram (EEG) data. The EEG data is fed to our proposed model in two different representations. The CNN was fed with wavelet-based features extracted from the EEG signals, while the Bi-LSTM was fed with raw EEG signals to let our MP-SeizNet jointly learns from different representations of seizure data for more accurate information learning. The proposed MP-SeizNet was evaluated using the largest available EEG epilepsy database, the Temple University Hospital EEG Seizure Corpus, TUSZ v1.5.2. We evaluated our proposed model across different patient data using three-fold cross-validation and across seizure data using five-fold cross-validation, achieving F1 scores of 87.6% and 98.1%, respectively.
translated by 谷歌翻译
自动睡眠评分对于诊断和治疗睡眠障碍至关重要,并在家庭环境中实现纵向睡眠跟踪。通常,对单渠道脑电图(EEG)进行基于学习的自动睡眠评分是积极研究的,因为困难在睡眠过程中获得多通道信号。但是,由于以下问题,来自原始脑电图信号的学习表示形式挑战:1)与睡眠相关的脑电图模式发生在不同的时间和频率尺度上,2)睡眠阶段共享相似的脑电图模式。为了解决这些问题,我们提出了一个名为Sleepyco的深度学习框架,该框架结合了1)功能金字塔和2)自动睡眠评分的监督对比度学习。对于特征金字塔,我们提出了一个名为sleepyco-backbone的骨干网络,以考虑在不同的时间和频率尺度上的多个特征序列。监督的对比学习允许网络通过最大程度地降低类内部特征之间的距离并同时最大程度地提高阶层间特征之间的距离来提取类别特征。对四个公共数据集的比较分析表明,Sleepyco始终优于基于单渠道EEG的现有框架。广泛的消融实验表明,Sleepyco表现出增强的总体表现,N1和快速眼运动(REM)阶段之间的歧视有了显着改善。
translated by 谷歌翻译
本文提出了一个新颖的框架,以根据权威的睡眠医学指导自动捕获人睡眠的脑电图(EEG)信号的时间频率。该框架由两个部分组成:第一部分通过将输入EEG频谱图将其划分为一系列时频贴片来提取信息特征。第二部分是由基于注意力的体系结构有效地搜索分配的时频贴片和并行睡眠阶段定义因素之间的相关性构成的。拟议的管道在Sleep Heart Health研究数据集上进行了验证,其阶段唤醒,N2和N3的新最新结果获得了相应的F1分数为0.93、0.88和0.87,仅使用EEG信号。该提出的方法还具有高评分者间可靠性为0.80 kappa。我们还可以看到睡眠分期决策与提出方法提取的特征之间的对应关系,为我们的模型提供了强大的解释性。
translated by 谷歌翻译
基于电动机图像(MI)的脑电脑界面(BCIS)允许通过解码神经生理现象来控制几种应用,这些现象通常通过使用非侵入性技术被脑电图(EEG)记录。尽管在基于MI的BCI的进展方面很大,但脑电图有特定于受试者和各种变化随时间。这些问题指出了提高分类绩效的重大挑战,特别是在独立的方式。为了克服这些挑战,我们提出了Min2Net,这是一个新的端到端多任务学习来解决这项任务。我们将深度度量学习集成到多任务AutoEncoder中,以从脑电图中学习紧凑且识别的潜在表示,并同时执行分类。这种方法降低了预处理的复杂性,导致EEG分类的显着性能改善。实验结果以本语独立的方式表明,MIN2Net优于最先进的技术,在SMR-BCI和OpenBMI数据集中分别实现了6.72%的F1分数提高,以及2.23%。我们证明MIN2NET在潜在代表中提高了歧视信息。本研究表明使用此模型的可能性和实用性为新用户开发基于MI的BCI应用,而无需校准。
translated by 谷歌翻译
在情感计算领域的基于生理信号的情感识别,已经支付了相当大的关注。对于可靠性和用户友好的采集,电卸电子活动(EDA)在实际应用中具有很大的优势。然而,基于EDA的情感识别与数百个科目仍然缺乏有效的解决方案。在本文中,我们的工作试图融合主题的各个EDA功能和外部诱发的音乐功能。我们提出了端到端的多模式框架,1维剩余时间和通道注意网络(RTCAN-1D)。对于EDA特征,基于新型的基于凸优化的EDA(CVXEDA)方法被应用于将EDA信号分解为PAHSIC和TONC信号,以进行动态和稳定的功能。首先涉及基于EDA的情感识别的渠道时间关注机制,以改善时间和渠道明智的表示。对于音乐功能,我们将音乐信号与开源工具包opensmile处理,以获取外部特征向量。来自EDA信号和来自音乐的外部情绪基准的个体情感特征在分类层中融合。我们对三个多模式数据集(PMEMO,DEAP,AMIGOS)进行了系统的比较,适用于2级薪酬/唤醒情感识别。我们提出的RTCAN-1D优于现有的最先进的模型,这也验证了我们的工作为大规模情感认可提供了可靠和有效的解决方案。我们的代码已在https://github.com/guanghaoyin/rtcan-1发布。
translated by 谷歌翻译
深度学习属于人工智能领域,机器执行通常需要某种人类智能的任务。类似于大脑的基本结构,深度学习算法包括一种人工神经网络,其类似于生物脑结构。利用他们的感官模仿人类的学习过程,深入学习网络被送入(感官)数据,如文本,图像,视频或声音。这些网络在不同的任务中优于最先进的方法,因此,整个领域在过去几年中看到了指数增长。这种增长在过去几年中每年超过10,000多种出版物。例如,只有在医疗领域中的所有出版物中覆盖的搜索引擎只能在Q3 2020中覆盖所有出版物的子集,用于搜索术语“深度学习”,其中大约90%来自过去三年。因此,对深度学习领域的完全概述已经不可能在不久的将来获得,并且在不久的将来可能会难以获得难以获得子场的概要。但是,有几个关于深度学习的综述文章,这些文章专注于特定的科学领域或应用程序,例如计算机愿景的深度学习进步或在物体检测等特定任务中进行。随着这些调查作为基础,这一贡献的目的是提供对不同科学学科的深度学习的第一个高级,分类的元调查。根据底层数据来源(图像,语言,医疗,混合)选择了类别(计算机愿景,语言处理,医疗信息和其他工程)。此外,我们还审查了每个子类别的常见架构,方法,专业,利弊,评估,挑战和未来方向。
translated by 谷歌翻译
Wearable sensor-based human activity recognition (HAR) has emerged as a principal research area and is utilized in a variety of applications. Recently, deep learning-based methods have achieved significant improvement in the HAR field with the development of human-computer interaction applications. However, they are limited to operating in a local neighborhood in the process of a standard convolution neural network, and correlations between different sensors on body positions are ignored. In addition, they still face significant challenging problems with performance degradation due to large gaps in the distribution of training and test data, and behavioral differences between subjects. In this work, we propose a novel Transformer-based Adversarial learning framework for human activity recognition using wearable sensors via Self-KnowledgE Distillation (TASKED), that accounts for individual sensor orientations and spatial and temporal features. The proposed method is capable of learning cross-domain embedding feature representations from multiple subjects datasets using adversarial learning and the maximum mean discrepancy (MMD) regularization to align the data distribution over multiple domains. In the proposed method, we adopt the teacher-free self-knowledge distillation to improve the stability of the training procedure and the performance of human activity recognition. Experimental results show that TASKED not only outperforms state-of-the-art methods on the four real-world public HAR datasets (alone or combined) but also improves the subject generalization effectively.
translated by 谷歌翻译
对医疗保健监控的远程工具的需求从未如此明显。摄像机测量生命体征利用成像装置通过分析人体的图像来计算生理变化。建立光学,机器学习,计算机视觉和医学的进步这些技术以来的数码相机的发明以来已经显着进展。本文介绍了对生理生命体征的相机测量综合调查,描述了它们可以测量的重要标志和实现所做的计算技术。我涵盖了临床和非临床应用以及这些应用需要克服的挑战,以便从概念上推进。最后,我描述了对研究社区可用的当前资源(数据集和代码),并提供了一个全面的网页(https://cameravitals.github.io/),其中包含这些资源的链接以及其中引用的所有文件的分类列表文章。
translated by 谷歌翻译
Fruit is a key crop in worldwide agriculture feeding millions of people. The standard supply chain of fruit products involves quality checks to guarantee freshness, taste, and, most of all, safety. An important factor that determines fruit quality is its stage of ripening. This is usually manually classified by experts in the field, which makes it a labor-intensive and error-prone process. Thus, there is an arising need for automation in the process of fruit ripeness classification. Many automatic methods have been proposed that employ a variety of feature descriptors for the food item to be graded. Machine learning and deep learning techniques dominate the top-performing methods. Furthermore, deep learning can operate on raw data and thus relieve the users from having to compute complex engineered features, which are often crop-specific. In this survey, we review the latest methods proposed in the literature to automatize fruit ripeness classification, highlighting the most common feature descriptors they operate on.
translated by 谷歌翻译
移动设备上的人类活动识别(HAR)已证明可以通过从用户的惯性测量单元(IMU)生成的数据中学到的轻量级神经模型来实现。基于Instanced HAR的大多数方法都使用卷积神经网络(CNN),长期记忆(LSTMS)或两者组合以实现实时性能来实现最新结果。最近,在语言处理域中,然后在视觉域中的变形金刚体系结构进一步推动了对古典体系结构的最先进。但是,这种变形金刚在计算资源中是重量级的,它不适合在Pervasive Computing域中找到HAR的嵌入式应用程序。在这项研究中,我们提出了人类活动识别变压器(HART),这是一种轻巧的,传感器的变压器结构,已专门适用于嵌入移动设备上的IMU的域。我们对HAR任务的实验具有几个公开可用的数据集,表明HART使用较少的每秒浮点操作(FLOPS)和参数,同时超过了当前的最新结果。此外,我们在各种体系结构中对它们在异质环境中的性能进行了评估,并表明我们的模型可以更好地推广到不同的感应设备或体内位置。
translated by 谷歌翻译
呼吸率(RR)是重要的生物标志物,因为RR变化可以反映严重的医学事件,例如心脏病,肺部疾病和睡眠障碍。但是,不幸的是,标准手动RR计数容易出现人为错误,不能连续执行。这项研究提出了一种连续估计RR,RRWAVENET的方法。该方法是一种紧凑的端到端深度学习模型,不需要特征工程,可以将低成本的原始光摄影学(PPG)用作输入信号。对RRWAVENET进行了独立于主题的测试,并与三个数据集(BIDMC,Capnobase和Wesad)中的基线进行了比较,并使用三个窗口尺寸(16、32和64秒)进行了比较。 RRWAVENET优于最佳窗口大小为1.66 \ pm 1.01、1.59 \ pm 1.08的最佳绝对错误的最新方法,每个数据集每分钟每分钟呼吸0.96。在远程监视设置(例如在WESAD数据集中),我们将传输学习应用于其他两个ICU数据集,将MAE降低到1.52 \ pm每分钟0.50呼吸,显示此模型可以准确且实用的RR对负担得起的可穿戴设备进行准确估算。我们的研究表明,在远程医疗和家里,远程RR监测的可行性。
translated by 谷歌翻译