眼目光信息的收集为人类认知,健康和行为的许多关键方面提供了一个窗口。此外,许多神经科学研究补充了从眼睛跟踪中获得的行为信息,以及脑电图(EEG)提供的高时间分辨率和神经生理学标记。必不可少的眼睛跟踪软件处理步骤之一是将连续数据流的分割为与扫视,固定和眨眼等眼睛跟踪应用程序相关的事件。在这里,我们介绍了Detrtime,这是一个新颖的时间序列分割框架,该框架创建了不需要额外记录的眼睛跟踪模式并仅依靠脑电图数据的眼部事件检测器。我们的端到端基于深度学习的框架将计算机视觉的最新进展带到了脑电图数据的《时代》系列分割的最前沿。 Detr Time在各种眼睛追踪实验范式上实现眼部事件检测中的最新性能。除此之外,我们还提供了证据表明我们的模型在脑电图阶段分割的任务中很好地概括了。
translated by 谷歌翻译
我们展示了一个新的数据集和基准,其目的是在大脑活动和眼球运动的交叉口中推进研究。我们的数据集EEGEYENET包括从三种不同实验范式中收集的356个不同受试者的同时脑电图(EEG)和眼睛跟踪(ET)录像。使用此数据集,我们还提出了一种评估EEG测量的凝视预测的基准。基准由三个任务组成,难度越来越高:左右,角度幅度和绝对位置。我们在该基准测试中运行大量实验,以便根据经典机器学习模型和大型神经网络提供实心基线。我们释放了我们的完整代码和数据,并提供了一种简单且易于使用的界面来评估新方法。
translated by 谷歌翻译
The International Workshop on Reading Music Systems (WoRMS) is a workshop that tries to connect researchers who develop systems for reading music, such as in the field of Optical Music Recognition, with other researchers and practitioners that could benefit from such systems, like librarians or musicologists. The relevant topics of interest for the workshop include, but are not limited to: Music reading systems; Optical music recognition; Datasets and performance evaluation; Image processing on music scores; Writer identification; Authoring, editing, storing and presentation systems for music scores; Multi-modal systems; Novel input-methods for music to produce written music; Web-based Music Information Retrieval services; Applications and projects; Use-cases related to written music. These are the proceedings of the 3rd International Workshop on Reading Music Systems, held in Alicante on the 23rd of July 2021.
translated by 谷歌翻译
苏黎世认知语言处理语料库(Zuco)提供了来自两种读取范例,正常读取和特定任务读数的眼跟踪和脑电图信号。我们分析了机器学习方法是否能够使用眼睛跟踪和EEG功能对这两个任务进行分类。我们使用聚合的句子级别功能以及细粒度的单词级别来实现模型。我们在主题内和交叉对象评估方案中测试模型。所有模型都在Zuco 1.0和Zuco 2.0数据子集上进行测试,其特征在于不同的记录程序,因此允许不同的概括水平。最后,我们提供了一系列的控制实验,以更详细地分析结果。
translated by 谷歌翻译
组织学图像中核和腺体的实例分割是用于癌症诊断,治疗计划和生存分析的计算病理学工作流程中的重要一步。随着现代硬件的出现,大规模质量公共数据集的最新可用性以及社区组织的宏伟挑战已经看到了自动化方法的激增,重点是特定领域的挑战,这对于技术进步和临床翻译至关重要。在这项调查中,深入分析了过去五年(2017-2022)中发表的原子核和腺体实例细分的126篇论文,进行了深入分析,讨论了当前方法的局限性和公开挑战。此外,提出了潜在的未来研究方向,并总结了最先进方法的贡献。此外,还提供了有关公开可用数据集的概括摘要以及关于说明每种挑战的最佳性能方法的巨大挑战的详细见解。此外,我们旨在使读者现有研究的现状和指针在未来的发展方向上开发可用于临床实践的方法,从而可以改善诊断,分级,预后和癌症的治疗计划。据我们所知,以前没有工作回顾了朝向这一方向的组织学图像中的实例细分。
translated by 谷歌翻译
Image segmentation is a key topic in image processing and computer vision with applications such as scene understanding, medical image analysis, robotic perception, video surveillance, augmented reality, and image compression, among many others. Various algorithms for image segmentation have been developed in the literature. Recently, due to the success of deep learning models in a wide range of vision applications, there has been a substantial amount of works aimed at developing image segmentation approaches using deep learning models. In this survey, we provide a comprehensive review of the literature at the time of this writing, covering a broad spectrum of pioneering works for semantic and instance-level segmentation, including fully convolutional pixel-labeling networks, encoder-decoder architectures, multi-scale and pyramid based approaches, recurrent networks, visual attention models, and generative models in adversarial settings. We investigate the similarity, strengths and challenges of these deep learning models, examine the most widely used datasets, report performances, and discuss promising future research directions in this area.
translated by 谷歌翻译
X-ray imaging technology has been used for decades in clinical tasks to reveal the internal condition of different organs, and in recent years, it has become more common in other areas such as industry, security, and geography. The recent development of computer vision and machine learning techniques has also made it easier to automatically process X-ray images and several machine learning-based object (anomaly) detection, classification, and segmentation methods have been recently employed in X-ray image analysis. Due to the high potential of deep learning in related image processing applications, it has been used in most of the studies. This survey reviews the recent research on using computer vision and machine learning for X-ray analysis in industrial production and security applications and covers the applications, techniques, evaluation metrics, datasets, and performance comparison of those techniques on publicly available datasets. We also highlight some drawbacks in the published research and give recommendations for future research in computer vision-based X-ray analysis.
translated by 谷歌翻译
Seizure type identification is essential for the treatment and management of epileptic patients. However, it is a difficult process known to be time consuming and labor intensive. Automated diagnosis systems, with the advancement of machine learning algorithms, have the potential to accelerate the classification process, alert patients, and support physicians in making quick and accurate decisions. In this paper, we present a novel multi-path seizure-type classification deep learning network (MP-SeizNet), consisting of a convolutional neural network (CNN) and a bidirectional long short-term memory neural network (Bi-LSTM) with an attention mechanism. The objective of this study was to classify specific types of seizures, including complex partial, simple partial, absence, tonic, and tonic-clonic seizures, using only electroencephalogram (EEG) data. The EEG data is fed to our proposed model in two different representations. The CNN was fed with wavelet-based features extracted from the EEG signals, while the Bi-LSTM was fed with raw EEG signals to let our MP-SeizNet jointly learns from different representations of seizure data for more accurate information learning. The proposed MP-SeizNet was evaluated using the largest available EEG epilepsy database, the Temple University Hospital EEG Seizure Corpus, TUSZ v1.5.2. We evaluated our proposed model across different patient data using three-fold cross-validation and across seizure data using five-fold cross-validation, achieving F1 scores of 87.6% and 98.1%, respectively.
translated by 谷歌翻译
前所未有的访问多时间卫星图像,为各种地球观察任务开辟了新的视角。其中,农业包裹的像素精确的Panoptic分割具有重大的经济和环境影响。虽然研究人员对单张图像进行了探索了这个问题,但我们争辩说,随着图像的时间序列更好地寻址作物候选的复杂时间模式。在本文中,我们介绍了卫星图像时间序列(坐着)的Panoptic分割的第一端到端,单级方法(坐姿)。该模块可以与我们的新型图像序列编码网络相结合,依赖于时间自我关注,以提取丰富和自适应的多尺度时空特征。我们还介绍了Pastis,第一个开放式访问坐在Panoptic注释的数据集。我们展示了对多个竞争架构的语义细分的编码器的优越性,并建立了坐在的第一封Panoptic细分状态。我们的实施和痛苦是公开的。
translated by 谷歌翻译
目的:脑电图(EEG)和肌电图(EMG)是两个非侵入性的生物信号,它们在人类机器界面(HMI)技术(EEG-HMI和EMG-HMI范式)中广泛用于康复,用于康复的物理残疾人。将脑电图和EMG信号成功解码为各自的控制命令是康复过程中的关键步骤。最近,提出了几个基于卷积的神经网络(CNN)架构,它们直接将原始的时间序列信号映射到决策空间中,并同时执行有意义的特征提取和分类的过程。但是,这些网络是根据学习给定生物信号的预期特征量身定制的,并且仅限于单个范式。在这项工作中,我们解决了一个问题,即我们可以构建一个单个体系结构,该架构能够从不同的HMI范式中学习不同的功能并仍然成功地对其进行分类。方法:在这项工作中,我们引入了一个称为Controanet的单个混合模型,该模型基于CNN和Transformer架构,该模型对EEG-HMI和EMG-HMI范式同样有用。 Contranet使用CNN块在模型中引入电感偏置并学习局部依赖性,而变压器块则使用自我注意机制来学习信号中的长距离依赖性,这对于EEG和EMG信号的分类至关重要。主要结果:我们在三个属于EEG-HMI和EMG-HMI范式的公开数据集上评估并比较了Contronet与最先进的方法。 Contranet在所有不同类别任务(2级,3类,4级和10级解码任务)中的表现优于其对应。意义:结果表明,与当前的最新算法状态相比,从不同的HMI范式中学习不同的特征并概述了矛盾。
translated by 谷歌翻译
自动睡眠评分对于诊断和治疗睡眠障碍至关重要,并在家庭环境中实现纵向睡眠跟踪。通常,对单渠道脑电图(EEG)进行基于学习的自动睡眠评分是积极研究的,因为困难在睡眠过程中获得多通道信号。但是,由于以下问题,来自原始脑电图信号的学习表示形式挑战:1)与睡眠相关的脑电图模式发生在不同的时间和频率尺度上,2)睡眠阶段共享相似的脑电图模式。为了解决这些问题,我们提出了一个名为Sleepyco的深度学习框架,该框架结合了1)功能金字塔和2)自动睡眠评分的监督对比度学习。对于特征金字塔,我们提出了一个名为sleepyco-backbone的骨干网络,以考虑在不同的时间和频率尺度上的多个特征序列。监督的对比学习允许网络通过最大程度地降低类内部特征之间的距离并同时最大程度地提高阶层间特征之间的距离来提取类别特征。对四个公共数据集的比较分析表明,Sleepyco始终优于基于单渠道EEG的现有框架。广泛的消融实验表明,Sleepyco表现出增强的总体表现,N1和快速眼运动(REM)阶段之间的歧视有了显着改善。
translated by 谷歌翻译
分析脑电图时,神经科医生经常在寻找各种“感兴趣的事件”。为了在这项任务中支持他们,已经开发了各种基于机器学习的算法。这些算法中的大多数将问题视为分类,从而独立处理信号段并忽略了持续时间事件固有的时间依赖性。在推理时,必须在处理后进行处理以检测实际事件。我们提出了一种基于深度学习的端到端事件检测方法(EventNet),该方法直接与事件一起作为学习目标,从临时的后处理方案逐渐消失,以将模型输出转化为事件。我们将EventNet与用于人工制品和癫痫发作检测的最新方法进行了比较,这两种事件类型具有高度可变的持续时间。 EventNet在检测两种事件类型方面显示出改进的性能。这些结果表明,将事件视为直接学习目标的力量,而不是使用临时后处理来获取它们。我们的事件检测框架可以轻松地扩展到信号处理中的其他事件检测问题,因为深度学习骨干链不取决于任何特定于任务的功能。
translated by 谷歌翻译
海洋生态系统及其鱼类栖息地越来越重要,因为它们在提供有价值的食物来源和保护效果方面的重要作用。由于它们的偏僻且难以接近自然,因此通常使用水下摄像头对海洋环境和鱼类栖息地进行监测。这些相机产生了大量数字数据,这些数据无法通过当前的手动处理方法有效地分析,这些方法涉及人类观察者。 DL是一种尖端的AI技术,在分析视觉数据时表现出了前所未有的性能。尽管它应用于无数领域,但仍在探索其在水下鱼类栖息地监测中的使用。在本文中,我们提供了一个涵盖DL的关键概念的教程,该教程可帮助读者了解对DL的工作原理的高级理解。该教程还解释了一个逐步的程序,讲述了如何为诸如水下鱼类监测等挑战性应用开发DL算法。此外,我们还提供了针对鱼类栖息地监测的关键深度学习技术的全面调查,包括分类,计数,定位和细分。此外,我们对水下鱼类数据集进行了公开调查,并比较水下鱼类监测域中的各种DL技术。我们还讨论了鱼类栖息地加工深度学习的新兴领域的一些挑战和机遇。本文是为了作为希望掌握对DL的高级了解,通过遵循我们的分步教程而为其应用开发的海洋科学家的教程,并了解如何发展其研究,以促进他们的研究。努力。同时,它适用于希望调查基于DL的最先进方法的计算机科学家,以进行鱼类栖息地监测。
translated by 谷歌翻译
我们提出了一种新的四管齐下的方法,在文献中首次建立消防员的情境意识。我们构建了一系列深度学习框架,彼此之叠,以提高消防员在紧急首次响应设置中进行的救援任务的安全性,效率和成功完成。首先,我们使用深度卷积神经网络(CNN)系统,以实时地分类和识别来自热图像的感兴趣对象。接下来,我们将此CNN框架扩展了对象检测,跟踪,分割与掩码RCNN框架,以及具有多模级自然语言处理(NLP)框架的场景描述。第三,我们建立了一个深入的Q学习的代理,免受压力引起的迷失方向和焦虑,能够根据现场消防环境中观察和存储的事实来制定明确的导航决策。最后,我们使用了一种低计算无监督的学习技术,称为张量分解,在实时对异常检测进行有意义的特征提取。通过这些临时深度学习结构,我们建立了人工智能系统的骨干,用于消防员的情境意识。要将设计的系统带入消防员的使用,我们设计了一种物理结构,其中处理后的结果被用作创建增强现实的投入,这是一个能够建议他们所在地的消防员和周围的关键特征,这对救援操作至关重要在手头,以及路径规划功能,充当虚拟指南,以帮助迷彩的第一个响应者恢复安全。当组合时,这四种方法呈现了一种新颖的信息理解,转移和综合方法,这可能会大大提高消防员响应和功效,并降低寿命损失。
translated by 谷歌翻译
我们分享了我们最近的发现,以试图培训通用分割网络的各种细胞类型和成像方式。我们的方法建立在广义的U-NET体系结构上,该体系结构允许单独评估每个组件。我们修改了传统的二进制培训目标,以包括三个类以进行直接实例细分。进行了有关培训方案,培训设置,网络骨架和各个模块的详细实验。我们提出的培训方案依次从每个数据集中吸取小匹配,并且在优化步骤之前积累了梯度。我们发现,培训通用网络的关键是所有数据集上的历史监督,并且有必要以公正的方式对每个数据集进行采样。我们的实验还表明,可能存在共同的特征来定义细胞类型和成像方式的细胞边界,这可以允许应用训练有素的模型完全看不见的数据集。一些培训技巧可以进一步提高细分性能,包括交叉渗透损失功能中的班级权重,精心设计的学习率调度程序,较大的图像作物以进行上下文信息以及不平衡类别的其他损失条款。我们还发现,由于它们更可靠的统计估计和更高的语义理解,分割性能可以受益于组规范化层和缺陷的空间金字塔池模块。我们参与了在IEEE国际生物医学成像研讨会(ISBI)2021举行的第六个细胞跟踪挑战(CTC)。我们的方法被评估为在主要曲目的初始提交期间,作为最佳亚军,并在额外的竞争中获得了第三名,以准备摘要出版物。
translated by 谷歌翻译
注意缺陷/多动症(ADHD)是一种神经发育障碍,高度流行,需要临床专家才能诊断。众所周知,个人的观察行为反映在眼睛运动中,直接与注意机制和高阶认知过程有关。因此,我们探讨了是否可以根据记录的眼动动作以及在免费观看任务中的视频刺激信息进行检测到多动症。为此,我们开发了一个基于端到端的深度学习序列模型%,该模型%使用眼动扫描路径,我们将其预先培训在相关任务上,该任务可获得更多数据。我们发现该方法实际上能够检测ADHD并胜过相关的基线。我们在消融研究中研究了输入特征的相关性。有趣的是,我们发现该模型的性能与视频内容密切相关,该视频为未来的实验设计提供了见解。
translated by 谷歌翻译
speed among all existing VIS models, and achieves the best result among methods using single model on the YouTube-VIS dataset. For the first time, we demonstrate a much simpler and faster video instance segmentation framework built upon Transformers, achieving competitive accuracy. We hope that VisTR can motivate future research for more video understanding tasks.
translated by 谷歌翻译
睡眠是一种基本的生理过程,对于维持健康的身心至关重要。临床睡眠监测的黄金标准是多核桃摄影(PSG),基于哪个睡眠可以分为五个阶段,包括尾脉冲睡眠(REM睡眠)/非REM睡眠1(N1)/非REM睡眠2 (n2)/非REM睡眠3(n3)。然而,PSG昂贵,繁重,不适合日常使用。对于长期睡眠监测,无处不在的感测可以是解决方案。最近,心脏和运动感测在分类三阶段睡眠方面变得流行,因为两种方式都可以从研究级或消费者级设备中获得(例如,Apple Watch)。但是,为最大准确性融合数据的最佳仍然是一个打开的问题。在这项工作中,我们综合地研究了深度学习(DL)的高级融合技术,包括三种融合策略,三个融合方法以及三级睡眠分类,基于两个公共数据集。实验结果表明,通过融合心脏/运动传感方式可以可靠地分类三阶段睡眠,这可能成为在睡眠中进行大规模睡眠阶段评估研究或长期自动跟踪的实用工具。为了加快普遍存在/可穿戴计算社区的睡眠研究的进展,我们制作了该项目开源,可以在:https://github.com/bzhai/ubi-sleepnet找到代码。
translated by 谷歌翻译
深神网络的对象探测器正在不断发展,并用于多种应用程序,每个应用程序都有自己的要求集。尽管关键安全应用需要高准确性和可靠性,但低延迟任务需要资源和节能网络。不断提出了实时探测器,在高影响现实世界中是必需的,但是它们过分强调了准确性和速度的提高,而其他功能(例如多功能性,鲁棒性,资源和能源效率)则被省略。现有网络的参考基准不存在,设计新网络的标准评估指南也不存在,从而导致比较模棱两可和不一致的比较。因此,我们对广泛的数据集进行了多个实时探测器(基于锚点,关键器和变压器)的全面研究,并报告了一系列广泛指标的结果。我们还研究了变量,例如图像大小,锚固尺寸,置信阈值和架构层对整体性能的影响。我们分析了检测网络的鲁棒性,以防止分配变化,自然腐败和对抗性攻击。此外,我们提供了校准分析来评估预测的可靠性。最后,为了强调现实世界的影响,我们对自动驾驶和医疗保健应用进行了两个独特的案例研究。为了进一步衡量关键实时应用程序中网络的能力,我们报告了在Edge设备上部署检测网络后的性能。我们广泛的实证研究可以作为工业界对现有网络做出明智选择的指南。我们还希望激发研究社区的设计和评估网络的新方向,该网络着重于更大而整体的概述,以实现深远的影响。
translated by 谷歌翻译
准确的睡眠阶段分类对于睡眠健康评估很重要。近年来,已经开发了几种基于深度学习和机器学习的睡眠阶段算法,并且在人类注释方面取得了表现。尽管性能提高,但最深入学习算法的局限性是其黑盒行为,它限制了它们在临床环境中的使用。在这里,我们提出了跨模式变压器,这是一种基于变压器的睡眠阶段分类的方法。我们的模型通过最先进的方法实现了竞争性能,并通过利用注意模块的可解释性方面消除了深度学习模型的黑盒行为。提出的跨模式变压器由一种新型的跨模式变压器编码器结构以及多尺度的一维卷积神经网络组成,用于自动表示学习。基于此设计的我们的睡眠阶段分类器能够以与最先进的方法相同或更好地达到睡眠阶段分类性能,以及可解释性,参数数量减少了四倍,并且比较培训时间减少了。到当前的最新。我们的代码可从https://github.com/jathurshan0330/cross-modal-transformer获得。
translated by 谷歌翻译