学习时空特征是有效的视频理解的重要任务,尤其是在超声心动图等医学图像中。卷积神经网络(CNN)和最新的视觉变压器(VIT)是最常用的方法,每个方法都有局限性。 CNN擅长捕获本地环境,但无法在视频帧中学习全局信息。另一方面,视觉变压器可以结合全球细节和长序列,但在计算上却很昂贵,通常需要更多的数据进行训练。在本文中,我们提出了一种方法,该方法可以解决我们通常在医学视频数据(例如超声心动图扫描)培训时面临的局限性。我们提出的算法(echocotr)利用视觉变压器和CNN的强度来解决超声视频上估算左心室射血分数(LVEF)的问题。我们演示了所提出的方法在Echonet-Dynamic数据集上的表现如何以3.95和$ r^2 $为0.82。与所有已发表的研究相比,这些结果显示出明显的改善。此外,我们与包括VIT和BERT在内的多种算法显示了广泛的消融和比较。该代码可在https://github.com/biomedia-mbzuai/echocotr上找到。
translated by 谷歌翻译
超声心动图参数的准确和一致的预测对于心血管诊断和治疗至关重要。特别是,左心室的分割可用于得出心室体积,射血分数(EF)和其他相关测量值。在本文中,我们提出了一种新的自动化方法,称为地位谱图,用于通过检测解剖关键来预测射血分数和分割左心室。基于图形卷积网络(GCN)的直接坐标回归模型用于检测关键点。 GCN可以学会根据每个关键点的局部外观以及所有关键点的全局空间和时间结构来表示心脏形状。我们在echonet基准数据集上评估了我们的电子位计模型。与语义分割相比,GCN显示出准确的分割和鲁棒性和推理运行时的改进。 EF是同时计算的与分割的,我们的方法还获得了最新的射血分数估计。源代码可在线获得:https://github.com/guybenyosef/echographs。
translated by 谷歌翻译
由于视频帧之间的庞大本地冗余和复杂的全局依赖性,这是一种具有挑战性的任务。该研究的最近进步主要由3D卷积神经网络和视觉变压器推动。虽然3D卷积可以有效地聚合本地上下文来抑制来自小3D邻域的本地冗余,但由于接收领域有限,它缺乏捕获全局依赖性的能力。或者,视觉变压器可以通过自我关注机制有效地捕获远程依赖性,同时具有在每层中所有令牌之间的盲目相似性比较来降低本地冗余的限制。基于这些观察,我们提出了一种新颖的统一变压器(统一机),其以简洁的变压器格式无缝地整合3D卷积和时空自我关注的优点,并在计算和准确性之间实现了优选的平衡。与传统的变形金刚不同,我们的关系聚合器可以通过在浅层和深层中学习本地和全球令牌亲和力来解决时空冗余和依赖性。我们对流行的视频基准进行了广泛的实验,例如动力学-400,动力学-600,以及某种东西 - 某种东西 - 某种东西 - 某种东西 - 某种东西。只有ImageNet-1K预磨料,我们的统一器在动力学-400 /动力学-600上实现了82.9%/ 84.8%的前1个精度,同时需要比其他最先进的方法更少的gflops。对于某些东西而言,我们的制服分别实现了新的最先进的表演,分别实现了60.9%和71.2%的前1个精度。代码可在https://github.com/sense-x/uniformer获得。
translated by 谷歌翻译
射血分数(EF)是心脏功能的关键指标,可以鉴定患有心脏失败等心脏功能障碍的患者。通过手动追踪左心室并估算其在某些帧上的体积,可以从被称为超声心动图(ECHO)的心脏超声视频估计。由于手动过程和视频质量的变化,这些估计表现出很高的观察者间变异性。这种不准确的来源和对快速评估的需求需要可靠且可解释的机器学习技术。在这项工作中,我们介绍了基于图神经网络(GNN)的模型Echognn,以从Echo视频中估算EF。我们的模型首先从一个或多个Echo Cine系列的框架中输入潜在的回声图。然后,它估计了该图的节点和边缘的权重,表明各个框架的重要性有助于EF估计。 GNN回归器使用此加权图来预测EF。我们在定性和定量上表明,学到的图形权重通过识别临界帧进行EF估计提供了解释性,可用于确定何时需要人类干预。在Echonet-Dynamic公共EF数据集上,ECHOGNN实现了与最新状态相当的EF预测性能,并提供了解释性,鉴于此任务中固有的高观察者可变异性至关重要。
translated by 谷歌翻译
Left-ventricular ejection fraction (LVEF) is an important indicator of heart failure. Existing methods for LVEF estimation from video require large amounts of annotated data to achieve high performance, e.g. using 10,030 labeled echocardiogram videos to achieve mean absolute error (MAE) of 4.10. Labeling these videos is time-consuming however and limits potential downstream applications to other heart diseases. This paper presents the first semi-supervised approach for LVEF prediction. Unlike general video prediction tasks, LVEF prediction is specifically related to changes in the left ventricle (LV) in echocardiogram videos. By incorporating knowledge learned from predicting LV segmentations into LVEF regression, we can provide additional context to the model for better predictions. To this end, we propose a novel Cyclical Self-Supervision (CSS) method for learning video-based LV segmentation, which is motivated by the observation that the heartbeat is a cyclical process with temporal repetition. Prediction masks from our segmentation model can then be used as additional input for LVEF regression to provide spatial context for the LV region. We also introduce teacher-student distillation to distill the information from LV segmentation masks into an end-to-end LVEF regression model that only requires video inputs. Results show our method outperforms alternative semi-supervised methods and can achieve MAE of 4.17, which is competitive with state-of-the-art supervised performance, using half the number of labels. Validation on an external dataset also shows improved generalization ability from using our method. Our code is available at https://github.com/xmed-lab/CSS-SemiVideo.
translated by 谷歌翻译
视频识别是由端到端学习范式主导的 - 首先初始化具有预审预周化图像模型的视频识别模型,然后对视频进行端到端培训。这使视频网络能够受益于验证的图像模型。但是,这需要大量的计算和内存资源,以便在视频上进行填充以及直接使用预审计的图像功能的替代方案,而无需填充图像骨架会导致结果不足。幸运的是,在对比视力语言预训练(剪辑)方面的最新进展为视觉识别任务的新途径铺平了道路。这些模型在大型开放式图像文本对数据上进行了预测,以丰富的语义学习强大的视觉表示。在本文中,我们介绍了有效的视频学习(EVL) - 一种有效的框架,用于直接训练具有冷冻剪辑功能的高质量视频识别模型。具体来说,我们采用轻型变压器解码器并学习查询令牌,从剪辑图像编码器中动态收集帧级空间特征。此外,我们在每个解码器层中采用局部时间模块,以发现相邻帧及其注意力图的时间线索。我们表明,尽管有效地使用冷冻的骨干训练,但我们的模型在各种视频识别数据集上学习了高质量的视频表示。代码可在https://github.com/opengvlab/feld-video-rencognition上找到。
translated by 谷歌翻译
作为新一代神经体系结构的变形金刚在自然语言处理和计算机视觉方面表现出色。但是,现有的视觉变形金刚努力使用有限的医学数据学习,并且无法概括各种医学图像任务。为了应对这些挑战,我们将Medformer作为数据量表变压器呈现为可推广的医学图像分割。关键设计结合了理想的电感偏差,线性复杂性的层次建模以及以空间和语义全局方式以线性复杂性的关注以及多尺度特征融合。 Medformer可以在不预训练的情况下学习微小至大规模的数据。广泛的实验表明,Medformer作为一般分割主链的潜力,在三个具有多种模式(例如CT和MRI)和多样化的医学靶标(例如,健康器官,疾病,疾病组织和肿瘤)的三个公共数据集上优于CNN和视觉变压器。我们将模型和评估管道公开可用,为促进广泛的下游临床应用提供固体基线和无偏比较。
translated by 谷歌翻译
从电影心脏磁共振(CMR)成像中恢复心脏的3D运动可以评估区域心肌功能,对于理解和分析心血管疾病很重要。但是,3D心脏运动估计是具有挑战性的,因为获得的Cine CMR图像通常是2D切片,它限制了对整个平面运动的准确估计。为了解决这个问题,我们提出了一个新颖的多视图运动估计网络(Mulvimotion),该网络集成了以短轴和长轴平面获取的2D Cine CMR图像,以学习心脏的一致性3D运动场。在提出的方法中,构建了一个混合2D/3D网络,以通过从多视图图像中学习融合表示形式来生成密集的3D运动场。为了确保运动估计在3D中保持一致,在训练过程中引入了形状正则化模块,其中利用了来自多视图图像的形状信息,以提供3D运动估计的弱监督。我们对来自英国生物银行研究的580名受试者的2D Cine CMR图像进行了广泛评估,用于左心室心肌的3D运动跟踪。实验结果表明,该方法在定量和定性上优于竞争方法。
translated by 谷歌翻译
We present a simple approach which can turn a ViT encoder into an efficient video model, which can seamlessly work with both image and video inputs. By sparsely sampling the inputs, the model is able to do training and inference from both inputs. The model is easily scalable and can be adapted to large-scale pre-trained ViTs without requiring full finetuning. The model achieves SOTA results and the code will be open-sourced.
translated by 谷歌翻译
左心室(LV)功能是心脏病患者的患者管理,结局和长期存活方面的重要因素。最近发表的心力衰竭临床指南认识到,仅依赖一种心脏功能(LV射血分数)作为诊断和治疗分层生物标志物的依赖是次优。基于AI的超声心动图分析的最新进展已在LV体积和LV射血分数的自动估计上显示出良好的结果。但是,从随时间变化的2D超声心动图摄取,可以通过从完整的心脏周期中估算功能性生物标志物来获得对心脏功能的更丰富的描述。在这项工作中,我们首次提出了一种基于全心脏周期分割的2D超声心动图的AI方法,用于从2D超声心动图中得出高级生物标志物。这些生物标志物将允许临床医生获得健康和疾病中心脏的丰富图片。 AI模型基于“ NN-UNET”框架,并使用四个不同的数据库进行了训练和测试。结果表明,手动分析和自动分析之间的一致性很高,并展示了晚期收缩期和舒张期生物标志物在患者分层中的潜力。最后,对于50例病例的子集,我们在超声心动图和CMR的临床生物标志物之间进行了相关分析,我们在两种方式之间表现出了极好的一致性。
translated by 谷歌翻译
视频变压器在主要视频识别基准上取得了令人印象深刻的结果,但它们遭受了高计算成本。在本文中,我们呈现Stts,一个令牌选择框架,动态地在输入视频样本上调节的时间和空间尺寸的几个信息令牌。具体而言,我们将令牌选择作为一个排名问题,估计每个令牌通过轻量级选择网络的重要性,并且只有顶级分数的人将用于下游评估。在时间维度中,我们将最相关的帧保持对识别作用类别的帧,而在空间维度中,我们确定特征映射中最辨别的区域,而不会影响大多数视频变换器中以分层方式使用的空间上下文。由于令牌选择的决定是不可差异的,因此我们采用了一个扰动最大的可分辨率Top-K运算符,用于最终培训。我们对动力学-400进行广泛的实验,最近推出的视频变压器骨架MVIT。我们的框架实现了类似的结果,同时需要计算20%。我们还表明我们的方法与其他变压器架构兼容。
translated by 谷歌翻译
We present a convolution-free approach to video classification built exclusively on self-attention over space and time. Our method, named "TimeSformer," adapts the standard Transformer architecture to video by enabling spatiotemporal feature learning directly from a sequence of framelevel patches. Our experimental study compares different self-attention schemes and suggests that "divided attention," where temporal attention and spatial attention are separately applied within each block, leads to the best video classification accuracy among the design choices considered. Despite the radically new design, TimeSformer achieves state-of-the-art results on several action recognition benchmarks, including the best reported accuracy on Kinetics-400 and Kinetics-600. Finally, compared to 3D convolutional networks, our model is faster to train, it can achieve dramatically higher test efficiency (at a small drop in accuracy), and it can also be applied to much longer video clips (over one minute long). Code and models are available at: https://github.com/ facebookresearch/TimeSformer.
translated by 谷歌翻译
被称为超声心动图的心脏成像是一种非侵入性工具,用于生成包括图像和视频的数据,心脏病专家用来诊断心脏异常,尤其是心肌梗死(MI)。超声心动图机可以提供大量数据,需要由心脏病专家快速分析,以帮助他们做出诊断和治疗心脏病。但是,获得的数据质量取决于购置条件以及患者对设置说明的响应能力。这些限制对医生的挑战尤其是当患者面对MI并且他们的生命受到威胁时。在本文中,我们提出了一种基于卷积神经网络(CNN)的创新实时端到端全自动模型,以根据由左心室(LV)的区域壁运动异常(RWMA)检测到MI,该模型是由左心室(LV)的视频中的。超声心动图。我们的模型是由2D CNN组成的管道实现Mi。我们在由165个超声心动图视频组成的数据集上培训了两个CNN,每个CNN从一个独特的患者中获得。 2D CNN在数据分割方面达到了97.18%的精度,而3D CNN获得了90.9%的精度,100%的精度和95%的召回率。我们的结果表明,创建一个完全自动化的MI检测系统是可行且有利的。
translated by 谷歌翻译
基于变压器的模型已在主要的视频识别基准上取得了最佳性能。与基于CNN的模型相比,这些模型受益于自我发项机制,显示出更强的建模长期依赖性能力。但是,大量的计算开销是由于自我注意力的二次复杂性在大量令牌之上,限制了现有的视频变压器在具有有限资源(例如移动设备)的应用程序中的使用。在本文中,我们将移动格式扩展到视频移动格式,该版本将视频体系结构分解为轻量级的3D-CNN,用于本地上下文建模,并以并行方式将变压器模块用于全局交互建模。为了避免通过计算视频中大量本地补丁之间的自我注意力而产生的重大计算成本,我们建议在变形金刚中使用很少的全球令牌(例如6)将整个视频中的整个视频用于与3D-CNN交换信息 - 注意机制。通过有效的全球时空建模,视频移动形式显着提高了替代轻型基线的视频识别性能,并且在各种视频识别任务上,低FLOP策略的其他有效CNN模型从500m到6G总鞋类胜过其他基于CNN的模型。值得注意的是,视频移动格式是第一个基于变压器的视频模型,它限制了1G失败范围内的计算预算。
translated by 谷歌翻译
视觉变压器正在成为解决计算机视觉问题的强大工具。最近的技术还证明了超出图像域之外的变压器来解决许多与视频相关的任务的功效。其中,由于其广泛的应用,人类的行动识别是从研究界受到特别关注。本文提供了对动作识别的视觉变压器技术的首次全面调查。我们朝着这个方向分析并总结了现有文献和新兴文献,同时突出了适应变形金刚以进行动作识别的流行趋势。由于其专业应用,我们将这些方法统称为``动作变压器''。我们的文献综述根据其架构,方式和预期目标为动作变压器提供了适当的分类法。在动作变压器的背景下,我们探讨了编码时空数据,降低维度降低,框架贴片和时空立方体构造以及各种表示方法的技术。我们还研究了变压器层中时空注意的优化,以处理更长的序列,通常通过减少单个注意操作中的令牌数量。此外,我们还研究了不同的网络学习策略,例如自我监督和零局学习,以及它们对基于变压器的行动识别的相关损失。这项调查还总结了在具有动作变压器重要基准的评估度量评分方面取得的进步。最后,它提供了有关该研究方向的挑战,前景和未来途径的讨论。
translated by 谷歌翻译
我们呈现了基于纯变压器的视频分类模型,在图像分类中最近的近期成功进行了借鉴。我们的模型从输入视频中提取了时空令牌,然后由一系列变压器层编码。为了处理视频中遇到的令牌的长序列,我们提出了我们模型的几种有效的变体,它们将输入的空间和时间维构建。虽然已知基于变换器的模型只有在可用的大型训练数据集时才有效,但我们展示了我们如何在训练期间有效地规范模型,并利用预先训练的图像模型能够在相对小的数据集上训练。我们进行彻底的消融研究,并在包括动力学400和600,史诗厨房,东西的多个视频分类基准上实现最先进的结果,其中 - 基于深度3D卷积网络的现有方法表现出优先的方法。为了促进进一步的研究,我们在https://github.com/google-research/scenic/tree/main/scenic/projects/vivit发布代码
translated by 谷歌翻译
动作检测的任务旨在在每个动作实例中同时推论动作类别和终点的本地化。尽管Vision Transformers推动了视频理解的最新进展,但由于在长时间的视频剪辑中,设计有效的架构以进行动作检测是不平凡的。为此,我们提出了一个有效的层次时空时空金字塔变压器(STPT)进行动作检测,这是基于以下事实:变压器中早期的自我注意力层仍然集中在局部模式上。具体而言,我们建议在早期阶段使用本地窗口注意来编码丰富的局部时空时空表示,同时应用全局注意模块以捕获后期的长期时空依赖性。通过这种方式,我们的STPT可以用冗余的大大减少来编码区域和依赖性,从而在准确性和效率之间进行有希望的权衡。例如,仅使用RGB输入,提议的STPT在Thumos14上获得了53.6%的地图,超过10%的I3D+AFSD RGB模型超过10%,并且对使用其他流量的额外流动功能的表现较少,该流量具有31%的GFLOPS ,它是一个有效,有效的端到端变压器框架,用于操作检测。
translated by 谷歌翻译
视频理解需要在多种时空分辨率下推理 - 从短的细粒度动作到更长的持续时间。虽然变压器架构最近提出了最先进的,但它们没有明确建模不同的时空分辨率。为此,我们为视频识别(MTV)提供了多视图变压器。我们的模型由单独的编码器组成,表示输入视频的不同视图,以横向连接,以跨视图熔断信息。我们对我们的模型提供了彻底的消融研究,并表明MTV在一系列模型尺寸范围内的准确性和计算成本方面始终如一地表现优于单视对应力。此外,我们在五个标准数据集上实现最先进的结果,并通过大规模预制来进一步提高。我们将释放代码和备用检查点。
translated by 谷歌翻译
对比度学习已在许多应用程序中有限的许多应用中有用。缺乏注释数据在医学图像分割中尤其有问题,因为很难让临床专家手动注释大量数据,例如心脏超声图像中的心脏结构。在本文中,我们认为对比训练是否有助于超声心动图图像中左心室的分割。此外,我们研究了对比预处理对两个众所周知的分割网络UNET和DEEPLABV3的影响。我们的结果表明,对比预处理有助于改善左心室分割的性能,尤其是当带注释的数据稀缺时。我们展示了如何以自我监督的方式训练模型时,与最先进的完全监督算法获得可比的结果,然后仅对5%的数据进行微调。我们表明,我们的解决方案优于当前在大型公共数据集(Echonet-Dynemic)上达到的骰子分数为0.9211的内容。我们还将解决方案在另一个较小的数据集(CAMUS)上的性能进行比较,以证明我们提出的解决方案的普遍性。该代码可在(https://github.com/biomedia-mbzuai/contrastive-echo)上获得。
translated by 谷歌翻译
变形金刚占据了自然语言处理领域,最近影响了计算机视觉区域。在医学图像分析领域中,变压器也已成功应用于全栈临床应用,包括图像合成/重建,注册,分割,检测和诊断。我们的论文旨在促进变压器在医学图像分析领域的认识和应用。具体而言,我们首先概述了内置在变压器和其他基本组件中的注意机制的核心概念。其次,我们回顾了针对医疗图像应用程序量身定制的各种变压器体系结构,并讨论其局限性。在这篇综述中,我们调查了围绕在不同学习范式中使用变压器,提高模型效率及其与其他技术的耦合的关键挑战。我们希望这篇评论可以为读者提供医学图像分析领域的读者的全面图片。
translated by 谷歌翻译