来自类似的心脏磁共振(CMR)图像的3D运动估计对于评估心脏功能和心血管疾病的诊断很重要。以前的大多数方法都侧重于估计完整图像空间中的像素 - /体素运动场,这忽略了运动估计主要是相关且在感兴趣的对象中有用的事实,例如心脏。在这项工作中,我们将心脏建模为3D几何网格,并提出了一种新型的基于深度学习的方法,该方法可以从2D短轴和长轴CMR图像中估算心脏网格的3D运动。通过开发可区分的网格到图像射击器,该方法能够利用2D多视图CMR图像的解剖形状信息进行3D运动估计。 Rasterizer的不同性使我们能够训练该方法最终到端。提出方法的一个优点是,通过跟踪每个顶点的运动,它可以保持时间帧之间3D网格的顶点对应关系,这对于对网格上心脏功能的定量评估很重要。我们评估了从英国生物银行研究获得的CMR图像的建议方法。实验结果表明,所提出的方法在定量和定性上都优于常规和基于学习的心脏运动跟踪方法。
translated by 谷歌翻译
随着大数据时代的出现,数据质量问题变得越来越重要。在许多因素中,缺少价值的数据是一个主要问题,因此开发有效的插补模型是研究界的关键主题。最近,一个主要的研究方向是采用神经网络模型,例如自组织映射或自动编码器来填充缺失值。但是,这些经典方法几乎无法在数据属性之间同时发现相关特征和共同特征。特别是,对于经典的自动编码器来说,这是一个非常典型的问题,他们经常学习无效的恒定映射,从而极大地伤害了填充性能。为了解决上述问题,我们建议并开发基于功能融合增强自动编码器的缺失值填充模型。我们首先设计并集成到自动编码器中,一个隐藏的层,该层由脱落神经元和径向基函数神经元组成,该神经元可以增强学习相关特征和共同特征的能力。此外,我们基于动态聚类(MVDC)制定了缺失的值填充策略,该策略已纳入迭代优化过程。该设计可以增强多维功能融合能力,从而提高动态协作缺失填充性能。通过实验比较与许多缺失值填充方法的实验比较来验证我们的模型的有效性,这些方法在七个数据集上进行了测试,而缺失率不同。
translated by 谷歌翻译
Panoptic叙事接地(PNG)是一项新的任务,其目标是通过静止图像的密集叙事标题来分割事物和内容类别的视觉对象。先前的两阶段方法首先提取了通过现成的全盘分割模型提取分割区域的建议,然后进行粗糙的区域短语匹配,以将每个名词短语的候选区域接地。但是,两阶段的管道通常受到第一阶段低质量建议的性能限制,以及由区域特征池的损失以及为事物和东西类别设计的复杂策略引起的空间细节。为了减轻这些缺点,我们提出了一个单阶段的端到端像素匹配网络(PPMN),该网络将每个短语与其相应的像素直接匹配,而不是区域建议,并通过简单组合输出全段段。因此,我们的模型可以从密集注释的像素色素对的监督而不是稀疏的区域短语对中利用足够,更精细的跨模式语义对应关系。此外,我们还提出了与语言兼容的像素聚合(LCPA)模块,以进一步通过多轮修补剂增强短语特征的判别能力,该简化为每个短语选择最兼容的像素以适应相应的视觉上下文。广泛的实验表明,我们的方法在PNG基准测试中实现了新的最新性能,并具有4.0个绝对平均召回率增长。
translated by 谷歌翻译
随着LIDAR传感器在自动驾驶中的流行率,3D对象跟踪受到了越来越多的关注。在点云序列中,3D对象跟踪旨在预测给定对象模板中连续帧中对象的位置和方向。在变压器成功的驱动下,我们提出了点跟踪变压器(PTTR),它有效地预测了高质量的3D跟踪,借助变压器操作,以粗到1的方式导致。 PTTR由三个新型设计组成。 1)我们设计的关系意识采样代替随机抽样,以在亚采样过程中保留与给定模板相关的点。 2)我们提出了一个点关系变压器,以进行有效的特征聚合和模板和搜索区域之间的特征匹配。 3)基于粗糙跟踪结果,我们采用了一个新颖的预测改进模块,通过局部特征池获得最终的完善预测。此外,以捕获对象运动的鸟眼视图(BEV)的有利特性(BEV)的良好属性,我们进一步设计了一个名为PTTR ++的更高级的框架,该框架既包含了点的视图和BEV表示)产生高质量跟踪结果的影响。 PTTR ++实质上提高了PTTR顶部的跟踪性能,并具有低计算开销。多个数据集的广泛实验表明,我们提出的方法达到了卓越的3D跟踪准确性和效率。
translated by 谷歌翻译
使用点云的3D对象检测由于其在自动驾驶和机器人技术中的广泛应用而引起了越来越多的关注。但是,大多数现有的研究都集中在单点云框架上,而无需利用点云序列中的时间信息。在本文中,我们设计了Transpillars,这是一种基于变压器的新型特征聚合技术,可利用连续点云框架的时间特征用于多帧3D对象检测。从两个角度来看,转子汇总的时空点云特征。首先,它直接从多帧特征映射而不是汇总实例功能融合体素级特征,以保存实例详细信息,并使用上下文信息,这些信息对于准确的对象本地化至关重要。其次,它引入了分层的粗到精细策略,以逐步融合多尺度功能,以有效捕获移动对象的运动并指导精美特征的聚合。此外,引入了一系列可变形变压器,以提高跨帧功能匹配的有效性。广泛的实验表明,与现有的多帧检测方法相比,我们提议的转质质量可以达到最先进的性能。代码将发布。
translated by 谷歌翻译
从电影心脏磁共振(CMR)成像中恢复心脏的3D运动可以评估区域心肌功能,对于理解和分析心血管疾病很重要。但是,3D心脏运动估计是具有挑战性的,因为获得的Cine CMR图像通常是2D切片,它限制了对整个平面运动的准确估计。为了解决这个问题,我们提出了一个新颖的多视图运动估计网络(Mulvimotion),该网络集成了以短轴和长轴平面获取的2D Cine CMR图像,以学习心脏的一致性3D运动场。在提出的方法中,构建了一个混合2D/3D网络,以通过从多视图图像中学习融合表示形式来生成密集的3D运动场。为了确保运动估计在3D中保持一致,在训练过程中引入了形状正则化模块,其中利用了来自多视图图像的形状信息,以提供3D运动估计的弱监督。我们对来自英国生物银行研究的580名受试者的2D Cine CMR图像进行了广泛评估,用于左心室心肌的3D运动跟踪。实验结果表明,该方法在定量和定性上优于竞争方法。
translated by 谷歌翻译
引用视频对象细分旨在预测视频中自然语言表达式引用的对象的前景标签。先前的方法要么取决于3D convnet,要么将附加的2D转向器作为编码器,以提取混合时空特征。但是,由于在解码阶段发生的延迟和隐式时空相互作用,这些方法遭受了空间错位或虚假分散因素的影响。为了解决这些限制,我们提出了一个语言桥梁的双链传输(LBDT)模块,该模块将语言用作中间桥,以在编码阶段早期完成显式和适应性的时空交互。具体地,在时间编码器中进行了交叉模式的注意,将单词和空间编码器引用以汇总和传递与语言相关的运动和外观信息。此外,我们还提出了在解码阶段的双边通道激活(BCA)模块,以通过通道激活进一步降低并突出时空一致的特征。广泛的实验表明,我们的方法在四个流行的基准测试基准上获得了新的最新性能,分别在A2D句子和J-HMDB句子上获得了6.8%和6.9%的绝对AP收益,同时消耗了大约7倍的计算机开销。
translated by 谷歌翻译
在点云序列中,3D对象跟踪目的是在给定模板点云的情况下预测当前搜索点云中的对象的位置和方向。通过变压器的成功,我们提出了点跟踪变压器(PTTR),其有效地在变压器操作的帮助下以粗良好的方式预测高质量的3D跟踪结果。 PTTR由三种新颖的设计组成。 1)除了随机抽样中,我们设计关系感知采样,以保护在子采样期间给定模板的相关点。 2)此外,我们提出了一种由自我关注和跨关注模块组成的点关系变压器(PRT)。全局自我关注操作捕获远程依赖性,以便分别增强搜索区域和模板的编码点特征。随后,我们通过横向关注匹配两组点特征来生成粗略跟踪结果。 3)基于粗略跟踪结果,我们采用了一种新颖的预测细化模块来获得最终精制预测。此外,我们根据Waymo Open DataSet创建一个大型点云单个对象跟踪基准。广泛的实验表明,PTTR以准确性和效率达到优越的点云跟踪。
translated by 谷歌翻译
我们提出了一个基于视觉和惯性的地形分类网络(VINET),用于在不同的遍布表面上进行机器人导航。我们使用一种新型的基于导航的标签方案进行未知表面上的地形分类和概括。我们提出的感知方法和自适应控制框架可以根据地形导航属性做出预测,并在已知和未知表面上的地形分类和导航控制中提高性能。与以前的方法相比,我们的Vinet在已知地形的监督环境下的准确性可以达到98.37%,并在未知的地形上提高了8.51%的精度。我们在移动轨迹的机器人上部署vinet,以进行轨迹,并在不同的地形上导航,与基线控制器相比,在RMSE方面,我们证明了10.3%的改善。
translated by 谷歌翻译
我们提出了一种新颖的轨迹遍历性估计和计划在复杂室外环境中机器人导航的算法。我们将RGB摄像头,3D LIDAR和机器人的探针传感器中的多模式感觉输入结合在一起,以训练预测模型,以估算基于部分可靠的多模式传感器观测值的候选轨迹轨迹的成功概率。我们使用编码器网络对低维特征向量编码高维多模式的感觉输入,并将它们表示为连接的图形,以训练基于注意力的图形神经网络(GNN)模型,以预测轨迹成功概率。我们进一步分别分析图像和点云数据,以量化传感器的可靠性,以增强我们GNN中使用的特征图表示的权重。在运行时,我们的模型利用多传感器输入来预测本地规划师生成的轨迹的成功概率,以避免潜在的碰撞和故障。当一个或多个传感器模态在复杂的室外环境中不可靠或不可用时,我们的算法证明了可靠的预测。我们使用现实世界中户外环境中的点机器人评估算法的导航性能。
translated by 谷歌翻译