Transformer-based models, capable of learning better global dependencies, have recently demonstrated exceptional representation learning capabilities in computer vision and medical image analysis. Transformer reformats the image into separate patches and realize global communication via the self-attention mechanism. However, positional information between patches is hard to preserve in such 1D sequences, and loss of it can lead to sub-optimal performance when dealing with large amounts of heterogeneous tissues of various sizes in 3D medical image segmentation. Additionally, current methods are not robust and efficient for heavy-duty medical segmentation tasks such as predicting a large number of tissue classes or modeling globally inter-connected tissues structures. Inspired by the nested hierarchical structures in vision transformer, we proposed a novel 3D medical image segmentation method (UNesT), employing a simplified and faster-converging transformer encoder design that achieves local communication among spatially adjacent patch sequences by aggregating them hierarchically. We extensively validate our method on multiple challenging datasets, consisting anatomies of 133 structures in brain, 14 organs in abdomen, 4 hierarchical components in kidney, and inter-connected kidney tumors). We show that UNesT consistently achieves state-of-the-art performance and evaluate its generalizability and data efficiency. Particularly, the model achieves whole brain segmentation task complete ROI with 133 tissue classes in single network, outperforms prior state-of-the-art method SLANT27 ensembled with 27 network tiles, our model performance increases the mean DSC score of the publicly available Colin and CANDI dataset from 0.7264 to 0.7444 and from 0.6968 to 0.7025, respectively.
translated by 谷歌翻译
高阶相关性学习在数据表示学习中表现出了优越性,在近几十年来,超图已被广泛使用。基于超图的表示方法(例如HyperGraph神经网络)的性能很大程度上取决于HyperGraph结构的质量。如何在数据之间生成超图结构仍然是一项具有挑战性的任务。缺失和嘈杂的数据可能会导致超图结构中的“不良连接”,并破坏基于超图的表示过程。因此,揭示高阶结构,即观察到的数据背后的超图成为一项紧迫但重要的任务。为了解决这个问题,我们设计了深度图结构学习的一般范式,即DeepHGSL,以优化基于超图表的表示超图结构。具体地,受鲁棒性问题的信息瓶颈原则的启发,我们首先将其扩展到HyperGraph Case,该案例由HyperGraph Information Bottleneck(HIB)原理命名。然后,我们应用此原理来指导超图结构学习,其中引入HIB以构建损耗函数以最大程度地减少超图结构中的嘈杂信息。可以优化超图结构,并且可以认为该过程可以增强正确的连接并削弱训练阶段的错误连接。因此,所提出的方法即使在严重的嘈杂结构上提取更健壮的表示也有益。最后,我们在四个基准数据集上评估该模型以进行表示。与其他最新方法相比,对图形和超图结构数据的实验结果证明了我们方法的有效性和鲁棒性。
translated by 谷歌翻译
谷仓(基准自动驾驶机器人导航)挑战在宾夕法尼亚州费城的2022年IEEE国际机器人和自动化国际会议(ICRA 2022)举行。挑战的目的是评估最先进的自动地面导航系统,以安全有效的方式将机器人通过高度约束的环境移动。具体而言,任务是将标准化的差分驱动地面机器人从预定义的开始位置导航到目标位置,而不会与模拟和现实世界中的任何障碍相撞。来自世界各地的五支球队参加了合格的模拟比赛,其中三支受邀在费城会议中心的一组身体障碍课程中相互竞争。竞争结果表明,尽管表面上显得简单,即使对于经验丰富的机器人主义者来说,在高度约束空间中的自主地面导航实际上远非解决问题。在本文中,我们讨论了挑战,前三名获胜团队所使用的方法以及学到的教训以指导未来的研究。
translated by 谷歌翻译
持续学习旨在使单个模型能够学习一系列任务,而不会造成灾难性的遗忘。表现最好的方法通常需要排练缓冲区来存储过去的原始示例以进行经验重播,但是,由于隐私和内存约束,这会限制其实际价值。在这项工作中,我们提出了一个简单而有效的框架,即DualPrompt,该框架学习了一组称为提示的参数,以正确指示预先训练的模型,以依次学习到达的任务,而不会缓冲过去的示例。 DualPrompt提出了一种新颖的方法,可以将互补提示附加到预训练的主链上,然后将目标提出为学习任务不变和特定于任务的“指令”。通过广泛的实验验证,双启示始终在具有挑战性的课堂开发环境下始终设置最先进的表现。尤其是,双启示的表现优于最近的高级持续学习方法,其缓冲尺寸相对较大。我们还引入了一个更具挑战性的基准Split Imagenet-R,以帮助概括无连续的持续学习研究。源代码可在https://github.com/google-research/l2p上找到。
translated by 谷歌翻译
持续学习背后的主流范例一直在使模型参数调整到非静止数据分布,灾难性遗忘是中央挑战。典型方法在测试时间依赖排练缓冲区或已知的任务标识,以检索学到的知识和地址遗忘,而这项工作呈现了一个新的范例,用于持续学习,旨在训练更加简洁的内存系统而不在测试时间访问任务标识。我们的方法学会动态提示(L2P)预先训练的模型,以在不同的任务转换下顺序地学习任务。在我们提出的框架中,提示是小型可学习参数,这些参数在内存空间中保持。目标是优化提示,以指示模型预测并明确地管理任务不变和任务特定知识,同时保持模型可塑性。我们在流行的图像分类基准下进行全面的实验,具有不同挑战的持续学习环境,其中L2P始终如一地优于现有最先进的方法。令人惊讶的是,即使没有排练缓冲区,L2P即使没有排练缓冲,L2P也能实现竞争力的结果,并直接适用于具有挑战性的任务不可行的持续学习。源代码在https://github.com/google-Research/l2p中获得。
translated by 谷歌翻译
点云学习界见证了从CNN到变形金刚的模型转移,纯变压器架构在主要学习基准上实现了最高精度。然而,现有的点变压器是计算昂贵的,因为它们需要产生大的注意图,其相对于输入大小具有二次复杂度(空间和时间)。为了解决这种缺点,我们介绍补丁注意(PAT),以便自适应地学习计算注意力地图的更小的基础。通过对这些基础的加权求和,PAT仅捕获全局形状上下文,而且还可以实现输入大小的线性复杂性。此外,我们提出了一种轻量级的多尺度关注(MST)块来构建不同尺度特征的关注,提供具有多尺度特征的模型。我们配备了PAT和MST,我们构建了我们的神经结构,称为PatchFormer,将两个模块集成到Point云学习的联合框架中。广泛的实验表明,我们的网络对一般点云学习任务的可比准确性具有9.2倍的速度高于先前的点变压器。
translated by 谷歌翻译
与卷积神经网络相比,最近开发的纯变压器架构已经实现了对点云学习基准的有希望的准确性。然而,现有点云变压器是计算昂贵的,因为它们在构建不规则数据时浪费了大量时间。要解决此缺点,我们呈现稀疏窗口注意(SWA)模块,以收集非空体素的粗粒颗粒特征,不仅绕过昂贵的不规则数据结构和无效的空体素计算,还可以获得线性计算复杂性到体素分辨率。同时,要收集关于全球形状的细粒度特征,我们介绍了相对的注意(RA)模块,更强大的自我关注变体,用于对象的刚性变换。我们配备了SWA和RA,我们构建了我们的神经结构,称为PVT,将两个模块集成到Point云学习的联合框架中。与以前的变压器和关注的模型相比,我们的方法平均达到了分类基准和10x推理加速的最高精度为94.0%。广泛的实验还有效地验证了PVT在部分和语义分割基准上的有效性(分别为86.6%和69.2%Miou)。
translated by 谷歌翻译
基于注意的模型,由变压器举例说明,可以有效地模拟长距离依赖性,而是遭受自我注意操作的二次复杂性,使得基于生成的对抗网络(GAN)的高分辨率图像生成使得它们难以采用。在本文中,我们向变压器推出了两个关键成分来解决这一挑战。首先,在生成过程的低分辨率阶段,用所提出的多轴阻塞自我关注取代了标准的全球自我关注,这允许有效地混合本地和全球关注。其次,在高分辨率阶段,我们降低了自我关注,同时只保持多层的感知让人想起隐含的神经功能。为了进一步提高性能,我们基于横向引入额外的自我调制组件。结果模型表示为命中,具有关于图像尺寸的几乎线性的计算复杂度,从而直接缩放到合成高清晰度图像。我们在实验中展示了所提出的命中,实现最先进的FID得分31.87和2.95在无条件的ImageNet上,分别具有合理的吞吐量的128美元和256美元\ times 256美元。我们认为,拟议的命中是全球发电机的一个重要里程碑,完全没有卷积。
translated by 谷歌翻译
分层结构在最近的视觉变压器中很受欢迎,但是,它们需要复杂的设计和大规模的数据集。在本文中,我们探讨了在非重叠图像块上嵌套基本本地变压器的想法,并以分层方式聚合它们。我们发现块聚合函数在启用跨块非本地信息通信方面发挥着关键作用。此观察导致我们设计简化的架构,该架构需要在原始视觉变压器上更改次要代码。拟议的明智选择的设计的好处是三倍:(1)巢汇聚速度更快,需要更少的培训数据,以实现对图中的良好的概率和小型数据集如CiFAR; (2)在将关键思想扩展到图像生成时,巢导致强大的解码器,这是8美元\时代比以前的基于变压器的发电机更快; (3)我们展示通过我们设计中的这种嵌套层次结构解耦了特征学习和抽象过程,使得能够构建一种新的方法(命名的Gradcat),用于视觉解释学习模型。源代码可用https://github.com/google-research/nested-transformer。
translated by 谷歌翻译
Semi-supervised learning (SSL) provides an effective means of leveraging unlabeled data to improve a model's performance. This domain has seen fast progress recently, at the cost of requiring more complex methods. In this paper we propose FixMatch, an algorithm that is a significant simplification of existing SSL methods. FixMatch first generates pseudo-labels using the model's predictions on weaklyaugmented unlabeled images. For a given image, the pseudo-label is only retained if the model produces a high-confidence prediction. The model is then trained to predict the pseudo-label when fed a strongly-augmented version of the same image. Despite its simplicity, we show that FixMatch achieves state-of-the-art performance across a variety of standard semi-supervised learning benchmarks, including 94.93% accuracy on CIFAR-10 with 250 labels and 88.61% accuracy with 40 -just 4 labels per class. We carry out an extensive ablation study to tease apart the experimental factors that are most important to FixMatch's success. The code is available at https://github.com/google-research/fixmatch.
translated by 谷歌翻译