Bird's-Eye-View (BEV) 3D Object Detection is a crucial multi-view technique for autonomous driving systems. Recently, plenty of works are proposed, following a similar paradigm consisting of three essential components, i.e., camera feature extraction, BEV feature construction, and task heads. Among the three components, BEV feature construction is BEV-specific compared with 2D tasks. Existing methods aggregate the multi-view camera features to the flattened grid in order to construct the BEV feature. However, flattening the BEV space along the height dimension fails to emphasize the informative features of different heights. For example, the barrier is located at a low height while the truck is located at a high height. In this paper, we propose a novel method named BEV Slice Attention Network (BEV-SAN) for exploiting the intrinsic characteristics of different heights. Instead of flattening the BEV space, we first sample along the height dimension to build the global and local BEV slices. Then, the features of BEV slices are aggregated from the camera features and merged by the attention mechanism. Finally, we fuse the merged local and global BEV features by a transformer to generate the final feature map for task heads. The purpose of local BEV slices is to emphasize informative heights. In order to find them, we further propose a LiDAR-guided sampling strategy to leverage the statistical distribution of LiDAR to determine the heights of local slices. Compared with uniform sampling, LiDAR-guided sampling can determine more informative heights. We conduct detailed experiments to demonstrate the effectiveness of BEV-SAN. Code will be released.
translated by 谷歌翻译
Vision-Centric Bird-Eye-View (BEV) perception has shown promising potential and attracted increasing attention in autonomous driving. Recent works mainly focus on improving efficiency or accuracy but neglect the domain shift problem, resulting in severe degradation of transfer performance. With extensive observations, we figure out the significant domain gaps existing in the scene, weather, and day-night changing scenarios and make the first attempt to solve the domain adaption problem for multi-view 3D object detection. Since BEV perception approaches are usually complicated and contain several components, the domain shift accumulation on multi-latent spaces makes BEV domain adaptation challenging. In this paper, we propose a novel Multi-level Multi-space Alignment Teacher-Student ($M^{2}ATS$) framework to ease the domain shift accumulation, which consists of a Depth-Aware Teacher (DAT) and a Multi-space Feature Aligned (MFA) student model. Specifically, DAT model adopts uncertainty guidance to sample reliable depth information in target domain. After constructing domain-invariant BEV perception, it then transfers pixel and instance-level knowledge to student model. To further alleviate the domain shift at the global level, MFA student model is introduced to align task-relevant multi-space features of two domains. To verify the effectiveness of $M^{2}ATS$, we conduct BEV 3D object detection experiments on four cross domain scenarios and achieve state-of-the-art performance (e.g., +12.6% NDS and +9.1% mAP on Day-Night). Code and dataset will be released.
translated by 谷歌翻译
为了使婴儿脑瘫(CP)的早期医疗干预,早期诊断出脑损伤至关重要。尽管一般运动评估(GMA)在早期CP检测中显示出令人鼓舞的结果,但它很费力。大多数现有作品都以视频为输入,以对GMA自动化进行烦躁的动作(FMS)分类。这些方法需要对视频进行完整的观察,并且无法本地化包含正常FMS的视频帧。因此,我们提出了一种名为WO-GMA的新颖方法,以在弱监督的在线环境中执行FMS本地化。首先将婴儿体重点作为WO-GMA的输入提取。然后,WO-GMA执行本地时空提取,然后进行两个网络分支,以生成伪夹标签和模型在线操作。凭借剪辑级伪标签,动作建模分支学会以在线方式检测FMS。具有757个不同婴儿视频的数据集上的实验结果表明,WO-GMA可以获得最新的视频级别分类和Cliplevel检测结果。此外,仅需要前20%的视频持续时间才能获得与完全观察到的分类结果,这意味着FMS诊断时间大大缩短了。代码可在以下网址获得:https://github.com/scofiedluo/wo-gma。
translated by 谷歌翻译
深度学习(DL)技术已被广泛用于医学图像分类。大多数基于DL的分类网络通常是层次结构化的,并通过最小化网络末尾测量的单个损耗函数而进行了优化。但是,这种单一的损失设计可能会导致优化一个特定的感兴趣价值,但无法利用中间层的信息特征,这些特征可能会受益于分类性能并降低过度拟合的风险。最近,辅助卷积神经网络(AUXCNNS)已在传统分类网络之上采用,以促进中间层的培训,以提高分类性能和鲁棒性。在这项研究中,我们提出了一个基于对抗性学习的AUXCNN,以支持对医学图像分类的深神经网络的培训。我们的AUXCNN分类框架采用了两项主要创新。首先,所提出的AUXCNN体系结构包括图像发生器和图像鉴别器,用于为医学图像分类提取更多信息图像特征,这是由生成对抗网络(GAN)的概念及其在近似目标数据分布方面令人印象深刻的能力的动机。其次,混合损失函数旨在通过合并分类网络和AUXCNN的不同目标来指导模型训练,以减少过度拟合。全面的实验研究表明,提出的模型的分类表现出色。研究了与网络相关因素对分类性能的影响。
translated by 谷歌翻译
我们提出了GLIPV2,这是一个接地的VL理解模型,该模型既服务于本地化任务(例如,对象检测,实例分割)和视觉语言(VL)理解任务(例如VQA,图像字幕)。 GLIPV2优雅地将本地化预训练和视觉语言预训练(VLP)具有三个预训练任务:短语接地作为对检测任务的VL重新重新制定,区域词对比度学习作为新型的区域词对比度对比度对比学习任务,以及蒙面的语言建模。这种统一不仅简化了先前的多阶段VLP程序,而且还可以在本地化和理解任务之间实现相互利益。实验结果表明,在各种本地化和理解任务上,单个GLIPV2模型(所有模型权重)在SOTA性能附近实现。该模型还显示了(1)在开放式摄制对象检测任务上进行的强零射击和很少的自适应性能,以及(2)VL理解任务上的卓越接地能力。代码将在https://github.com/microsoft/glip上发布。
translated by 谷歌翻译
时空数据包含丰富的信息,近年来由于许多领域的相关应用程序的快速发展,近年来已广泛研究。例如,医疗机构经常使用与患者不同部位相关的电极来分析具有空间和时间特征富含脑的数据,以进行健康评估和疾病诊断。现有的研究主要使用了深度学习技术,例如卷积神经网络(CNN)或经常性神经网络(RNN)来提取隐藏的时空特征。然而,同时合并相互依存的空间信息和动态时间变化是一项挑战。实际上,对于利用这些时空特征来完成复杂预测任务的模型,它通常需要大量的培训数据才能获得令人满意的模型性能。考虑到上述挑战,我们提出了一个自适应的联合相关性框架,即Fedrel,用于在本文中为时空的图形学习。在将原始时空数据转换为高质量特征之后,框架中的核心动力学间图(DIIG)模块能够使用这些功能来生成能够捕获隐藏拓扑和长期的时空图这些图中的时间相关信息。为了提高模型的概括能力和性能,在保留本地数据隐私的同时,我们还设计了一个相关性驱动的联合学习模块,以利用其模型的细心聚合来利用来自不同参与者的各种数据分布。
translated by 谷歌翻译
如何识别和表征功能性大脑网络(BN)是基础,以获取对大脑组织架构机制的系统级别的见解。当前的功能磁共振(fMRI)分析高度依赖于空间(例如静止状态网络)或时间(例如任务刺激)域中特定模式的先验知识。此外,大多数方法旨在找到群体的通用功能网络,很少研究个体特定的功能网络。在这项工作中,我们提出了一个新颖的双转化器框架,以自我监督的方式同时推断空间和时间空间中的共同和单个功能网络。第一个变压器将空间区域的信息作为输入获取并生成空间特征,而第二个变压器将与时间相关的信息作为输入和输出时间特征。通过相互作用(权重共享)和两个变压器之间的约束,将空间和时间特征进一步分为共同和单个。我们将TwinTransFormer应用于Human Connectome Project(HCP)Motor Task-FMRI数据集,并确定了多个通用大脑网络,包括与任务相关和静止状态网络(例如默认模式网络)。有趣的是,我们还成功地恢复了与任务刺激无关的一组个人特定网络,仅在个人级别存在。
translated by 谷歌翻译
结构重新参数化(REP)方法已在传统的卷积网络上取得了重大的性能提高。大多数当前的REP方法依靠先验知识来选择重新聚集操作。但是,体系结构的性能受到操作类型和先验知识的限制。为了打破这项限制,在这项工作中,设计了改进的重新参数化搜索空间,其中包括更多类型的重新参数操作。具体而言,搜索空间可以进一步提高卷积网络的性能。为了有效地探索该搜索空间,基于神经体系结构搜索(NAS)设计了自动重新参数增强策略,该策略可以搜索出色的重新参数化体系结构。此外,我们可视化体系结构的输出功能,以分析形成重新参数架构的原因。在公共数据集中,我们取得了更好的结果。在与RESNET相同的训练条件下,我们将Resnet-50的准确性提高了Imagenet-1K的1.82%。
translated by 谷歌翻译
具有高质量注释的大规模培训数据对于训练语义和实例分割模型至关重要。不幸的是,像素的注释是劳动密集型且昂贵的,从而提高了对更有效的标签策略的需求。在这项工作中,我们提出了一种新颖的3D到2D标签传输方法,即Panoptic Nerf,该方法旨在从易于体现的粗3D边界原始基原始素中获取每个像素2D语义和实例标签。我们的方法利用NERF作为可区分的工具来统一从现有数据集中传输的粗3D注释和2D语义提示。我们证明,这种组合允许通过语义信息指导的几何形状,从而使跨多个视图的准确语义图渲染。此外,这种融合过程解决了粗3D注释的标签歧义,并过滤了2D预测中的噪声。通过推断3D空间并渲染到2D标签,我们的2D语义和实例标签是按设计一致的多视图。实验结果表明,在挑战Kitti-360数据集的挑战性城市场景方面,Pastic Nerf的表现优于现有标签传输方法。
translated by 谷歌翻译
本文解决了从多视频视频中重建动画人类模型的挑战。最近的一些作品提出,将一个非刚性变形的场景分解为规范的神经辐射场和一组变形场,它们映射观察空间指向规范空间,从而使它们能够从图像中学习动态场景。但是,它们代表变形场作为转换矢量场或SE(3)字段,这使得优化高度不受限制。此外,这些表示无法通过输入动议明确控制。取而代之的是,我们基于线性混合剥皮算法引入了一个姿势驱动的变形场,该算法结合了混合重量场和3D人类骨架,以产生观察到的对应对应。由于3D人类骨骼更容易观察到,因此它们可以正规化变形场的学习。此外,可以通过输入骨骼运动来控制姿势驱动的变形场,以生成新的变形字段来动画规范人类模型。实验表明,我们的方法显着优于最近的人类建模方法。该代码可在https://zju3dv.github.io/animatable_nerf/上获得。
translated by 谷歌翻译