最近,未经训练的神经网络(UNNS)显示了在随机采样轨迹上对MR图像重建的令人满意的性能,而无需使用其他全面采样训练数据。但是,现有的基于UNN的方法并未完全使用MR图像物理先验,导致某些常见情况(例如部分傅立叶,常规采样等)的性能差,并且缺乏重建准确性的理论保证。为了弥合这一差距,我们使用特殊设计的UNN提出了一种保障的K空间插值方法,该方法使用特殊设计的UNN,该方法由MR图像的三个物理先验(或K空间数据)驱动,包括稀疏,线圈灵敏度平稳性和相位平滑度。我们还证明,所提出的方法保证了插值K空间数据准确性的紧密界限。最后,消融实验表明,所提出的方法比现有传统方法更准确地表征了MR图像的物理先验。此外,在一系列常用的采样轨迹下,实验还表明,所提出的方法始终优于传统的平行成像方法和现有的UNN,甚至超过了最先进的监督训练的K空间深度学习方法案例。
translated by 谷歌翻译
由低级别正则化驱动的深度学习方法在动态磁共振(MR)成像中实现了有吸引力的性能。但是,这些方法中的大多数代表了手工制作的核标准的低级别先验,该规范无法通过固定的正则化参数准确地近似整个数据集的低排名先验。在本文中,我们提出了一种学习动态MR成像的低级方法。特别是,我们将部分可分离(PS)模型的半季度分裂方法(HQS)算法传输到网络中,其中低级别以可学习的空空间变换自适应地表征。心脏CINE数据集的实验表明,所提出的模型的表现优于最新的压缩传感(CS)方法和现有的深度学习方法,既有定量和质量上的深度学习方法。
translated by 谷歌翻译
学习捕获特征关系有效,有效地是现代推荐系统的点击率(CTR)预测的必要条件。大多数现有的CTR预测方法通过繁琐的手动设计的低阶交互或通过不灵活和低效的高阶交互来模型这样的关系,这两者都需要额外的DNN模块进行隐式交互建模。在本文中,我们提出了一种新颖的插件操作,动态参数化操作(DPO),以便明智地学习显式和隐式交互实例。我们认为DPO进入DNN模块和注意力模块可以分别有利于CTR预测中的两个主要任务,增强了基于特征的建模和改进用户行为建模的适应性与实例 - 方向性。我们的动态参数化网络在公共数据集和现实世界生产数据集的离线实验中显着优于最先进的方法,以及在线A / B测试。此外,建议的动态参数化网络已经在世界上最大的电子商务公司之一的排名系统中部署,服务于数亿个活跃用户的主要流量。
translated by 谷歌翻译
最近,深度学习技术已被广泛用于图像识别领域。但是,其主要应用是对普通图片和常见场景的识别和检测。有效,有效地分析图像采集系统在无人机(UAVS)上获得的遥感图像(UAVS)的遥感图像是一项挑战,其中包括确定目标和其位置的计算。与普通图像或图像相比,空中遥感图像具有不同的拍摄角度和方法,这使得遥感图像在某些区域起着不可替代的作用。在这项研究中,提出了一种新的目标检测和识别方法,该方法是基于深度卷积神经网络(CNN)提出的,用于提供图像的多层次信息,并结合用于生成多式区域的区域建议网络。兴趣。所提出的方法产生的结果比传统方式获得的结果要准确和精确得多。这表明本文提出的模型在遥感图像识别中显示出巨大的适用性潜力。
translated by 谷歌翻译
本报告介绍了在CVPR 2022上提交通用事件边界检测(GEBD)挑战中使用的算法。在这项工作中,我们改善了GEBD的现有结构化上下文变压器(SC-Transformer)方法。具体而言,在变压器编码器后,添加了变压器解码器模块以提取高质量的框架功能。最终分类是根据原始二进制分类器和新引入的多类分类器分支共同执行的。为了丰富运动信息,将光流作为新模式引入。最后,模型合奏用于进一步提高性能。所提出的方法在动力学-GEBD测试集上获得了86.49%的F1得分。与先前的SOTA方法相比,它提高了2.86%的F1分数。
translated by 谷歌翻译
由于其在自主驾驶中的应用,因此基于单眼图像的3D感知已成为一个活跃的研究领域。与基于激光雷达的技术相比,单眼3D感知(包括检测和跟踪)的方法通常会产生较低的性能。通过系统的分析,我们确定了每个对象深度估计精度是界限性能的主要因素。在这种观察过程中,我们提出了一种多级融合方法,该方法将不同的表示(RGB和伪LIDAR)和跨多个对象(Tracklets)的时间信息结合在一起,以增强对目标深度估计。我们提出的融合方法实现了Waymo打开数据集,KITTI检测数据集和Kitti MOT数据集的每个对象深度估计的最新性能。我们进一步证明,通过简单地用融合增强的深度替换估计的深度,我们可以在单眼3D感知任务(包括检测和跟踪)方面取得重大改进。
translated by 谷歌翻译
在面部地标定位任务中,各种遮挡由于面部特征的部分可观察性,各种闭塞性严重降低了定位精度。本文提出了一种用于遮挡强大的地标定位的结构关系网络(SRN)。与只需利用形状约束的大多数现有方法不同,所提出的SRN旨在捕捉不同面部部件之间的结构关系。这些关系可以被认为是对遮挡的更强大的形状约束。为实现这一点,分层结构关系模块(HSRM)被设计成分层原因,结构关系代表长距离空间依赖性的结构关系。与现有网络架构相比,HSRM可以通过利用其几何感知网络架构有效地模拟空间关系,这减少了由遮挡引起的语义模糊性。此外,SRN通过合成封闭面来增强训练数据。为了进一步扩展我们的SRN以进行遮挡视频数据,我们将闭塞面为Markov决策过程(MDP)制定。具体地,它计划基于与预训练的SRN的性能劣化相关的累积奖励来移动动态遮挡的移动。此程序增加了强大的面部地标跟踪的硬样品。广泛的实验结果表明,该方法在遮挡和遮蔽面上取得了出色的性能。代码在https://github.com/zhuccly/srn获得。
translated by 谷歌翻译
近年来,在危机期间从社交媒体职位挖掘重要信息的任务已成为辅助应急响应的目的研究的重点。 TREC事件流(IS)曲目是为此目的而组织的研究挑战。该曲目要求参与系统将与危机相关的推文进行分类为人道主义援助相关信息类型,并估算其关键性的重要性。前者是指多标签信息类型分类任务,后者是指优先级估计任务。在本文中,我们报告了TREC中的大学学院计算机科学(UCD-CS)的参与 - 是2021年。我们探讨了各种方法,包括简单的机器学习算法,多任务学习技术,文本增强和集合方法。官方评估结果表明,我们的运行达到了许多指标中的最高分数。为了援助再现性,我们的代码在HTTPS://github.com/wangcongcong123/crisis-mtl上公开提供。
translated by 谷歌翻译
Behavior prediction in dynamic, multi-agent systems is an important problem in the context of self-driving cars, due to the complex representations and interactions of road components, including moving agents (e.g. pedestrians and vehicles) and road context information (e.g. lanes, traffic lights). This paper introduces VectorNet, a hierarchical graph neural network that first exploits the spatial locality of individual road components represented by vectors and then models the high-order interactions among all components. In contrast to most recent approaches, which render trajectories of moving agents and road context information as bird-eye images and encode them with convolutional neural networks (ConvNets), our approach operates on a vector representation. By operating on the vectorized high definition (HD) maps and agent trajectories, we avoid lossy rendering and computationally intensive ConvNet encoding steps. To further boost VectorNet's capability in learning context features, we propose a novel auxiliary task to recover the randomly masked out map entities and agent trajectories based on their context. We evaluate VectorNet on our in-house behavior prediction benchmark and the recently released Argoverse forecasting dataset. Our method achieves on par or better performance than the competitive rendering approach on both benchmarks while saving over 70% of the model parameters with an order of magnitude reduction in FLOPs. It also outperforms the state of the art on the Argoverse dataset.
translated by 谷歌翻译
In this paper, we propose a robust 3D detector, named Cross Modal Transformer (CMT), for end-to-end 3D multi-modal detection. Without explicit view transformation, CMT takes the image and point clouds tokens as inputs and directly outputs accurate 3D bounding boxes. The spatial alignment of multi-modal tokens is performed implicitly, by encoding the 3D points into multi-modal features. The core design of CMT is quite simple while its performance is impressive. CMT obtains 73.0% NDS on nuScenes benchmark. Moreover, CMT has a strong robustness even if the LiDAR is missing. Code will be released at https://github.com/junjie18/CMT.
translated by 谷歌翻译