Channel and spatial attention mechanism has proven to provide an evident performance boost of deep convolution neural networks (CNNs). Most existing methods focus on one or run them parallel (series), neglecting the collaboration between the two attentions. In order to better establish the feature interaction between the two types of attention, we propose a plug-and-play attention module, which we term "CAT"-activating the Collaboration between spatial and channel Attentions based on learned Traits. Specifically, we represent traits as trainable coefficients (i.e., colla-factors) to adaptively combine contributions of different attention modules to fit different image hierarchies and tasks better. Moreover, we propose the global entropy pooling (GEP) apart from global average pooling (GAP) and global maximum pooling (GMP) operators, an effective component in suppressing noise signals by measuring the information disorder of feature maps. We introduce a three-way pooling operation into attention modules and apply the adaptive mechanism to fuse their outcomes. Extensive experiments on MS COCO, Pascal-VOC, Cifar-100, and ImageNet show that our CAT outperforms existing state-of-the-art attention mechanisms in object detection, instance segmentation, and image classification. The model and code will be released soon.
translated by 谷歌翻译
Surround-view fisheye perception under valet parking scenes is fundamental and crucial in autonomous driving. Environmental conditions in parking lots perform differently from the common public datasets, such as imperfect light and opacity, which substantially impacts on perception performance. Most existing networks based on public datasets may generalize suboptimal results on these valet parking scenes, also affected by the fisheye distortion. In this article, we introduce a new large-scale fisheye dataset called Fisheye Parking Dataset(FPD) to promote the research in dealing with diverse real-world surround-view parking cases. Notably, our compiled FPD exhibits excellent characteristics for different surround-view perception tasks. In addition, we also propose our real-time distortion-insensitive multi-task framework Fisheye Perception Network (FPNet), which improves the surround-view fisheye BEV perception by enhancing the fisheye distortion operation and multi-task lightweight designs. Extensive experiments validate the effectiveness of our approach and the dataset's exceptional generalizability.
translated by 谷歌翻译
空间红外的小型船舶检测旨在将小型船只与轨道轨道捕获的图像分开。由于图像覆盖面积极大(例如,数千平方公里),这些图像中的候选目标比空中基于天线和陆基成像设备观察到的目标要小得多,二聚体,更可变。现有的简短成像基于距离的红外数据集和目标检测方法不能很好地用于空间监视任务。为了解决这些问题,我们开发了一个空间红外的小型船舶检测数据集(即Nudt-Sirst-Sea),该数据集具有48个空间基红外图像和17598像素级的小型船上注释。每个图像覆盖约10000平方公里的面积,带有10000x10000像素。考虑到这些充满挑战的场景,考虑到这些微小的船只的极端特征(例如,小,昏暗,可变的),我们在本文中提出了多层Transunet(MTU-NET)。具体而言,我们设计了视觉变压器(VIT)卷积神经网络(CNN)混合编码器来提取多层次特征。首先将局部特征图用几个卷积层提取,然后馈入多级特征提取模块(MVTM)以捕获长距离依赖性。我们进一步提出了一种拷贝性衡量量 - 帕斯特(CRRP)数据增强方法,以加速训练阶段,从而有效地减轻了目标和背景之间样本不平衡问题的问题。此外,我们设计了一个焦点损失,以实现目标定位和形状描述。 NUDT-SIRST-SEA数据集的实验结果表明,就检测概率,错误警报率和联合交集的交集而言,我们的MTU-NET优于传统和现有的基于深度学习的SIRST方法。
translated by 谷歌翻译
商业深度传感器通常会产生嘈杂和缺失的深度,尤其是在镜面和透明的对象上,这对下游深度或基于点云的任务构成了关键问题。为了减轻此问题,我们提出了一个强大的RGBD融合网络Swindrnet,以进行深度修复。我们进一步提出了域随机增强深度模拟(DREDS)方法,以使用基于物理的渲染模拟主动的立体声深度系统,并生成一个大规模合成数据集,该数据集包含130k Photorealistic RGB图像以及其模拟深度带有现实主义的传感器。为了评估深度恢复方法,我们还策划了一个现实世界中的数据集,即STD,该数据集捕获了30个混乱的场景,这些场景由50个对象组成,具有不同的材料,从透明,透明,弥漫性。实验表明,提议的DREDS数据集桥接了SIM到实地域间隙,因此,经过训练,我们的Swindrnet可以无缝地概括到其他真实的深度数据集,例如。 ClearGrasp,并以实时速度优于深度恢复的竞争方法。我们进一步表明,我们的深度恢复有效地提高了下游任务的性能,包括类别级别的姿势估计和掌握任务。我们的数据和代码可从https://github.com/pku-epic/dreds获得
translated by 谷歌翻译
在许多应用程序中,多方拥有有关相同用户的私人数据,但在属性的脱节集上,服务器希望利用数据来训练模型。为了在保护数据主体的隐私时启用模型学习,我们需要垂直联合学习(VFL)技术,其中数据派对仅共享用于培训模型的信息,而不是私人数据。但是,确保共享信息在学习准确的模型的同时保持隐私是一项挑战。据我们所知,本文提出的算法是第一个实用的解决方案,用于差异化垂直联合K-均值聚类,服务器可以在其中获得具有可证明的差异隐私保证的全球中心。我们的算法假设一个不受信任的中央服务器,该服务器汇总了本地数据派对的差异私有本地中心和成员资格编码。它基于收到的信息构建加权网格作为全局数据集的概要。最终中心是通过在加权网格上运行任何K-均值算法而产生的。我们的网格重量估计方法采用了基于Flajolet-Martin草图的新颖,轻巧和差异私有的相交基数估计算法。为了提高两个以上数据方的设置中的估计准确性,我们进一步提出了权重估计算法的精致版本和参数调整策略,以减少最终的K-均值实用程序,以便在中央私人环境中接近它。我们为由我们的算法计算的群集中心提供了理论实用性分析和实验评估结果,并表明我们的方法在理论上和经验上都比基于现有技术的两个基准在理论上和经验上的表现更好。
translated by 谷歌翻译
作为理解过度参数模型中梯度下降的隐式偏差的努力的一部分,有几个结果表明,如何将过份术模型上的训练轨迹理解为不同目标上的镜像。这里的主要结果是在称为通勤参数化的概念下对这种现象的表征,该概念涵盖了此设置中的所有先前结果。结果表明,具有任何通勤参数化的梯度流相当于具有相关Legendre函数的连续镜下降。相反,具有任何legendre函数的连续镜下降可以被视为具有相关通勤参数化的梯度流。后一个结果依赖于纳什的嵌入定理。
translated by 谷歌翻译
通常通过过去的选择来告知机器学习中的评估,例如要使用哪些数据集或指标。该标准化可以使用排行榜对平等基础进行比较,但是随着出现更好的替代方案,评估选择变得不佳。这个问题在自然语言生成中尤其相关,该语言需要不断改善的数据集,指标和人类评估以提出确定性的主张。为了使遵循最佳模型评估实践更加容易,我们介绍了GEMV2。新版本的一代,评估和指标基准为数据集,模型和指标开发人员提供了模块化基础架构,以使彼此受益。GEMV2支持40种记录的数据集中51种语言。所有数据集的模型都可以在线评估,我们的交互式数据卡创建和渲染工具使得在Living Benchmark中添加新数据集变得更加容易。
translated by 谷歌翻译
在许多可视化系统中,视觉跟踪通常基于RGB图像序列,其中一些目标在低光条件下无效,因此追踪性能显着影响。介绍深度和红外数据等其他模态是处理单个来源的成像限制的有效方法,但多模态成像平台通常需要详细设计,并且目前不能应用于许多现实世界应用。近红外(NIR)成像成为许多监视摄像机的重要组成部分,其成像基于光强度在RGB和NIR之间切换。这两种方式具有异质性,视觉特性非常不同,因此为视觉跟踪带来了大量挑战。但是,现有的作品没有研究过这个具有挑战性的问题。在这项工作中,我们解决了跨模型对象跟踪问题并贡献新的视频数据集,包括总共具有超过481K帧的654个跨模型图像序列,并且平均视频长度超过735帧。为促进跨模型对象跟踪的研究和开发,我们提出了一种新的算法,它学习模态感知目标表示,以减轻跟踪过程中RGB和NIR模式之间的外观差距。它是即插即用,因此可以灵活地嵌入到不同的跟踪框架中。对数据集进行广泛的实验,我们展示了两个代表性跟踪框架中提出的算法的有效性,其针对17个最先进的跟踪方法。我们将发布数据集进行免费学术用法,数据集下载链接和代码即将发布。
translated by 谷歌翻译
了解随机梯度下降(SGD)的隐式偏见是深度学习的关键挑战之一,尤其是对于过度透明的模型,损失功能的局部最小化$ l $可以形成多种多样的模型。从直觉上讲,SGD $ \ eta $的学习率很小,SGD跟踪梯度下降(GD),直到它接近这种歧管为止,梯度噪声阻止了进一步的收敛。在这样的政权中,Blanc等人。 (2020)证明,带有标签噪声的SGD局部降低了常规术语,损失的清晰度,$ \ mathrm {tr} [\ nabla^2 l] $。当前的论文通过调整Katzenberger(1991)的想法提供了一个总体框架。它原则上允许使用随机微分方程(SDE)描述参数的限制动力学的SGD围绕此歧管的正规化效应(即“隐式偏见”)的正则化效应,这是由损失共同确定的功能和噪声协方差。这产生了一些新的结果:(1)与Blanc等人的局部分析相比,对$ \ eta^{ - 2} $ steps有效的隐性偏差进行了全局分析。 (2020)仅适用于$ \ eta^{ - 1.6} $ steps和(2)允许任意噪声协方差。作为一个应用程序,我们以任意大的初始化显示,标签噪声SGD始终可以逃脱内核制度,并且仅需要$ o(\ kappa \ ln d)$样本用于学习$ \ kappa $ -sparse $ -sparse yroverparame parametrized linearized Linear Modal in $ \ Mathbb {r}^d $(Woodworth等,2020),而GD在内核制度中初始化的GD需要$ \ omega(d)$样本。该上限是最小值的最佳,并改善了先前的$ \ tilde {o}(\ kappa^2)$上限(Haochen等,2020)。
translated by 谷歌翻译
时间接地旨在本地化与给定的自然语言查询语义对齐的视频片刻。现有方法通常在融合表示上应用检测或回归管道,研究重点是设计复杂的预测头或融合策略。相反,从时间接地作为度量学习问题的角度来看,我们呈现了一个相互匹配的网络(MMN),以直接模拟联合嵌入空间中的语言查询和视频矩之间的相似性。这种新的公制学习框架可以完全利用两个新方面的负面样本:在相互匹配方案中构建负跨模型对和跨不同视频的挖掘负对。这些新的阴性样本可以通过跨模态相互匹配来增强两个模式的联合表示学习,以最大化其互信。实验表明,与四个视频接地基准测试的最先进的方法相比,我们的MMN实现了竞争力的表现。基于MMN,我们为第三张图片车间的HC-STVG挑战提供了一个胜利者解决方案。这表明度量学习仍然是通过捕获关节嵌入空间中的基本跨模式相关性的时间接地的有希望的方法。代码可在https://github.com/mcg-nju/mmn获得。
translated by 谷歌翻译