我们通过研究如何扩展卷积神经网络中汇集的作用来解决显着目标检测问题。基于U形架构,我们首先在底部通道上构建全局引导模块(GGM),旨在为不同特征层提供潜在显着对象的位置信息。我们进一步设计了一个特征聚集模块(FAM),使粗略的语义信息与来自自上而下的路径的精细级特征融合在一起。通过在自顶向下路径中的融合操作之后添加FAM,来自GGM的粗略特征可以与各种尺度的特征无缝地合并。这些基于twopooling的模块允许逐步细化高级语义特征,从而产生细节丰富的显着性映射。实验结果表明,我们提出的方法可以更准确地定位具有尖锐细节的显着对象,因此与先前的现有技术相比显着改善了性能。我们的方法也很快,并且在处理300美元以上400美元的图像时可以以超过30 FPS的速度运行。代码可以在http://mmcheng.net/poolnet/找到。
translated by 谷歌翻译
元学习是一种很有前途的解决方案。但是,现有的元学习方法仅限于训练和应用任务共享相同输出结构的场景。为了获得具有新结构的任务的元模式,需要收集新的训练数据并重复耗时的元训练过程。这使得学习解决异构学习的学习任务效率低下甚至不适用。因此,我们开发了一种新颖且有原则的分层学习(HML)方法。与仅关注优化元模型对类似任务的适应性的现有方法不同,HML还明确优化了跨异构任务的可普遍性。为此,HML首先将一组类似的训练任务分解为异构训练任务,并在两个层次上训练元模型,以分别最大化自适应和泛化性能。然后,结果模型可以直接推广到新任务。广泛的实验表明,在异构任务的泛化方面,HML优于微调和最先进的元学习方法。
translated by 谷歌翻译
在本文中,我们提出了一种新的无监督视频摘要模型,它不需要手动注释。所提出的称为Cycle-SUM的模型采用新的循环一致的对抗LSTM架构,可以有效地最大化信息保存和摘要视频的紧凑性。它由一个帧选择器和一个循环一致的基于学习的评估器组成。选择器是双向LSTM网络,其学习嵌入视频帧之间的长程关系的视频表示。评估者定义原始视频和摘要视频之间的可学习信息保持度量,并“监督”选择器以识别最具信息性的帧以形成总体视频。特别地,评估器由两个生成对偶网络(GAN)组成,其中前向GAN被学习以从摘要视频重建主要视频,而后向GAN学习反转处理。这种循环学习的输出之间的一致性被用作视频摘要的信息保持度量。我们展示了互信息最大化与此类循环学习过程之间的密切关系。两个视频摘要基准数据集的实验验证了CY-SUM模型相对于先前基线的最新性能和优越性。
translated by 谷歌翻译
在自然图像中,信息以不同的频率传送,其中较高频率通常用精细细节编码,较低频率通常用全局结构编码。类似地,卷积层的输出特征图也可以看作是不同频率的信息的混合。在这项工作中,我们建议通过频率对混合特征图进行分解,并设计一种新颖的Octave卷积(OctConv)操作来存储和处理在空间分辨率较低时空间“变慢”的特征图,从而降低内存和计算成本。与现有的多尺度方法不同,OctConv是一种单一的,通用的,即插即用的卷积单元,可以直接替代(香草)卷积而无需对网络架构进行任何调整。它也是正交和补充方法,这些方法表明更好的拓扑结构或减少通道方式冗余,如组或深度卷积。我们实验证明,通过简单地用OctConv取代同意,我们可以不断提高图像和视频识别任务的准确性,同时减少内存和计算成本。配备OctConv的ResNet-152可以在ImageNet上实现82.9%的前1级分类精度,仅有22.2GFLOP。
translated by 谷歌翻译
在本文中,我们研究了具有挑战性的无约束基于集合的人脸识别问题,其中每个主题面部由一组媒体(图像和视频)而不是单个图像实例化。来自集合内的所有媒体的天真地聚合信息将遭受由异构因素(例如,变化的媒体模态,姿势和发光)引起的大的内部集合变化,并且不能学习辨别性面部表示。因此,提出了一种新颖的多原型网络(MPNet)模型,以从媒体集自适应地学习多原型面部表示。在姿势,照明和媒体形态的某些条件下,每个学习原型都代表主题面部。 MPNet不是手工制作用于原型学习的setpartition,而是引入了一个密集子图(DSG)学习子网,隐含地解开不一致的媒体并学习大量代表性原型。定性和定量实验清楚地证明了所提出的模型优于现有技术的优越性。
translated by 谷歌翻译
面部反欺骗(又称演示攻击检测)由于面部认证系统的高安全性需求而引起越来越多的关注。现有的基于CNN的方法通常很好地认识到欺骗面和测试欺骗样本显示类似的模式,但它们的性能会急剧下降在本文中,我们试图通过设计具有两个主要新颖性的CNN模型来提高这些方法的普遍性和适用性。首先,我们为CNN训练提出了简单但有效的总成对混淆(TPC)丢失,这增强了学习的演示攻击(PA)表示的普遍性。其次,我们将快速域适应(FDA)组件纳入CNN模型,以减轻域更改带来的负面影响。此外,我们提出的模型,名为Generalizable FaceAuthentication CNN(GFA-CNN),以多任务方式工作,同时执行面对面欺骗和人脸识别。实验结果表明,GFA-CNN优于以往的人脸反欺骗方法,并且能够很好地保留输入人脸图像的身份信息。
translated by 谷歌翻译
预测未来是一种幻想但实用性的工作。它是智能代理的关键组成部分,如自动驾驶车辆,医疗监控设备和机器人技术。在这项工作中,我们考虑从先前的观察中生成未见的帧,由于帧动态的不确定性,这是非常困难的。虽然最近基于生成对偶网络(GAN)的工作取得了显着进展,但仍然存在制定准确和现实预测的障碍。在本文中,我们提出了一种基于帧间差异的新型GAN来规避这些困难。更具体地说,我们的模型是一个多阶段生成网络,称为差异引导生成对抗网络(DGGAN)。 DGGAN学会明确地执行由合成帧间差异引导的未来帧预测。给定一系列帧,DGGAN首先使用双路径来生成元信息。一条路径称为Coarse FrameGenerator,它预测有关未来帧的粗略细节,另一条路径称为差异指南生成器,生成包含互补精细细节的差异图像。然后在GAN的支持下,通过差异图像的引导,细化我们的粗略细节。借助这种模型和新型架构,我们可以在UCF-101,KITTI上实现未来视频预测的最先进性能。
translated by 谷歌翻译
许多感兴趣的活动都是罕见的事件,只有少数标记的例子可用。因此,期望能够从几个示例中容忍的用于时间活动检测的模型。在本文中,我们提出了几乎简单和一般但新颖的几拍时间性检测框架,它检测未修剪视频中的少数输入活动的开始和结束时间。我们的模型是端到端的可训练的,可以从更多的几个例子中受益。在测试时,为每个提议分配与最大相似度得分相对应的少数活动类别的标签。我们的相似性R-C3D方法在几次拍摄设置中优于之前关于时间活动检测的三个基准测试(THUMOS14,ActivityNet1.2和ActivityNet1.3数据集)的工作。我们的代码将可用。
translated by 谷歌翻译
这项工作旨在解决具有挑战性的几个镜头对象检测问题,其中只有少数带注释的示例可用于每个对象类别以构建检测模型。这种从少数例子中学习检测物体的能力对于人类视觉系统来说是常见的,但对于计算机视觉系统来说仍然不存在。尽管少数元学习提供了一种promisingsolution技术,但以前的工作主要针对图像分类的任务,并不直接适用于更复杂的对象检测任务。在这项工作中,我们提出了一种新颖的基于元学习的模型,该模型具有精心设计的架构,包括元模型和基础检测模型。基础检测模型在几个基类上进行训练,并提供足够的样本以提供基本特征。元模型被训练为从输入图像的基础检测模型重新加权特征的重要性,并且通过少数示例来适应这些特征以辅助新颖的对象检测。元模型重量轻,端到端可训练,并且能够使基本模型具有快速检测新物体的能力。通过实验,我们证明了我们的模型可以通过在多个数据集和设置上进行少数对象检测的大数据来优于基线。我们的模型也表现出对新颖的几次射击类的快速适应速度。
translated by 谷歌翻译
区域间关系的全局建模和推理对于图像和视频上的许多计算机视觉任务都是有益的。卷积神经网络(CNNs)擅长通过卷积操作建模局部关系,但它们通常在捕获远距离区域之间的全局关系方面效率低,并且需要堆叠多个convolutionlayers。在这项工作中,我们提出了一种全局推理的新方法,即在坐标空间上全局聚合的特征集,然后投射到可以有效计算关系推理的交互空间。在推理之后,关系感知特征被分配回原始坐标空间以用于下游任务。我们进一步提出了所提出方法的高效实例化,并引入了GlobalReasoning单元(GloRe单元),该单元通过加权全局池和加权广播实现坐标交互空间映射,并通过图卷积在交互空间中的小图上进行关系推理。所提出的GloRe装置重量轻,端到端可训练,可轻松插入现有的CNN,以执行各种任务。广泛的实验表明,我们的GloRe单元可以持续提升最先进的骨干架构的性能,包括ResNet,ResNeXt,SE-Net和DPN,用于2D和3D CNN,图像分类,语义分割和视频动作识别任务。
translated by 谷歌翻译