视觉定位是一个有吸引力的问题,它基于查询图像估计来自数据库图像的相似定位。它是各种应用的关键任务,例如自动驾驶汽车,辅助导航和增强现实。任务的挑战性问题在于查询和数据库图像之间的不同外观变化,包括照明变化,季节变化,动态对象变化和观点变化。为了应对这些挑战,本文提出了全景环形透镜和强大的深度图像描述符的全景环形定位器。处理由单个摄像机捕获的全景环形图像并将其馈送到NetVLAD网络中以形成活动的深度描述符,并且利用顺序匹配来生成定位结果。在公共数据集和现场进行的实验说明了所提出的系统的验证。
translated by 谷歌翻译
最近对旋风强度估计的深度学习方法显示出了良好的结果。然而,由于气旋数据的极度稀缺具有特定的强度,大多数现有的深度学习方法无法在旋风强度估计上获得令人满意的表现,特别是在几乎没有实例的情况下。为了避免由稀缺样本引起的识别性能的降低,我们提出了一种情境感知的CycleGAN,它从相邻的旋风强度中学习了演化特征,并且合成了缺少来自非配对源类的样本的CNN特征。具体来说,我们的方法合成大小的特征取决于学习的进化特征,而不需要额外的信息。几种评估方法的实验结果表明了有效性,甚至可以预测看不见的类。
translated by 谷歌翻译
由于高存储和搜索效率,散列已经变得普遍用于大规模相似性搜索。特别是,深度哈希方法在监督场景下极大地提高了搜索性能。相比之下,由于缺乏可靠的监控相似性信号,无监督的深度哈希模型很难实现令人满意的性能。为了解决这个问题,我们提出了一种新的深度无监督散列模型,称为DistillHash,它可以学习由具有置信相似性信号的数据对组成的蒸馏数据集。具体地,我们研究了从局部结构学习的初始噪声相似性信号与由贝叶斯最优分类器分配的语义相似性标签之间的关系。我们表明,在一个温和的假设下,一些数据对,其中哪些标签与贝叶斯最优分类器指定的标签一致,可以被潜在地提炼出来。受此事实的启发,我们设计了一种简单的有效策略来自动提取数据对,并进一步采用贝叶斯学习框架从蒸馏数据集中学习哈希函数。三个广泛使用的基准数据集的广泛实验结果表明,提出的DistillHash始终如一地完成了最先进的搜索性能。
translated by 谷歌翻译
聚类方法最近吸收了越来越多的关注学习和视觉。深度聚类结合嵌入和聚类以获得用于聚类的最佳嵌入子空间,与传统的聚类方法相比,这可以更有效。在本文中,我们提出了一个用于判别嵌入和光谱聚类的联合学习框架。我们首先设计了一个双自动编码器网络,它强制对潜在表示及其噪声转换进行构造约束,将输入嵌入潜在的空间进行聚类。因此,所获得的潜在表示对于噪声可以更加鲁棒。然后利用互信息估计从输入提供更多的判别信息。此外,应用深谱聚类方法将潜在表示嵌入到本征空间中,然后将其聚类,从而充分利用输入之间的关系,实现最优聚类结果。基准数据集的实验结果表明,我们的方法可以明显优于最先进的聚类方法。
translated by 谷歌翻译
随着无人机的能力和复杂性不断增加,人机界面社区有责任设计更好的方法来指定指导它们所需的复杂3D飞行路径。沉浸式界面,例如由虚拟现实(VR)提供的界面,具有几个独特的可以提高用户感知和指定3D信息的能力的特征。这些特征包括立体深度线索,其诱导物理空间感以及六个自由度(DoF)自然头部姿势和姿势交互。这项工作为VR中的3D空中路径规划引入了一个开源平台,并将其与现有的UAVpiloting接口进行了比较。我们的研究发现,与手动控制界面相比,安全性和主观可用性在统计上有显着改善,同时在2D触摸屏界面上实现了统计上显着的效率提升。结果表明,沉浸式接口为无人机路径规划的触摸屏界面提供了可行的替代方案。
translated by 谷歌翻译
随着数据量的爆炸性增长和数据节点的不断增加的多样性,跨模态相似性搜索在不同模态下进行最近邻,已引起越来越多的关注。本文提出了一种深度紧凑的代码学习解决方案,用于高效的模态相似性搜索。最近的许多研究已经证明,基于基于量化的方法在单模态相似性搜索上的表现通常优于基于哈希的方法。在本文中,我们提出了一种深度量化方法,这是将深度神经网络用于基于量化的跨模态相似性搜索的早期尝试之一。 Ourapproach,被称为共享预测深度量化(SPDQ),明确地为不同模态和两个私有子空间明确地建立共享子空间用于单个模态,并且共享子空间和私有子空间中的表示通过将它们嵌入到生成内核Hilbert空间中来同时学习,其中均值嵌入可以明确地比较不同模态分布。此外,在sharedsubspace中,学习量化器以在标签对齐的帮助下产生保留紧凑码的语义。由于这种新颖的网络架构与监督量化训练相结合,SPDQ可以尽可能地保持模态和联运的相似性,并大大减少量化误差。两个流行基准测试的实验证实了我们的方法优于最先进的方法。
translated by 谷歌翻译
计算机视觉近年来取得了令人瞩目的进展。同时,手机已经成为数百万人的主要计算平台。除了移动电话之外,许多自治系统依靠视觉数据来做出决策,其中一些系统的能量有限(例如无人驾驶飞行器也称为无人驾驶飞机和移动机器人)。这些系统依赖电池,能效至关重要。本文保留了两个主要目的:(1)检查低功率解决方案的最新技术,以检测图像中的对象。自2015年以来,IEEE年度国际低功耗图像识别挑战赛(LPIRC)一直致力于识别最节能的计算机视觉解决方案。本文总结了2018年获奖者的解决方案。 (2)建议研究方向以及低功耗计算机视觉的机会。
translated by 谷歌翻译
高分辨率表示学习在许多视觉问题中起着重要作用,例如姿势估计和语义分割。最近开发用于人工估计的高分辨率网络(HRNet)〜\ _引用{SunXLW19}通过在\ emph {parallel}中连接高到低分辨率的卷积来维持整个过程的高分辨率表示,并产生强大的高分辨率表示通过反复进行平行卷积的融合。在本文中,我们通过引入简单而有效的修改对高分辨率表示进行了进一步的研究,并将其应用于广泛的视觉任务。我们通过聚合来自所有并行卷积的(上采样的)表示来增强高分辨率表示,而不是仅仅是高分辨率卷积中的表示,如在{SunXLW19}中所做的那样。这种简单的修改可以产生更强的表现形式,并且可以通过卓越的结我们展示了在城市景观,LIP和PASCAL背景下的语义分割以及AFLW,COFW,$ 300 $ W和WFLW的面部地标检测的最佳结果。此外,我们从高分辨率表示构建多级表示,并将其应用于更快的R-CNN对象检测框架和扩展框架。所提出的方法在现有的COCO对象检测单模型网络上取得了优异的成果。代码和模型已在\ url {https://github.com/HRNet}上公开。
translated by 谷歌翻译
在本文中,我们提出了一种新的元学习方法,用于深度神经网络的自动修剪。我们首先训练一个PruningNet,一个元网络,它能够为给定目标网络的任何结构生成权重参数。我们使用简单的随机结构采样方法来训练PruningNet。然后,我们应用演化过程来搜索性能良好的修剪网络。搜索效率很高,因为权重是由经过培训的PruningNet直接生成的,我们不需要任何微调。通过为目标网络培训的单个PruningNet,我们可以在不受人类参与的情况下搜索不同约束下的各种修剪网络。我们已经在MobileNet V1 / V2网络上展示了竞争性能,ImageNetaccuracy比V1 / V2高出9.0 / 9.9。与之前最先进的基于AutoML的修剪方法(如AMC和NetAdapt)相比,我们在各种条件下都达到了更高或更高的准确度。
translated by 谷歌翻译
预测气味的愉悦性简化了气味的评估,并且具有应用于香水和环境监测行业的潜力。用于预测气味愉悦性的经典算法通常使用手动特征提取器和独立分类器。手动设计良好的特征提取器取决于专家知识和经验是算法准确性的关键。为了克服这个困难,我们提出了一种通过卷积神经网络预测气味愉悦的模型。在我们的模型中,卷积神经层取代了手动特征提取器并显示出更好的性能。实验表明,我们的模型与人类之间的相关性在愉悦程度上超过90%。 Andour模型在区分绝对令人愉快或令人不快的气味方面具有99.9%的准确度。
translated by 谷歌翻译