视觉定位是一个有吸引力的问题,它基于查询图像估计来自数据库图像的相似定位。它是各种应用的关键任务,例如自动驾驶汽车,辅助导航和增强现实。任务的挑战性问题在于查询和数据库图像之间的不同外观变化,包括照明变化,季节变化,动态对象变化和观点变化。为了应对这些挑战,本文提出了全景环形透镜和强大的深度图像描述符的全景环形定位器。处理由单个摄像机捕获的全景环形图像并将其馈送到NetVLAD网络中以形成活动的深度描述符,并且利用顺序匹配来生成定位结果。在公共数据集和现场进行的实验说明了所提出的系统的验证。
translated by 谷歌翻译
在现成的导航辅助设备上,定位精度仅限于全球导航卫星系统(GNSS)的信号误差。在户外旅行期间,不准确的本地化困扰视觉上受损的人,特别是在关键位置,例如大门,公共汽车站或十字路口。视觉定位是提高辅助设备定位精度的可行方法。利用多个图像描述符,本文提出了一种鲁棒有效的可视化局部算法,利用先验GNSS信号和多模态图像实现关键位置的精确定位。在实验中,我们在可穿戴系统上实现了该方法,并在实际场景下测试了可视化本地化的性能。
translated by 谷歌翻译
直接学习点云的特征已成为3D理解中的一个活跃的研究方向。现有的基于学习的方法通常从点云构建局部区域,并使用共享的多层感知器(MLP)和最大池来提取相应的特征。然而,这些过程中的大多数并未充分考虑点云的空间分布,从而限制了感知细粒度图案的能力。我们设计了一种新颖的局部空间注意(LSA)模块,根据局部区域的空间分布自适应地生成注意力图。与这些注意力图集成的特征学习过程可以有效地捕获局部几何结构。我们进一步提出构建分支架构的空间特征提取器(SFE),以便更好地将空间信息与网络的每一层中的相关特征进行聚合。实验表明,我们的网络名为LSANet,可以达到与状态相同或更好的性能。评估具有挑战性的基准数据集时的最先进方法。源代码可从以下网址获得://github.com/LinZhuoChen/LSANet。
translated by 谷歌翻译
处理高方差是无模型增强学习(RL)中的重大挑战。现有方法是不可靠的,使用不同的初始化/种子表现出从一次运行到另一次运行的性能的高度变化。着眼于连续控制中出现的问题,我们提出了一种增强无模型RL的功能规范化方法。特别是,将深层政策的行为与先前的政策相似,即我们在功能空间中进行规范化。我们证明功能正则化会产生偏差 - 方差权衡,并提出一种自适应调整策略来优化这种权衡。当政策先验具有控制理论稳定性保证时,我们进一步表明,这种正规化近似预先保证了整个学习过程中的稳定性。我们在一系列设置上验证了我们的认可度,并证明了与单独的deepRL相比,显着降低了方差,保证了动态稳定性和更有效的学习。
translated by 谷歌翻译
受益于计算机视觉,自然语言处理和信息检索技术的进步,旨在回答关于图像或视频的问题的视觉问答(VQA)在过去几年中受到了很多关注。虽然到目前为止已经取得了一些进展,但是一些研究已经指出当前的VQA模型受到\ emph {语言先验问题}的严重影响,这意味着它们倾向于根据问题关键词的共现模式提出问题(例如,有多少) )和答案(例如,2)而不是理解图像和问题。现有方法试图通过平衡偏置数据集或强制模型更好地理解图像来解决该问题。然而,对于第一和第二解决方案,分别仅观察到边际效应甚至性能劣化。此外,另一个重要问题是缺乏测量来定量测量语言效应的程度,这严重阻碍了相关技术的进步。在本文中,我们从两个方面为解决上述问题做出了贡献。首先,我们设计了一个度量标准来定量测量VQA模型的语言先验效应。已经证明建议的度量标准在我们的实证研究中是有效的。其次,我们提出了一种正则化方法(即得分正则化模块),通过降低语言先验问题以及提升骨干模型性能来增强当前的VQA模型。所提出的得分正则化模块采用成对学习策略,这使得VQA模型基于图像的推理(在此问题上)回答问题,而不是基于在偏见训练集中观察到的问题 - 答案模式。 scoreregularization模块可灵活地集成到各种VQA模型中。
translated by 谷歌翻译
将对象解构为内容和风格的两个正交空间是具有挑战性的,因为每个对象可以不同地且不可预测地影响视觉观察。很少有人可以访问分离影响的大量数据帮助。在本文中,我们提出了一种新的框架,以完全无监督的方式容忍这种解缠结的表示。在双分支Autoencoder框架中解决此问题。对于结构内容分支,我们将潜在因子投影到一个软结构化的点对象中,并用先验知识得到的损失约束它。此约束鼓励分支提取几何信息。 Anotherbranch学习补充风格信息。这两个分支形成了一个有效的框架,可以解开对象的内容风格表示,而不需要任何人类注释。我们在四个图像数据集上评估我们的方法,在这些数据集上我们展示了合成和现实世界数据中的优越解开和视觉类比质量。我们能够生成具有256 * 256分辨率的非常逼真的图像,这些图像明显地解开了不确定和风格。
translated by 谷歌翻译
最近对旋风强度估计的深度学习方法显示出了良好的结果。然而,由于气旋数据的极度稀缺具有特定的强度,大多数现有的深度学习方法无法在旋风强度估计上获得令人满意的表现,特别是在几乎没有实例的情况下。为了避免由稀缺样本引起的识别性能的降低,我们提出了一种情境感知的CycleGAN,它从相邻的旋风强度中学习了演化特征,并且合成了缺少来自非配对源类的样本的CNN特征。具体来说,我们的方法合成大小的特征取决于学习的进化特征,而不需要额外的信息。几种评估方法的实验结果表明了有效性,甚至可以预测看不见的类。
translated by 谷歌翻译
在本文中,我们使用一个时间演化图,它包含一系列的图快照,可以模拟许多真实世界的网络。我们在时间演化图中研究路径分类问题,该图在现实世界场景中具有许多应用,例如,预测电信网络中的路径故障并预测在不久的将来交通网络中的路径拥塞。为了捕捉时间依赖性和图形结构动力学,我们设计了一种名为Long Short-TermMemory R-GCN(LRGCN)的新型深度神经网络。 LRGCN将时间相邻图快照之间的时间依赖性视为与内存的特殊关系,并使用关系GCN来共同处理时间内和时间间关系。我们还提出了一种名为\ underline {s} elf- \ underline {a} ttentive \ underline {p} ath \ underline {e} mbedding(SAPE)的新路径表示方法,用于将任意长度的路径嵌入到固定长度的向量中。通过对加利福尼亚实际电信网络和交通网络的实验,我们证明了LRGCN在路径故障预测中对其他竞争方法的优越性,并证明了SAPE在路径表示上的有效性。
translated by 谷歌翻译
效率对于在线推荐系统至关重要。将用户和项目表示为协同过滤(CF)的二进制向量可以在汉明空间中实现快速用户项目亲和度计算,近年来,我们已经尝试了利用CF方法的二进制散列技术的新兴研究工作。然而,具有二进制代码的CF由于每个位中的有限表示能力而自然地遭受低准确性,这阻碍了它对数据的复杂结构进行建模。在这项工作中,我们尝试通过利用实值向量的准确性和二进制代码表示用户/项目的效率来提高效率而不损害模型性能。特别地,我们提出了用于协同过滤的组合编码(CCCF)框架,其不仅获得比现有技术的CF方法更好的推荐效率,而且实现了比具有有价值的CF方法更高的精度。具体而言,CCCF创新地用一组二进制向量表示每个用户/项目,二进制向量与稀疏实际值权重向量相关联。权重向量的每个值将对应的二进制向量的重要性编码到用户/项目。连续权重向量极大地增强了二进制代码的表示能力,其稀疏性保证了处理速度。此外,提出了一种整数近似方案以进一步加快速度。基于CCCF框架,我们设计了一种有效的离散优化算法来学习其参数。在三个真实世界数据集上的广泛实验表明,我们的方法在推荐精度和效率方面都优于最先进的二值化CF方法(甚至实现了比实值CF方法更好的性能)。
translated by 谷歌翻译
由于高存储和搜索效率,散列已经变得普遍用于大规模相似性搜索。特别是,深度哈希方法在监督场景下极大地提高了搜索性能。相比之下,由于缺乏可靠的监控相似性信号,无监督的深度哈希模型很难实现令人满意的性能。为了解决这个问题,我们提出了一种新的深度无监督散列模型,称为DistillHash,它可以学习由具有置信相似性信号的数据对组成的蒸馏数据集。具体地,我们研究了从局部结构学习的初始噪声相似性信号与由贝叶斯最优分类器分配的语义相似性标签之间的关系。我们表明,在一个温和的假设下,一些数据对,其中哪些标签与贝叶斯最优分类器指定的标签一致,可以被潜在地提炼出来。受此事实的启发,我们设计了一种简单的有效策略来自动提取数据对,并进一步采用贝叶斯学习框架从蒸馏数据集中学习哈希函数。三个广泛使用的基准数据集的广泛实验结果表明,提出的DistillHash始终如一地完成了最先进的搜索性能。
translated by 谷歌翻译