摄像机和惯性测量单元是互补传感器放大运动估计和环境映射。它们的组合使得视觉惯性测距(VIO)系统更加准确和稳健。然而,对于全局一致的映射,结合视觉和惯性信息并不是直截了当的。要使用一组图像估计运动和几何,需要使用大基线。因此,大多数系统在关键帧上运行,这些关键帧之间的时间间隔很长。另一方面,惯性数据随着间隔的持续时间快速降低,并且在几秒的积分之后,它通常仅包含很少的有用信息。在本文中,我们建议使用非线性因子恢复从视觉惯性测距中提取视觉惯性映射的相关信息。我们构造了一组非线性因子,这些因子可以对VIO累积的轨迹信息进行最佳近似。为了获得全局一致的地图,我们使用捆绑调整将这些因素与循环闭合约束相结合。 VIO因子使全局图的滚动和俯仰角度可观察,并提高了映射的鲁棒性和准确性。在公共基准测试的实验中,我们展示了我们的方法优于最先进方法的性能。
translated by 谷歌翻译
忽视滚动快门相机对视觉里程(VO)的影响会严重降低准确性和稳健性。在本文中,我们提出了一种包含滚动快门模型的noveldirect单眼VO方法。 Ourapproach扩展了直接稀疏测距,可以对一组最近的关键帧姿势和稀疏的图像点集的深度进行直接束调整。我们估计每个关键帧的速度,并在优化之前施加aconstant-velocity。通过这种方式,我们获得了近实时,准确的直接VO方法。我们的方法通过最先进的全局快门VO实现了具有挑战性的滚动快门序列的改进结果。
translated by 谷歌翻译
视觉里程计和SLAM方法具有各种各样的应用,例如增强现实或机器人技术。通过惯性测量补充视觉传感器极大地提高了跟踪精度和鲁棒性,因此引起了对视觉 - 惯性(VI)测距方法的开发的极大兴趣。在本文中,我们提出了TUM VIbenchmark,这是一种新颖的数据集,在不同的场景中具有多种序列,用于评估VI测距。它提供具有1024x1024分辨率,20 Hz,高动态范围和光度校准的相机图像。 IMU以200 Hz的频率测量3轴上的加速度和角速度,而摄像机和IMU传感器在硬件中进行时间同步。对于轨迹评估,我们还可以在运动捕捉系统中以高频(120 Hz)在序列的开始和结束处提供准确的姿态地面实况,我们通过摄像机和IMU测量精确对准。具有原始和校准数据的完整数据集是公开可用的。我们还在数据集上评估最先进的VIodometry方法。
translated by 谷歌翻译
Generative Adversarial Networks have shown remarkable success in learning a distribution that faithfully recovers a reference distribution in its entirety. However, in some cases, we may want to only learn some aspects (e.g., cluster or manifold structure), while modifying others (e.g., style, orientation or dimension). In this work, we propose an approach to learn generative models across such incomparable spaces, and demonstrate how to steer the learned distribution towards target properties. A key component of our model is the Gromov-Wasserstein distance, a notion of discrepancy that compares distributions relationally rather than absolutely. While this framework subsumes current generative models in identically reproducing distributions, its inherent flexibility allows application to tasks in manifold learning, relational learning and cross-domain learning.
translated by 谷歌翻译
本文涉及在图形模型中估计模型参数。将其描述为信息几何优化问题,并引入包含额外元参数的解剖梯度下降策略。我们表明,我们的方法是图形模型中用于学习的着名EM方法的强有力替代方案。实际上,我们基于自然梯度的策略导致学习最终目标函数的最佳参数,而不是试图拟合可能与真实不对应的分布。我们支持我们的理论发现与金融市场中的趋势检测问题,并表明学习模型表现出更好的传统实践方法,并且不易过度拟合。
translated by 谷歌翻译
我们在最近普及的分散执行(CTDE)制度的集中培训中探索基于价值的多智能体强化学习(MARL)任务解决方案。然而,VDN和QMIX是代表性的例子,它将联合行动 - 价值函数的因子分解为分散执行的个体化。 VDN和QMIX仅解决可分解的MARL任务的分数,因为它们在诸如可加性和单调性之类的因素中具有结构约束。在本文中,我们提出了一种新的MARL分解方法,即QTRAN,它没有这种结构约束,并采用了一种新的方法将原始的联合作用 - 值函数转换为易于分解的函数,具有相同的优化。 QTRAN保证比VDN或QMIX更通用的因子分解,因此比以前的方法覆盖了更广泛的MARL任务类。多域Gaussian-squeeze和modifiedpredator-prey任务的Ourexperiments展示了QTRAN在游戏中的特殊大规模优越性能,其收益更加积极地惩罚非合作行为。
translated by 谷歌翻译
我们给出了过度约束的回归问题的第一维降维方法。 Tukey损失函数$ \ | y \ | _M = \ sum_i M(y_i)$有剩余误差的$ M(y_i)\ approx | y_i | ^ p $ $ $ y_i $小于规定阈值$ \ tau $,但是$ M(y_i)$对于错误$ | y_i |变为常量> \ tau $。我们的结果取决于一个新的结构结果,建设性地证明,对于任何$ d $ -dimensional子空间$ L \ subset \ mathbb {R} ^ n $,有一个固定的有界大小的坐标子集,包含每个$ y \ in L $,关于Tukey损失函数的所有大坐标,$ y $。我们的方法将给定的Tukey回归问题减少到较小的加权版本,whosesolution对于原始问题是可证明的良好近似解。我们的减少是快速,简单和易于实现的,并且我们使用现有的启发式解算器为小版本提供了证明其实用性的经验结果。我们还给出了指数时间算法,给出了可证明的解决方案,并且硬度结果表明在最坏的情况下不太可能出现显着的加速。
translated by 谷歌翻译
执法部门或大众媒体机构经常需要面对隐瞒提供隐私保护。共享敏感内容,其中遮蔽或减少技术可能未能完全消除所有可识别的痕迹,可能导致危及生命的后果。因此,能够系统地测量给定技术的面部遮蔽性能是至关重要的。在本文中,我们建议测量三种模拟技术的有效性:高斯模糊,中值模糊和像素化。通过在两种情况下识别编辑的面部来进行编辑:将遮蔽的面部分类为一组身份,并将遮蔽的面部与清晰面部的相似性进行比较。威胁建模还被认为是为每种研究的遮蔽技术提供漏洞分析。基于ourevaluation,我们表明基于像素化的面部遮蔽方法是最有效的。
translated by 谷歌翻译
我们研究了用于深度神经网络的更广泛的Winograd族卷积算法。我们提出了显式的Winograd卷积算法一般情况(使用了高于1的度数的多项式)。它允许我们在常用的Winograd卷积算法的性能方面构建更多不同的版本,并提高卷积计算的准确性和性能。我们发现在$ fp16 $中,这种方法使我们能够获得更好的图像识别精度,同时保持与单个输出点计算的相同数量的一般乘法,因为常用的Winograd算法适用于尺寸为$ 3 \ times 3 $且输出大小等于$ 4 \ times的内核$ 4。我们证明,在$ bf16 $中,可以更快地执行卷积计算,保持图像识别的准确性与直接卷积方法相同。我们测试了我们的方法,从Imaginet验证集中获得了2000美元$图像的子集。我们给出了三个精度计算结果$ fp32 $,$ fp16 $和$ bf16 $。
translated by 谷歌翻译
深度学习建立在梯度下降与目标函数收敛于局部最小值的基础上。不幸的是,这种保证在诸如生成对抗网之类的设置中失败,这些设置表现出多种相互作用的损失。基于梯度的方法在游戏中的行为并未被理解 - 并且随着对抗性和多目标体系结构的激增而变得越来越重要。在本文中,我们开发了新的工具来理解和控制n玩家可区分游戏的动态。关键的结果是将雅可比游戏分解为两个组成部分。第一个对称分量与潜在的游戏有关,这些游戏在隐式函数上减少了梯度下降。第二个反对称组件涉及哈密尔顿游戏,这是一类新的游戏,遵循经典机械系统中的守恒定律。分解激发了辛差梯度调整(SGA),这是一种在可微分游戏中寻找稳定不动点的新算法。基本实验表明,SGA与最近提出的用于在GAN中找到稳定的固定点的算法具有竞争性 - 同时适用于并且具有更多一般情况的保证。
translated by 谷歌翻译