使用RGB-Dcameras获取密集3D环境贴图的大多数方法都假定静态环境或拒绝将对象移动为异常值。然而,移动物体的表示和跟踪对于机器人或增强现实中的应用具有显着的潜力。在本文中,我们提出了一种具有密集对象级表示的动态SLAM的新方法。我们在局部体积有符号距离函数(SDF)图中表示刚性对象,并将多对象跟踪表示为RGB-D图像与SDF表示的直接对齐。我们的主要新颖性是概率性表达,自然导致数据关联和隐藏处理的策略。我们在实验中分析了我们的方法,并证明了我们的方法在最大限度和准确性方面与最先进的方法相比是有利的。
translated by 谷歌翻译
摄像机和惯性测量单元是互补传感器放大运动估计和环境映射。它们的组合使得视觉惯性测距(VIO)系统更加准确和稳健。然而,对于全局一致的映射,结合视觉和惯性信息并不是直截了当的。要使用一组图像估计运动和几何,需要使用大基线。因此,大多数系统在关键帧上运行,这些关键帧之间的时间间隔很长。另一方面,惯性数据随着间隔的持续时间快速降低,并且在几秒的积分之后,它通常仅包含很少的有用信息。在本文中,我们建议使用非线性因子恢复从视觉惯性测距中提取视觉惯性映射的相关信息。我们构造了一组非线性因子,这些因子可以对VIO累积的轨迹信息进行最佳近似。为了获得全局一致的地图,我们使用捆绑调整将这些因素与循环闭合约束相结合。 VIO因子使全局图的滚动和俯仰角度可观察,并提高了映射的鲁棒性和准确性。在公共基准测试的实验中,我们展示了我们的方法优于最先进方法的性能。
translated by 谷歌翻译
我们提出了一种新颖的实时直接单目视觉测距仪,用于单向摄像机。我们的方法通过使用统一的全方位模型作为投影函数来扩展直接稀疏测距(DSO),可以应用于具有远大于180度的视场(FoV)的鱼眼摄像机。这种公式允许使用整个区域。输入图像甚至具有强烈的失真,而大多数现有的视觉测距方法只能使用其成像和裁剪部分。有效关键帧窗口内的模型参数被联合优化,包括内在/外在相机参数,点的3D位置和仿射亮度参数。由于宽的FoV,帧之间的图像重叠变得更大并且点更具空间分布。我们的结果表明,我们的方法提供了比最先进的视觉odometrogngorithms更高的准确性和鲁棒性。
translated by 谷歌翻译
诸如语义分割的密集像素预测是深度卷积神经网络(CNN)的最新挑战。许多最先进的方法要么解决由于在编码器阶段汇集而导致的高分辨率信息的丢失,要么使用扩张的卷积或高分辨率的通道来维护详细的特征图和预测。受多分辨率小波分析与CNN汇集/解拼层之间结构化的影响,我们将离散小波变换(DWT)引入CNN编码器 - 解码器架构并提出WCNN。高频小波系数在编码器处计算,后者在解码器中通过逆DWT与粗分辨率特征图联合使用.DWT / iDWT进一步用于开发两个小波金字塔以捕获全局上下文,其中多个-resolution DWT用于连续降低空间分辨率并增加感受野。使用Cityscape数据集进行实验,所提出的WCNN具有计算效率,并且可以提高高分辨率密集像素预测的准确性。
translated by 谷歌翻译
忽视滚动快门相机对视觉里程(VO)的影响会严重降低准确性和稳健性。在本文中,我们提出了一种包含滚动快门模型的noveldirect单眼VO方法。 Ourapproach扩展了直接稀疏测距,可以对一组最近的关键帧姿势和稀疏的图像点集的深度进行直接束调整。我们估计每个关键帧的速度,并在优化之前施加aconstant-velocity。通过这种方式,我们获得了近实时,准确的直接VO方法。我们的方法通过最先进的全局快门VO实现了具有挑战性的滚动快门序列的改进结果。
translated by 谷歌翻译
纯粹依赖于几何线索的单目视觉测距方法适用于缩放漂移并且在连续帧中需要足够的运动视差以用于运动估计和3D重建。在本文中,我们建议利用深度单眼深度预测来克服基于几何的单眼视觉测距的局限性。为此,我们将深度预测与直接稀疏测距(DSO)结合为直接虚拟立体测量。对于深度预测,我们设计了一个新的深度网络,在两个阶段的过程中从单个图像中精确预测深度。我们以半监督的方式训练我们的网络,用于立体图像中的光子一致性和来自立体声DSO的精确稀疏深度重建的一致性。我们的深度预测在KITTI基准测试中优于单眼深度的最先进方法。此外,我们的Deep Virtual Stereo Odometry显然超出了以前的单眼和深度学习方法的准确性。它甚至可以提供与最先进的立体声方法相媲美的性能,同时仅依靠单个相机。
translated by 谷歌翻译
视觉里程计和SLAM方法具有各种各样的应用,例如增强现实或机器人技术。通过惯性测量补充视觉传感器极大地提高了跟踪精度和鲁棒性,因此引起了对视觉 - 惯性(VI)测距方法的开发的极大兴趣。在本文中,我们提出了TUM VIbenchmark,这是一种新颖的数据集,在不同的场景中具有多种序列,用于评估VI测距。它提供具有1024x1024分辨率,20 Hz,高动态范围和光度校准的相机图像。 IMU以200 Hz的频率测量3轴上的加速度和角速度,而摄像机和IMU传感器在硬件中进行时间同步。对于轨迹评估,我们还可以在运动捕捉系统中以高频(120 Hz)在序列的开始和结束处提供准确的姿态地面实况,我们通过摄像机和IMU测量精确对准。具有原始和校准数据的完整数据集是公开可用的。我们还在数据集上评估最先进的VIodometry方法。
translated by 谷歌翻译
已经提出自适应作为抵消技术系统的复杂性控制问题的机制。自适应背后的主要驱动力是将传统的设计时决策转移到运行时并转换为系统本身的责任的想法。为了应对不可预见的事件和条件,系统需要创造力 - 通常通过机器学习能力来实现。这种学习机制基于不同的知识来源。来自用于增强目的的环境的反馈可能是自适应和自组织(SASO)系统社区中最突出的反馈。然而,在这种背景下,其他(子)系统对个体系统学习成绩的成功的影响大多被忽略了。在本文中,我们提出了一种新的方法,以识别其他系统在ashared环境中执行的操作对自治系统的效用实现的影响。考虑智能摄像机(SC)作为示例:对于诸如对象的3D重建之类的目标,一个SC在跨度/倾斜/变焦参数方面的最有希望的配置在很大程度上取决于附近的其他SC的配置。由于无法为动力学系统预先定义这种相互影响,因此必须在运行时学习它们。此外,当基于反馈回路概念(例如,从SASO域或自主和有机计算计划中已知)自我改进自身配置决策时,必须考虑它们。我们定义了一种在运行时检测此类影响的方法,提出了一种在强化学习技术中考虑此信息的方法,并分析了人工以及真实世界SASO系统设置中的行为。
translated by 谷歌翻译
在NeuroEvolution中,人工神经网络的拓扑结构采用进化算法进行优化,以解决数据回归,数据分类或强化学习中的任务。 NeuroEvolution的一个缺点是大量必要的适应性评估,这可能使得对于具有昂贵评估的任务(例如实时学习)非常有效。对于这些昂贵的优化任务,基于代理模型的优化经常应用,因为其具有良好的评估效率。虽然两个程序的组合似乎是一个有价值的解决方案,但是替代建模过程的适当距离测量的定义是困难的。在这项研究中,我们将通过使用基于替代模型的优化来扩展人工神经网络的笛卡尔遗传规划。我们提出了不同的距离测量,并在可复制的基准任务上测试我们的算法。结果表明,我们可以显着提高评估效率,并且基于相关神经网络行为的表型距离是最有希望的。
translated by 谷歌翻译
在文本语料库上训练的神经语言模型可以用于诱导单词的分布表示,使得相似的单词最终具有相似的表示。如果语料库是多语言的,则可以使用相同的模型来学习语言的分布式表示,使得类似语言最终具有类似的表示。我们表明,即使将多语言语料库翻译成英语,通过拾取源语言留下的微弱信号,这仍然存在。然而,就像在单词表示中将语义与句法相似性分开是一个棘手的问题一样,语言表征捕获的是什么类型的相似性并不明显。我们研究了一方面从翻译中学习的语言表征与另一方面语言之间的遗传,地理和几个层次结构相似性之间的相关性和因果关系。其中,结构相似性与语言表征相似性强烈相关,而遗传关系 - 用于前期工作评估的方便基准 - 似乎是一个混淆因素。除了对翻译效应的影响之外,我们更普遍地将其视为NLP和语言类型学可以相互作用并互相受益的情况。
translated by 谷歌翻译