我们解决了视频对象分割的极具挑战性的问题。 Givenonly是初始掩码,任务是在后续帧中分割目标。为了有效地处理外观变化和类似的背景对象,需要强健的目标表示。以前的方法要么依赖于对第一帧上的分段网络进行微调,要么采用生成外观模型。虽然部分成功,但这些方法经常遭受不切实际的低帧速率或不令人满意的鲁棒性。我们提出了一种新颖的方法,基于专门的目标外观模型,该模型专门在线学习以区分目标和背景图像区域。重要的是,我们设计了专门的损失和定制优化技术,以实现高效的在线培训。我们的轻量级目标模型被集成到精心设计的分割网络中,离线培训以增强目标模型生成的预测。对三个数据集进行了大量实验。 Ourapproach在YouTube-VOS上的总体得分超过70,而每秒25帧。
translated by 谷歌翻译
判别相关滤波器(DCF)已经证明了视觉对象跟踪的出色性能。他们成功的关键是能够通过包括训练样本的所有移位转换来有效地利用可用的负数据。然而,基础DCF公式受限于单分辨率特征图,显着限制了其潜力。在本文中,我们超越了传统的DCF框架,并引入了一种用于训练连续卷积滤波器的新颖公式。我们采用隐式插值模型来建立连续空间域中的学习问题。我们提出的公式可以实现多分辨率深度特征图的高效集成,从而在三个对象跟踪基准上获得优异的结果:OTB-2015(平均OP为+ 5.1%),Temple-Color(平均OP为+ 4.6%)和VOT2015(20故障率相对减少%。另外,我们的方法能够进行亚像素定位,这对于精确特征点跟踪的任务至关重要。我们还在广泛的特征点跟踪实验中证明了我们学习公式的有效性。代码和补充材料可从http://www.cvl.isy.liu.se/research/objrec/visualtracking/conttrack/index.html获得。
translated by 谷歌翻译
策略梯度方法是强大的强化学习算法,并且已被证明可以解决许多复杂的任务。然而,这些方法也是数据无效的,受到高方差梯度估计的影响,并且经常陷入局部最优。这项工作通过将最近改进的非政策数据的重用和参数空间的探索与确定性行为政策相结合来解决这些弱点。由此产生的目标适用于标准的神经网络优化策略,如随机梯度下降或随机梯度哈密顿蒙特卡罗。通过重要性抽样对以前的推出进行大量提高数据效率,而随机优化方案有助于逃避局部最优。我们评估了一系列连续控制基准测试任务的建议方法。结果表明,该算法能够使用比标准策略梯度方法更少的系统交互成功可靠地学习解决方案。
translated by 谷歌翻译
Generative Adversarial Networks have shown remarkable success in learning a distribution that faithfully recovers a reference distribution in its entirety. However, in some cases, we may want to only learn some aspects (e.g., cluster or manifold structure), while modifying others (e.g., style, orientation or dimension). In this work, we propose an approach to learn generative models across such incomparable spaces, and demonstrate how to steer the learned distribution towards target properties. A key component of our model is the Gromov-Wasserstein distance, a notion of discrepancy that compares distributions relationally rather than absolutely. While this framework subsumes current generative models in identically reproducing distributions, its inherent flexibility allows application to tasks in manifold learning, relational learning and cross-domain learning.
translated by 谷歌翻译
本文介绍了自动驾驶汽车的算法和系统架构。引入的车辆由设计用于鲁棒性,可靠性和可扩展性的软件栈提供动力。为了自主地绕过先前未知的轨道,所提出的解决方案结合了来自不同机器人领域的技术的状态。具体而言,感知,估计和控制被合并到一个高性能自主车辆中。这个复杂的机器人系统由AMZ Driverless和ETHZurich开发,在我们参加的每个比赛中获得第一名:Formula StudentGermany 2017,Formula Student Italy 2018和Formula Student Germany 2018. Wediscuss这些比赛的结果和学习,并对每个模块进行实验评估我们的解决方案
translated by 谷歌翻译
我们提出了一个替代和统一的决策框架,通过使用量子力学,提供更广泛的认知和决策模型,能够代表比经典模型更多的信息。这个框架可以容纳和预测里德和格里菲斯报告的几个认知偏差,而不会过度依赖关于启发式的,也不是关于心智计算资源的假设。
translated by 谷歌翻译
临床诊断决策和基于人群的研究通常依赖于嘈杂且不完整的多模态数据。最近,一些工作提出了几何深度学习方法来解决疾病分类,通过将患者建模为图中的节点,以及多模态特征的图形信号处理。这些方法中的许多方法受到假设模态和特征完整性以及转换推理的限制,转导推理需要对每个新测试样本重新训练整个模型。在这项工作中,我们提出了一种新颖的基于感应图的方法,可以推广到样本外的患者,尽管缺少整个病房的特征。我们提出了多模态图融合,它是经过端到端的节点级分类训练。我们在简化的MNIST玩具数据集上展示了该方法的基本工作原理。在医学数据实验中,我们的方法在多模态疾病分类中优于单一静态图方法。
translated by 谷歌翻译
已知香草卷积神经网络不仅在图像识别任务中而且在自然语言处理和时间序列分析中提供优异的性能。卷积层的优势之一是能够使用各种参数化卷积核来学习输入域中空间关系的特征。然而,在时间序列分析中,学习这种空间关系并不一定需要无效。在这种情况下,建议使用具有更宽空间分辨率的时间依赖性或内核建模的内核,以便通过扩张内核提供更有效的训练。然而,扩张必须先于先前固定,这限制了内核的灵活性。我们提出了广义扩张网络,它在两个方面概括了初始扩张。首先,我们推导出扩张层的端到端可学习架构,同时也可以学习扩张速率。其次,我们打破了严格的扩张结构,因为我们开发了在输入空间中独立运行的内核。
translated by 谷歌翻译
本地化和跟踪是机器人,自动化和物联网两个非常活跃的研究领域。准确跟踪大量设备通常需要部署大量基础设施(红外线跟踪系统,摄像机,无线天线等),这对于不可访问或受保护的环境来说并不理想。本文源于这样的环境所带来的挑战:覆盖大量小房间的大量单元,只需要最少的本地化基础设施。 Theidea旨在准确跟踪手持设备或移动机器人的位置,而不会干扰其架构。使用超宽带(UWB)设备,我们利用我们在分布式和协作机器人系统方面的专业知识,开发出一种新型解决方案,需要最少数量的固定锚。 Wediscuss分享UWB网络的策略以及扩展卡尔曼滤波器推导,以协作定位和跟踪配备UWB的设备,并显示我们在法国Chambordcastle跟踪访客的实验活动的结果。
translated by 谷歌翻译
我们提出了一种基于立体的密集映射算法,用于大规模动态城市环境。与其他现有方法相比,我们同时分别构建静态背景,移动对象和可能移动但当前静止的对象,这对于高级移动机器人任务(例如拥挤环境中的路径规划)是理想的。我们使用实例感知语义分割和稀疏场景流将对象分类为背景,移动或潜在移动,从而确保系统能够对具有从静态到动态的潜在过渡的对象建模,例如停放的汽车。给定从视觉里程计算估计的相机姿势,通过融合从立体声输入计算的深度图,分别重建背景和(可能)移动物体。除了视觉里程计,稀疏场景流也用于估计检测到的移动物体的3D运动,以便准确地重建它们。进一步开发了一种地图修剪技术,以提高重建精度并减少内存消耗,从而提高可扩展性。我们在着名的KITTI数据集上彻底评估我们的系统。我们的系统能够在大约2.5Hz的PC上运行,主要瓶颈是实例感知语义分段,这是我们希望在未来工作中解决的限制。源代码可从项目网站(http://andreibarsan.github.io/dynslam)获得。
translated by 谷歌翻译