通过多对象跟踪(MOT)方法启用的情况感知技术将在自主导航和应用海科学等领域创建新的服务和应用程序。信仰传播(BP)是贝叶斯MOT的最新方法,但完全依赖于统计模型和预处理传感器测量。在本文中,我们为基于模型和数据驱动的MOT建立了一种混合方法。提出的神经增强信念传播(NEBP)方法通过从原始传感器数据中学到的信息以改善数据关联并拒绝错误警报测量的目标来补充BP。我们评估了NEBP方法在Nuscenes自动驾驶数据集中的MOT的性能,并证明它可以超越最先进的参考方法。
translated by 谷歌翻译
Algorithmic solutions for multi-object tracking (MOT) are a key enabler for applications in autonomous navigation and applied ocean sciences. State-of-the-art MOT methods fully rely on a statistical model and typically use preprocessed sensor data as measurements. In particular, measurements are produced by a detector that extracts potential object locations from the raw sensor data collected for a discrete time step. This preparatory processing step reduces data flow and computational complexity but may result in a loss of information. State-of-the-art Bayesian MOT methods that are based on belief propagation (BP) systematically exploit graph structures of the statistical model to reduce computational complexity and improve scalability. However, as a fully model-based approach, BP can only provide suboptimal estimates when there is a mismatch between the statistical model and the true data-generating process. Existing BP-based MOT methods can further only make use of preprocessed measurements. In this paper, we introduce a variant of BP that combines model-based with data-driven MOT. The proposed neural enhanced belief propagation (NEBP) method complements the statistical model of BP by information learned from raw sensor data. This approach conjectures that the learned information can reduce model mismatch and thus improve data association and false alarm rejection. Our NEBP method improves tracking performance compared to model-based methods. At the same time, it inherits the advantages of BP-based MOT, i.e., it scales only quadratically in the number of objects, and it can thus generate and maintain a large number of object tracks. We evaluate the performance of our NEBP approach for MOT on the nuScenes autonomous driving dataset and demonstrate that it has state-of-the-art performance.
translated by 谷歌翻译
Passive monitoring of acoustic or radio sources has important applications in modern convenience, public safety, and surveillance. A key task in passive monitoring is multiobject tracking (MOT). This paper presents a Bayesian method for multisensor MOT for challenging tracking problems where the object states are high-dimensional, and the measurements follow a nonlinear model. Our method is developed in the framework of factor graphs and the sum-product algorithm (SPA). The multimodal probability density functions (pdfs) provided by the SPA are effectively represented by a Gaussian mixture model (GMM). To perform the operations of the SPA in high-dimensional spaces, we make use of Particle flow (PFL). Here, particles are migrated towards regions of high likelihood based on the solution of a partial differential equation. This makes it possible to obtain good object detection and tracking performance even in challenging multisensor MOT scenarios with single sensor measurements that have a lower dimension than the object positions. We perform a numerical evaluation in a passive acoustic monitoring scenario where multiple sources are tracked in 3-D from 1-D time-difference-of-arrival (TDOA) measurements provided by pairs of hydrophones. Our numerical results demonstrate favorable detection and estimation accuracy compared to state-of-the-art reference techniques.
translated by 谷歌翻译
多对象跟踪(MOT)是现代高级驾驶员辅助系统(ADA)和自动驾驶(AD)系统的关键应用之一。 MOT的大多数解决方案都是基于随机矢量贝叶斯过滤器,例如Global最近的邻居(GNN)以及基于规则的启发轨道维护。随着随机有限集(RFS)理论的发展,最近已将RFS贝叶斯过滤器应用于ADA和AD Systems的MOT任务中。但是,由于计算成本和实施复杂性,它们在实际流量中的有用性是对疑问的。在本文中,据透露,具有基于规则的启发式轨道维护的GNN不足以在ADA和AD系统中基于激光雷达的MOT任务。通过系统地比较几个不同的基于对象过滤器的跟踪框架,包括传统的随机矢量贝叶斯滤波器,以及基于规则的启发式跟踪维护和RFS贝叶斯过滤器,可以说明这种判断。此外,提出了一个简单有效的跟踪器,即使用全局最近邻居(GNN-PMB)跟踪器的Poisson Multi-Bernoulli滤波器,建议用于基于激光雷达的MOT任务。拟议的GNN-PMB跟踪器在Nuscenes测试数据集中取得了竞争性的结果,并显示出优于其他最先进的LIDAR的跟踪性能,而Haver Holly Holling Trackers,Lidar和基于摄像机的基于摄像头的跟踪器。
translated by 谷歌翻译
本文考虑了跟踪大量小组目标的问题。通常,在大多数跟踪方案中,多目标都被认为具有独立的运动,并且分离良好。但是,对于小组目标跟踪(GTT),组内的目标是紧密间隔并以协调方式移动,组可以分裂或合并,并且组中的目标数可能很大,这会导致更具挑战性的数据关联,过滤和计算问题。在信仰传播(BP)框架内,我们通过共同推断目标存在变量,组结构,数据关联和目标状态提出了可扩展的群体目标信念传播(GTBP)方法。该方法可以通过在设计因子图上进行信仰传播来有效计算这些变量边际后验分布的近似值。结果,GTBP能够捕获组结构的变化,例如组拆分和合并。此外,我们将目标的演变建模为可能的组结构和相应概率指定的组或单目标运动的合作。这种灵活的建模可实现多个组目标和未组目标的无缝和同时跟踪。特别是,GTBP具有出色的可扩展性和低计算复杂性。它不仅保持与BP相同的可伸缩性,即在传感器测量的数量中线性缩放,并在目标数量中二次缩放,而且仅在保留的组分区数量中线性缩放。最后,提出了数值实验,以证明所提出的GTBP方法的有效性和可伸缩性。
translated by 谷歌翻译
大多数(3D)多对象跟踪方法依赖于数据关联的外观提示。相比之下,我们研究了仅通过编码3D空间中对象之间的几何关系作为数据驱动数据关联的线索,我们才能达到多远。我们将3D检测编码为图中的节点,其中对象之间的空间和时间成对关系是通过图边缘上的局部极性坐标编码的。这种表示使我们的几何关系不变到全球变换和平滑的轨迹变化,尤其是在非全面运动下。这使我们的图形神经网络可以学会有效地编码时间和空间交互,并充分利用上下文和运动提示,以通过将数据关联作为边缘分类来获得最终场景解释。我们在Nuscenes数据集上建立了一个新的最先进的方法,更重要的是,我们的方法在不同位置(波士顿,新加坡,Karlsruhe)和数据集(Nuscenes和Kitti)中跨越了我们的方法。
translated by 谷歌翻译
在协作人类机器人语义传感问题中,例如为了进行科学探索,机器人可能会通过人类伴侣提供过度质疑的信息,从而导致次优的状态估计和团队绩效差。当人类不能被视为牙齿时,机器人需要更新状态信念,以正确解释人类语义观察与导致这些观察的现实世界状态之间可能存在的差异。这项工作为在一般环境中针对语义可能性的概率语义数据关联(PSDA)概率进行了严格的在线计算制定了策略,这与以前的工作不同,这些工作开发了针对特定设置的天真或启发式近似。新的PSDA方法纳入了混合贝叶斯数据融合方案中,该方案将高斯混合先验用于对象状态和SoftMax函数用于语义人类传感器观察可能性,并在Monte Carlo模拟中证明了合作的多对象搜索任务的范围人类感测特征(例如错误的检测率)。结果表明,每当语义人类传感器数据包含重要的目标参考歧义性,用于自主对象搜索和本地化时,PSDA会导致在广泛条件下对观察关联概率的强大估计。
translated by 谷歌翻译
图提供了一种自然的方式来制定多个对象跟踪(MOT)和多个对象跟踪和分割(MOTS),逐个检测范式中。但是,他们还引入了学习方法的主要挑战,因为定义可以在这种结构化领域运行的模型并不是微不足道的。在这项工作中,我们利用MOT的经典网络流程公式来定义基于消息传递网络(MPN)的完全微分框架。通过直接在图形域上操作,我们的方法可以在整个检测和利用上下文特征上全球推理。然后,它共同预测了数据关联问题的最终解决方案和场景中所有对象的分割掩码,同时利用这两个任务之间的协同作用。我们在几个公开可用的数据集中获得跟踪和细分的最新结果。我们的代码可在github.com/ocetintas/mpntrackseg上找到。
translated by 谷歌翻译
Multi-object tracking is a cornerstone capability of any robotic system. Most approaches follow a tracking-by-detection paradigm. However, within this framework, detectors function in a low precision-high recall regime, ensuring a low number of false-negatives while producing a high rate of false-positives. This can negatively affect the tracking component by making data association and track lifecycle management more challenging. Additionally, false-negative detections due to difficult scenarios like occlusions can negatively affect tracking performance. Thus, we propose a method that learns shape and spatio-temporal affinities between consecutive frames to better distinguish between true-positive and false-positive detections and tracks, while compensating for false-negative detections. Our method provides a probabilistic matching of detections that leads to robust data association and track lifecycle management. We quantitatively evaluate our method through ablative experiments and on the nuScenes tracking benchmark where we achieve state-of-the-art results. Our method not only estimates accurate, high-quality tracks but also decreases the overall number of false-positive and false-negative tracks. Please see our project website for source code and demo videos: sites.google.com/view/shasta-3d-mot/home.
translated by 谷歌翻译
3D多对象跟踪(MOT)是自动驾驶汽车的关键问题,需要在动态环境中执行信息良好的运动计划。特别是对于密集的占领场景,将现有曲目与新检测相关联仍然具有挑战性,因为现有系统倾向于省略关键的上下文信息。我们提出的解决方案InterTrack引入了3D MOT的相互作用变压器,以生成数据关联的区分对象表示。我们为每个轨道和检测提取状态和形状特征,并通过注意力有效地汇总全局信息。然后,我们对每个轨道/检测功能对进行学习的回归以估计亲和力,并使用强大的两阶段数据关联和轨道管理方法来生成最终轨道。我们在Nuscenes 3D MOT基准上验证了我们的方法,在那里我们观察到了显着的改进,尤其是在物理大小和聚类对象的类别上。从提交开始时,InterTrack在使用CenterPoint检测的方法中排名第1位AMOTA。
translated by 谷歌翻译
We present the Neural Satisfiability Network (NSNet), a general neural framework that models satisfiability problems as probabilistic inference and meanwhile exhibits proper explainability. Inspired by the Belief Propagation (BP), NSNet uses a novel graph neural network (GNN) to parameterize BP in the latent space, where its hidden representations maintain the same probabilistic interpretation as BP. NSNet can be flexibly configured to solve both SAT and #SAT problems by applying different learning objectives. For SAT, instead of directly predicting a satisfying assignment, NSNet performs marginal inference among all satisfying solutions, which we empirically find is more feasible for neural networks to learn. With the estimated marginals, a satisfying assignment can be efficiently generated by rounding and executing a stochastic local search. For #SAT, NSNet performs approximate model counting by learning the Bethe approximation of the partition function. Our evaluations show that NSNet achieves competitive results in terms of inference accuracy and time efficiency on multiple SAT and #SAT datasets.
translated by 谷歌翻译
多任务学习的最新研究揭示了解决单个神经网络中相关问题的好处。 3D对象检测和多对象跟踪(MOT)是两个严重的相互交织的问题,可以预测并关联整个时间的对象实例位置。但是,3D MOT中的大多数先前作品都将检测器视为先前的分离管道,不一致地将检测器的输出作为跟踪器的输入。在这项工作中,我们提出了Minkowski Tracker,这是一种稀疏的时空R-CNN,可以共同解决对象检测和跟踪。受基于区域的CNN(R-CNN)的启发,我们建议将跟踪作为对象检测器R-CNN的第二阶段,该跟踪预测了轨道的分配概率。首先,Minkowski Tracker将4D点云作为输入,以生成时空鸟的视图(BEV)特征通过4D稀疏卷积编码器网络。然后,我们提出的TrackAlign聚集了BEV功能的轨道区域(ROI)功能。最后,Minkowski Tracker根据ROI功能预测的检测到追踪匹配概率更新了跟踪及其置信得分。我们在大规模实验中显示,我们方法的总体性能增益是由于四个因素:1。4D编码器的时间推理提高了检测性能2.对象检测的多任务学习和MOT共同增强了彼此3.检测到轨道比赛得分学习隐式运动模型以增强轨道分配4.检测到轨道匹配分数提高了轨道置信度得分的质量。结果,Minkowski Tracker在没有手工设计的运动模型的情况下实现了Nuscenes数据集跟踪任务上的最新性能。
translated by 谷歌翻译
探讨了将数据驱动对象检测器的不确定性结合到对象跟踪算法中的不确定性的方法。对象跟踪方法依赖于测量误差模型,通常以测量噪声,假阳性率和错过检测速率的形式。通常,这些数量通常可以取决于物体或测量位置。然而,对于从神经网络处理的摄像机输入产生的检测,这些测量误差统计不足以表示主要错误源,即运行时传感器输入与检测器训练的训练数据之间的不相似性。为此,我们调查将数据不确定性纳入物体跟踪方法,例如提高跟踪物体的能力,特别是那些超出的能力。培训数据。所提出的方法在对象跟踪基准上验证以及具有真正自治飞机的实验。
translated by 谷歌翻译
神经形态的愿景是一种生物启发技术,它已经引发了计算机视觉界的范式转变,并作为众多应用的关键推动器。该技术提供了显着的优势,包括降低功耗,降低处理需求和通信加速。然而,神经形态摄像机患有大量的测量噪声。这种噪声恶化了基于神经形态事件的感知和导航算法的性能。在本文中,我们提出了一种新的噪声过滤算法来消除不代表观察场景中的实际记录强度变化的事件。我们采用图形神经网络(GNN) - 驱动的变压器算法,称为GNN变换器,将原始流中的每个活动事件像素分类为实木强度变化或噪声。在GNN中,传递一个名为EventConv的消息传递框架,以反映事件之间的时空相关性,同时保留它们的异步性质。我们还介绍了在各种照明条件下生成事件流的近似地面真理标签(KogT1)方法。 Kogtl用于生成标记的数据集,从记录在充满挑战的照明条件下进行的实验。这些数据集用于培训和广泛测试我们所提出的算法。在取消检测的数据集上测试时,所提出的算法在过滤精度方面优于现有方法12%。还对公共数据集进行了额外的测试,以展示在存在照明变化和不同运动动态的情况下所提出的算法的泛化能力。与现有解决方案相比,定性结果验证了所提出的算法的卓越能力,以消除噪音,同时保留有意义的场景事件。
translated by 谷歌翻译
相机的估计与一组图像相关联的估计通常取决于图像之间的特征匹配。相比之下,我们是第一个通过使用对象区域来指导姿势估计问题而不是显式语义对象检测来应对这一挑战的人。我们提出了姿势炼油机网络(PosErnet),一个轻量级的图形神经网络,以完善近似的成对相对摄像头姿势。posernet利用对象区域之间的关联(简洁地表示为边界框),跨越了多个视图到全球完善的稀疏连接的视图图。我们在不同尺寸的图表上评估了7个尺寸的数据集,并展示了该过程如何有益于基于优化的运动平均算法,从而相对于基于边界框获得的初始估计,将旋转的中值误差提高了62度。代码和数据可在https://github.com/iit-pavis/posernet上找到。
translated by 谷歌翻译
Tracking objects over long videos effectively means solving a spectrum of problems, from short-term association for un-occluded objects to long-term association for objects that are occluded and then reappear in the scene. Methods tackling these two tasks are often disjoint and crafted for specific scenarios, and top-performing approaches are often a mix of techniques, which yields engineering-heavy solutions that lack generality. In this work, we question the need for hybrid approaches and introduce SUSHI, a unified and scalable multi-object tracker. Our approach processes long clips by splitting them into a hierarchy of subclips, which enables high scalability. We leverage graph neural networks to process all levels of the hierarchy, which makes our model unified across temporal scales and highly general. As a result, we obtain significant improvements over state-of-the-art on four diverse datasets. Our code and models will be made available.
translated by 谷歌翻译
我们提出了一种新的方法,用于从室内环境中的RGB-D序列进行连接3D多对象跟踪和重建。为此,我们在每个帧中检测并重建对象,同时预测密集的对应关系映射到归一化对象空间中。我们利用这些对应关系来告知图神经网络,以解决所有对象的最佳,时间一致的7-DOF姿势轨迹。我们方法的新颖性是两个方面:首先,我们提出了一种基于图的新方法,用于随着时间的流逝而进行区分姿势估计,以学习最佳的姿势轨迹。其次,我们提出了沿时间轴的重建和姿势估计的联合公式,以实现健壮和几何一致的多对象跟踪。为了验证我们的方法,我们引入了一个新的合成数据集,其中包含2381个唯一室内序列,总共有60k渲染的RGB-D图像,用于多对象跟踪,并带有移动对象和来自合成3D-Front数据集的相机位置。我们证明,与现有最新方法相比,我们的方法将所有测试序列的累积MOTA得分提高了24.8%。在关于合成和现实世界序列的几个消融中,我们表明我们的基于图的完全端到端学习方法可以显着提高跟踪性能。
translated by 谷歌翻译
我们考虑在线性符号间干扰通道上使用因子图框架的符号检测的应用。基于Ungerboeck观察模型,可以得出具有吸引人复杂性能的检测算法。但是,由于基础因子图包含循环,因此总和算法(SPA)产生了次优算法。在本文中,我们制定并评估有效的策略,以通过神经增强来提高基于因子图的符号检测的性能。特别是,我们将因子节点的神经信念传播和概括是减轻因子图内周期效应的有效方法。通过将通用预处理器应用于通道输出,我们提出了一种简单的技术来改变每个SPA迭代中的基本因子图。使用这种动态因子图跃迁,我们打算保留水疗消息的外在性质,否则由于周期而受到损害。仿真结果表明,所提出的方法可以大大改善检测性能,甚至可以在各种传输方案中接近最大后验性能,同时保留在块长度和通道内存中线性线性的复杂性。
translated by 谷歌翻译
Existing Multiple Object Tracking (MOT) methods design complex architectures for better tracking performance. However, without a proper organization of input information, they still fail to perform tracking robustly and suffer from frequent identity switches. In this paper, we propose two novel methods together with a simple online Message Passing Network (MPN) to address these limitations. First, we explore different integration methods for the graph node and edge embeddings and put forward a new IoU (Intersection over Union) guided function, which improves long term tracking and handles identity switches. Second, we introduce a hierarchical sampling strategy to construct sparser graphs which allows to focus the training on more difficult samples. Experimental results demonstrate that a simple online MPN with these two contributions can perform better than many state-of-the-art methods. In addition, our association method generalizes well and can also improve the results of private detection based methods.
translated by 谷歌翻译
3D多对象跟踪旨在唯一,始终如一地识别所有移动实体。尽管在此设置中提供了丰富的时空信息,但当前的3D跟踪方法主要依赖于抽象的信息和有限的历史记录,例如单帧对象边界框。在这项工作中,我们开发了对交通场景的整体表示,该场景利用了现场演员的空间和时间信息。具体而言,我们通过将跟踪的对象表示为时空点和边界框的序列来重新将跟踪作为时空问题,并在悠久的时间历史上进行重新制定。在每个时间戳上,我们通过对对象历史记录的完整顺序进行的细化来改善跟踪对象的位置和运动估计。通过共同考虑时间和空间,我们的代表自然地编码了基本的物理先验,例如对象持久性和整个时间的一致性。我们的时空跟踪框架在Waymo和Nuscenes基准测试中实现了最先进的性能。
translated by 谷歌翻译