视频对象检测(VID)是具有挑战性的,因为对象外观的较高变化以及某些帧中的不同变化。在正面,与静止图像相比,视频的某个框架中的检测可以吸引其他帧的支撑。因此,如何在不同框架上汇总特征对于VID问题至关重要。大多数现有的聚合算法都是针对两阶段探测器定制的。但是,由于两阶段的性质,该类别中的探测器通常在计算上很昂贵。这项工作提出了一种简单而有效的策略来解决上述问题,该策略花费了很高的准确性上的边缘开销。具体而言,我们与传统的两阶段管道不同,我们主张在单阶段检测之后放置区域级别的选择,以避免处理大量的低质量候选者。此外,还构建了一个新的模块来评估目标框架及其参考的关系,并指导聚合。进行了广泛的实验和消融研究,以验证我们的设计功效,并揭示其优于其他最先进的VID方法的优势。我们的基于YOLOX的模型可以实现有希望的性能(例如,在单个2080TI GPU上的Imagenet VID数据集上的30 fps的87.5%AP50)使其对大规模或实时应用程序有吸引力。实现很简单,演示代码和模型已在https://github.com/yuhengsss/yolov上提供。
translated by 谷歌翻译
随着LIDAR的感知范围的增加,基于激光雷达的3D对象检测成为自主驾驶的长期感知任务中的主要任务。主流3D对象检测器通常在网络骨干和预测头上构建密集的特征图。但是,密集特征图上的计算和空间成本与感知范围是二次的,这几乎无法扩展到远程设置。为了启用有效的基于远程激光痛的对象检测,我们构建了一个完全稀疏的3D对象检测器(FSD)。 FSD的计算和空间成本大致是线性的,与感知范围无关。 FSD建立在一般的稀疏体素编码器和新颖的稀疏实例识别(SIR)模块上。爵士第一将点分组为实例,然后应用实例的特征提取和预测。这样,爵士解决了中心功能缺失的问题,这阻碍了所有基于中心或基于锚的探测器的完全稀疏体系结构的设计。此外,SIR通过将点分组为实例,避免了以前基于点的方法中耗时的邻居查询。我们在大规模Waymo开放数据集上进行了广泛的实验,以揭示FSD的工作机制,并报告了最新的性能。为了证明FSD在远程检测中的优势,我们还对Argoverse 2数据集进行了实验,该数据集的感知范围(2亿美元)比Waymo Open DataSet(7500万美元)更大。在如此庞大的感知范围内,FSD实现了最先进的性能,并且比密集对应物快2.4 $ \ times $ $。编号将在https://github.com/tusimple/sst上发布。
translated by 谷歌翻译
神经隐式功能的最新发展已在高质量的3D形状重建方面表现出巨大的成功。但是,大多数作品将空间分为形状的内部和外部,从而将其代表力量限制为单层和水密形状。这种局限性导致乏味的数据处理(将非紧密的原始数据转换为水密度),以及代表现实世界中一般对象形状的无能。在这项工作中,我们提出了一种新颖的方法来表示一般形状,包括具有多层表面的非水平形状和形状。我们介绍了3D形状(GIF)的一般隐式函数,该功能建模了每两个点之间的关系,而不是点和表面之间的关系。 GIF没有将3D空间分为预定义的内部区域,而是编码是否将两个点分开。 Shapenet上的实验表明,在重建质量,渲染效率和视觉保真度方面,GIF的表现优于先前的最先进方法。项目页面可从https://jianglongye.com/gifs获得。
translated by 谷歌翻译
在基于LIDAR的自主驱动的基于LIDAR的3D对象检测中,与2D检测情况相比,对象尺寸与输入场景尺寸的比率明显较小。俯瞰此差异,许多3D探测器直接遵循2D探测器的常见做法,即使在量化点云之后,也可以将特征映射下来。在本文中,我们首先重新思考这种多级刻板印象如何影响基于激光雷达的3D对象探测器。我们的实验指出,下采样操作带来了一些优势,并导致不可避免的信息损失。要解决此问题,我们提出了单程稀疏变压器(SST),以将原始分辨率从网络的开头维护。我们的方法武装变压器,我们的方法解决了单步体系结构中的接收领域不足的问题。它还与点云的稀疏合作,自然避免昂贵的计算。最终,我们的SST在大型Waymo Open DataSet上实现了最先进的结果。值得一提的是,由于单程的特征,我们的方法可以在小物体(行人)检测上实现令人兴奋的性能(83.8级)对小物体(行人)检测。代码将在https://github.com/tusimple/sst释放
translated by 谷歌翻译
以前的在线3D多对象跟踪(3DMOT)方法在与几帧的新检测无关时终止ROCKET。但是如果一个物体刚刚变暗,就像被其他物体暂时封闭或者只是从FOV暂时封闭一样,过早地终止ROCKET将导致身份切换。我们揭示了过早的轨迹终端是现代3DMOT系统中身份开关的主要原因。为了解决这个问题,我们提出了一个不朽的跟踪器,一个简单的跟踪系统,它利用轨迹预测来维护对象变暗的物体的轨迹。我们使用一个简单的卡尔曼滤波器进行轨迹预测,并在目标不可见时通过预测保留轨迹。通过这种方法,我们可以避免由过早托管终止产生的96%的车辆标识开关。如果没有任何学习的参数,我们的方法在Waymo Open DataSet测试集上的车载类别的0.0001级和竞争Mota处实现了不匹配的比率。我们的不匹配比率比任何先前发表的方法低一倍。在NUSCENes上报告了类似的结果。我们相信拟议的不朽追踪器可以为推动3DMOT的极限提供简单而强大的解决方案。我们的代码可在https://github.com/immortaltracker/immortaltracker中找到。
translated by 谷歌翻译
从杂乱场景跟踪和重建3D对象是计算机视觉,机器人和自主驾驶系统的关键组件。虽然最近隐含功能的进展(例如,Deepsdf)已经显示出令人鼓舞的高质量3D形状重建结果,但仍然非常具有挑战性,以概括为杂乱和部分可观察的LIDAR数据。在本文中,我们建议利用视频数据的连续性。我们介绍了一种新颖和统一的框架,它利用DeepsDF模型来同时跟踪和重建野外的3D对象。我们在线调整视频中的DeepsDF模型,迭代改善形状重建,同时在返回改进跟踪时,反之亦然。我们试验Waymo和Kitti数据集,并对跟踪和形状重建的最先进方法显着改进。
translated by 谷歌翻译
3D多对象跟踪(MOT)近年来目睹了众多新颖的基准和方法,尤其是那些在“逐侦测”范式下的基准。尽管他们的进步和有用,但对他们的优势和劣势的深入分析尚不可用。在本文中,我们通过将它们分解为四个组成部分来总结当前的3D MOL方法:检测,关联,运动模型和生命周期管理的预处理。然后,我们将现有算法的故障情况归因于每个组件并详细研究它们。基于分析,我们提出了相应的改进,导致强大但简单的基线:简单进展。 Waymo Open DataSet和Nuscenes上的综合实验结果表明,我们的最终方法可以通过微小的修改来实现新的最先进的结果。此外,我们采取额外的步骤并重新思考当前的基准面是否真实地反映了真实挑战的算法能力。我们深入了解现有基准的细节,并找到一些有趣的事实。最后,我们分析了\ name \中剩余失败的分布和原因,并提出了3D MOT的未来方向。我们的代码可在https://github.com/tusimple/simpletrack获得。
translated by 谷歌翻译
使用从未标识的视频培训的CNNS的单视深度估计显示了重要的承诺。然而,街头场景驾驶场景中主要获得了优异的结果,并且此类方法通常在其他设置中失败,特别是手持设备采取的室内视频。在这项工作中,我们建立了手持式环境中展出的复杂自我动作是学习深度的关键障碍。我们的基本分析表明,旋转在训练期间的噪声表现在训练期间,而不是提供监督信号的翻译(基线)。为了解决挑战,我们提出了一种数据预处理方法,可以通过去除其有效学习的相对旋转来整流训练图像。显着提高的性能验证了我们的动机。在不需要预处理的情况下,我们向端到端学习,我们提出了一种具有新型损失功能的自动整流网络,可以自动学习在训练期间纠正图像。因此,我们的结果在挑战NYUV2数据集中的大幅度上以较大的余量优于先前的无监督的SOTA方法。我们还展示了我们在Scannet和Make3D中培训模型的概括,以及我们提出的7场景和基蒂数据集的建议学习方法的普遍性。
translated by 谷歌翻译
In this paper, we propose a robust 3D detector, named Cross Modal Transformer (CMT), for end-to-end 3D multi-modal detection. Without explicit view transformation, CMT takes the image and point clouds tokens as inputs and directly outputs accurate 3D bounding boxes. The spatial alignment of multi-modal tokens is performed implicitly, by encoding the 3D points into multi-modal features. The core design of CMT is quite simple while its performance is impressive. CMT obtains 73.0% NDS on nuScenes benchmark. Moreover, CMT has a strong robustness even if the LiDAR is missing. Code will be released at https://github.com/junjie18/CMT.
translated by 谷歌翻译
Knowledge graphs (KG) have served as the key component of various natural language processing applications. Commonsense knowledge graphs (CKG) are a special type of KG, where entities and relations are composed of free-form text. However, previous works in KG completion and CKG completion suffer from long-tail relations and newly-added relations which do not have many know triples for training. In light of this, few-shot KG completion (FKGC), which requires the strengths of graph representation learning and few-shot learning, has been proposed to challenge the problem of limited annotated data. In this paper, we comprehensively survey previous attempts on such tasks in the form of a series of methods and applications. Specifically, we first introduce FKGC challenges, commonly used KGs, and CKGs. Then we systematically categorize and summarize existing works in terms of the type of KGs and the methods. Finally, we present applications of FKGC models on prediction tasks in different areas and share our thoughts on future research directions of FKGC.
translated by 谷歌翻译