在深度感知的固有歧义的范围内,现代相机的3D对象检测方法属于性能瓶颈。从直觉上讲,利用时间多视角立体声(MVS)技术是解决这种歧义的自然知识。但是,在适用于3D对象检测场景时,MV的传统尝试在两个方面存在缺陷:1)所有观点之间的亲和力测量遭受昂贵的计算成本; 2)很难处理经常移动物体的室外场景。为此,我们引入了一种有效的时间立体声方法,以动态选择匹配候选者的尺度,从而显着减少计算开销。更进一步,我们设计了一种迭代算法,以更新更有价值的候选人,使其适应移动候选人。我们将我们提出的方法实例化,以进行多视图3D检测器,即Bevstereo。 Bevstereo在Nuscenes数据集的仅相机轨道上实现了新的最先进的性能(即52.5%地图和61.0%NDS)。同时,广泛的实验反映了我们的方法比当代MVS方法更好地处理复杂的室外场景。代码已在https://github.com/megvii astection/bevstereo上发布。
translated by 谷歌翻译
基于点云的3D单一对象跟踪(3DSOT)吸引了越来越多的注意力。已经取得了许多突破,但我们也揭示了两个严重的问题。通过广泛的分析,我们发现当前方法的预测方式是非持bust的,即暴露了预测得分和实际定位精度之间的错位差距。另一个问题是稀疏点返回将损坏SOT任务的功能匹配过程。基于这些见解,我们介绍了两个新型模块,即自适应改进预测(ARP)和目标知识转移(TKT),以解决它们。为此,我们首先设计了强大的管道来提取区分特征,并使用注意机制进行匹配程序。然后,建议通过汇总所有具有宝贵线索的预测候选人来解决未对准问题。最后,由于稀疏和遮挡问题,TKT模块旨在有效克服不完整的点云。我们称我们的整体框架PCET。通过在Kitti和Waymo Open数据集上进行广泛的实验,我们的模型可以实现最新的性能,同时保持较低的计算消耗。
translated by 谷歌翻译
由于3D对象检测和2D MOT的快速发展,3D多对象跟踪(MOT)已取得了巨大的成就。最近的高级工作通常采用一系列对象属性,例如位置,大小,速度和外观,以提供3D MOT的关联线索。但是,由于某些视觉噪音,例如遮挡和模糊,这些提示可能无法可靠,从而导致跟踪性能瓶颈。为了揭示困境,我们进行了广泛的经验分析,以揭示每个线索的关键瓶颈及其彼此之间的相关性。分析结果激发了我们有效地吸收所有线索之间的优点,并适应性地产生最佳的应对方式。具体而言,我们提出位置和速度质量学习,该学习有效地指导网络估计预测对象属性的质量。基于这些质量估计,我们提出了一种质量意识的对象关联(QOA)策略,以利用质量得分作为实现强大关联的重要参考因素。尽管具有简单性,但广泛的实验表明,提出的策略可显着提高2.2%的AMOTA跟踪性能,而我们的方法的表现优于所有现有的最先进的Nuscenes上的最新作品。此外,Qtrack在Nuscenes验证和测试集上实现了48.0%和51.1%的AMOTA跟踪性能,这大大降低了纯摄像头和基于LIDAR的跟踪器之间的性能差距。
translated by 谷歌翻译
许多基于点的3D检测器采用点功能采样策略来提出一些分数以提高推断。这些策略通常基于固定和手工制作的规则,因此难以处理复杂的场景。与它们不同的是,我们提出了一个动态球查询(DBQ)网络,以根据输入特征自适应地选择输入点的子集,并为每个选定的点分配特征转换,并具有合适的接受场。它可以嵌入到一些最新的3D检测器中,并以端到端的方式进行训练,从而大大降低计算成本。广泛的实验表明,我们的方法可以在Kitti和Waymo数据集中将延迟降低30%-60%。具体而言,我们的检测器的推理速度分别可以在Kitti和Waymo数据集上具有可忽略的性能降解,可以达到162 fps和30 fps。
translated by 谷歌翻译
自主驾驶的感知模型需要在低潜伏期内快速推断。尽管现有作品忽略了处理后不可避免的环境变化,但流媒体感知将延迟和准确性共同评估为视频在线感知的单个度量标准,从而指导先前的工作以搜索准确性和速度之间的权衡。在本文中,我们探讨了该指标上实时模型的性能,并赋予模型预测未来的能力,从而显着改善了流媒体感知的结果。具体来说,我们构建了一个具有两个有效模块的简单框架。一个是双流感知模块(DFP)。它分别由捕获运动趋势和基本检测特征并行的动态流和静态流动。趋势意识损失(TAL)是另一个模块,它以其移动速度适应每个对象的体重。实际上,我们考虑了多个速度驾驶场景,并进一步提出了含量不足的流媒体AP(VSAP)以共同评估准确性。在这种现实的环境中,我们设计了一种有效的混合速度训练策略,以指导检测器感知任何速度。我们的简单方法与强大的基线相比,在Argoverse-HD数据集上实现了最先进的性能,并将SAP和VSAP分别提高了4.7%和8.2%,从而验证了其有效性。
translated by 谷歌翻译
在各种计算机视觉任务(例如对象检测,实例分段等)中,无监督的域适应至关重要。他们试图减少域偏差诱导的性能下降,同时还促进模型应用速度。域适应对象检测中的先前作品尝试使图像级和实例级别变化对准以最大程度地减少域差异,但是它们可能会使单级功能与图像级域适应中的混合级功能相结合,因为对象中的每个图像中的每个图像检测任务可能不止一个类和对象。为了通过单级对齐获得单级和混合级对齐方式,我们将功能的混合级视为新班级,并建议使用混合级$ h-divergence $,以供对象检测到实现均匀特征对准并减少负转移。然后,还提出了基于混合级$ h-Divergence $的语义一致性特征对齐模型(SCFAM)。为了改善单层和混合级的语义信息并完成语义分离,SCFAM模型提出了语义预测模型(SPM)和语义桥接组件(SBC)。然后根据SPM结果更改PIX域鉴别器损耗的重量,以减少样品不平衡。广泛使用的数据集上的广泛无监督域的适应实验说明了我们所提出的方法在域偏置设置中的强大对象检测。
translated by 谷歌翻译
培训和评估之间的类别差距被特征为少量学习(FSL)成功的主要障碍之一。在本文中,我们首次凭证识别现实图像中的图像背景,作为课堂上的捷径知识,以适应课堂分类,而是超出FSL中的培训类别。一个小说框架COSOC,旨在通过在训练和评估中提取图像中的图像中的前景对象来解决这个问题而没有任何额外的监督。对电感FSL任务进行的广泛实验表明了我们方法的有效性。
translated by 谷歌翻译
To track the 3D locations and trajectories of the other traffic participants at any given time, modern autonomous vehicles are equipped with multiple cameras that cover the vehicle's full surroundings. Yet, camera-based 3D object tracking methods prioritize optimizing the single-camera setup and resort to post-hoc fusion in a multi-camera setup. In this paper, we propose a method for panoramic 3D object tracking, called CC-3DT, that associates and models object trajectories both temporally and across views, and improves the overall tracking consistency. In particular, our method fuses 3D detections from multiple cameras before association, reducing identity switches significantly and improving motion modeling. Our experiments on large-scale driving datasets show that fusion before association leads to a large margin of improvement over post-hoc fusion. We set a new state-of-the-art with 12.6% improvement in average multi-object tracking accuracy (AMOTA) among all camera-based methods on the competitive NuScenes 3D tracking benchmark, outperforming previously published methods by 6.5% in AMOTA with the same 3D detector.
translated by 谷歌翻译
Open Information Extraction (OIE) methods extract a large number of OIE triples (noun phrase, relation phrase, noun phrase) from text, which compose large Open Knowledge Bases (OKBs). However, noun phrases (NPs) and relation phrases (RPs) in OKBs are not canonicalized and often appear in different paraphrased textual variants, which leads to redundant and ambiguous facts. To address this problem, there are two related tasks: OKB canonicalization (i.e., convert NPs and RPs to canonicalized form) and OKB linking (i.e., link NPs and RPs with their corresponding entities and relations in a curated Knowledge Base (e.g., DBPedia). These two tasks are tightly coupled, and one task can benefit significantly from the other. However, they have been studied in isolation so far. In this paper, we explore the task of joint OKB canonicalization and linking for the first time, and propose a novel framework JOCL based on factor graph model to make them reinforce each other. JOCL is flexible enough to combine different signals from both tasks, and able to extend to fit any new signals. A thorough experimental study over two large scale OIE triple data sets shows that our framework outperforms all the baseline methods for the task of OKB canonicalization (OKB linking) in terms of average F1 (accuracy).
translated by 谷歌翻译
A key challenge in federated learning (FL) is the statistical heterogeneity that impairs the generalization of the global model on each client. To address this, we propose a method Federated learning with Adaptive Local Aggregation (FedALA) by capturing the desired information in the global model for client models in personalized FL. The key component of FedALA is an Adaptive Local Aggregation (ALA) module, which can adaptively aggregate the downloaded global model and local model towards the local objective on each client to initialize the local model before training in each iteration. To evaluate the effectiveness of FedALA, we conduct extensive experiments with five benchmark datasets in computer vision and natural language processing domains. FedALA outperforms eleven state-of-the-art baselines by up to 3.27% in test accuracy. Furthermore, we also apply ALA module to other federated learning methods and achieve up to 24.19% improvement in test accuracy.
translated by 谷歌翻译