3D多对象跟踪(MOT)确保在连续动态检测过程中保持一致性,有利于自动驾驶中随后的运动计划和导航任务。但是,基于摄像头的方法在闭塞情况下受到影响,准确跟踪基于激光雷达的方法的对象的不规则运动可能是具有挑战性的。某些融合方法效果很好,但不认为在遮挡下出现外观特征的不可信问题。同时,错误检测问题也显着影响跟踪。因此,我们根据组合的外观运动优化(Camo-Mot)提出了一种新颖的相机融合3D MOT框架,该框架使用相机和激光镜数据,并大大减少了由遮挡和错误检测引起的跟踪故障。对于遮挡问题,我们是第一个提出遮挡头来有效地选择最佳对象外观的人,从而减少了闭塞的影响。为了减少错误检测在跟踪中的影响,我们根据置信得分设计一个运动成本矩阵,从而提高了3D空间中的定位和对象预测准确性。由于现有的多目标跟踪方法仅考虑一个类别,因此我们还建议建立多类损失,以在多类别场景中实现多目标跟踪。在Kitti和Nuscenes跟踪基准测试上进行了一系列验证实验。我们提出的方法在KITTI测试数据集上的所有多模式MOT方法中实现了最先进的性能和最低的身份开关(IDS)值(CAR为23,行人为137)。并且我们提出的方法在Nuscenes测试数据集上以75.3%的AMOTA进行了所有算法中的最新性能。
translated by 谷歌翻译
学习辐射场对新型视图综合显示出了显着的结果。学习过程通常会花费大量时间,这激发了最新方法,通过没有神经网络或使用更有效的数据结构来通过学习来加快学习过程。但是,这些专门设计的方法不适用于大多数基于辐射的方法的方法。为了解决此问题,我们引入了一项一般策略,以加快几乎所有基于辐射的方法的学习过程。我们的关键想法是通过在多视图卷渲染过程中拍摄较少的射线来减少冗余,这是几乎所有基于辐射的方法的基础。我们发现,在具有巨大色彩变化的像素上的射击不仅显着减轻了训练负担,而且几乎不会影响学到的辐射场的准确性。此外,我们还根据树中每个节点的平均渲染误差将每个视图自适应地细分为Quadtree,这使我们在更复杂的区域中动态射击更多的射线,并具有较大的渲染误差。我们在广泛使用的基准下使用不同的基于辐射的方法评估我们的方法。实验结果表明,我们的方法通过更快的训练获得了与最先进的可比精度。
translated by 谷歌翻译
基于自然语言(NL)的车辆检索旨在搜索给定文本描述的特定车辆。不同于基于图像的车辆检索,基于NL的车辆检索不仅需要考虑车辆外观,还需要考虑周围环境和时间关系。在本文中,我们提出了一个具有空间关系建模(SSM)方法的对称网络,用于基于NL的车辆检索。具体而言,我们设计了一个对称网络,以学习文本描述和车辆图像之间的统一跨模式表示,其中保留了车辆外观细节和车辆轨迹全球信息。此外,为了更好地利用位置信息,我们提出了一种空间关系建模方法,以考虑周围环境和相互关系的考虑。定性和定量实验验证了所提出的方法的有效性。我们在第六届AI城市挑战赛的测试集上获得了43.92%的MRR准确性,该挑战是基于自然语言的车辆检索轨道,在公共排行榜上所有有​​效的提交中排名第一。该代码可从https://github.com/hbchen121/aicity2022_track2_ssm获得。
translated by 谷歌翻译
当前弱监督的语义分割(WSSS)框架通常包含分离的掩模 - 细化模型和主要语义区域挖掘模型。这些方法将包含冗余特征提取骨干网和偏置的学习目标,使其计算复杂但是解决WSSS任务的子最优。为了解决这个问题,本文建立了一个紧凑的学习框架,将分类和掩码精细组件嵌入统一的深层模型。通过共享特征提取骨干通,我们的模型能够促进两个组件之间的知识共享,同时保留低计算复杂性。为了鼓励高质量的知识互动,我们提出了一种新颖的替代自我双重教学(ASDT)机制。与传统蒸馏策略不同,我们模型中的两个教师分支的知识通过脉冲宽度调制(PWM)替代地蒸馏到学生分支,该脉冲宽度调制(PWM)产生PW波形选择信号以引导知识蒸馏过程。通过这种方式,学生分支可以帮助阻止模型落入由教师分支提供的不完美知识引起的局部最低解决方案。 Pascal VOC的综合实验2012和Coco-Stuff 10K展示了拟议的替代自我双重教学机制的有效性以及我们方法的新的最新性能。
translated by 谷歌翻译
We present in this paper a new architecture, the Pattern Attention Transformer (PAT), that is composed of the new doughnut kernel. Compared with tokens in the NLP field, Transformer in computer vision has the problem of handling the high resolution of pixels in images. Inheriting the patch/window idea from ViT and its follow-ups, the doughnut kernel enhances the design of patches. It replaces the line-cut boundaries with two types of areas: sensor and updating, which is based on the comprehension of self-attention (named QKVA grid). The doughnut kernel also brings a new topic about the shape of kernels. To verify its performance on image classification, PAT is designed with Transformer blocks of regular octagon shape doughnut kernels. Its performance on ImageNet 1K surpasses the Swin Transformer (+0.7 acc1).
translated by 谷歌翻译
我们提出了一个名为“堆栈”(SDETR)的新模型,该模型在规范detr中继承了主要思想。我们在两个方向上改善了DETR:简化培训成本并引入堆叠式体系结构以提高性能。对于前者来说,我们专注于注意力障碍的内部,并提出QKVA网格,这是描述关注过程的新观点。这样,我们可以进一步了解注意力问题的工作方式和多头的效果。这两个想法贡献了单头编码器的设计。到后者,SDETR可以达到极大的改进( +1.1AP, +3.4AP)。特别是在小物体上的性能中,SDETR为优化的更快的R-CNN基线取得了更好的结果,这在DETR中是一个缺点。我们的更改基于DETR的守则。培训代码和预估计的模型可在https://github.com/shengwenyuan/sdetr上找到。
translated by 谷歌翻译
面部解析将像素语义标签分配为计算机的面部表示,这是许多高级面部技术的基本部分。与2D面对解析相比,3D面对解析具有更大的潜力,可以实现更好的性能和进一步的应用,但是由于3D网格数据计算,它仍然具有挑战性。最近的作品引入了3D表面分割的不同方法,而性能仍然有限。在本文中,我们提出了一种基于“ 3D-2D-3D”策略来完成3D面对解析的方法。包含空间和纹理信息的拓扑磁盘状的2D面图像通过面部参数化算法从采样的3D面数据转换,并提出了一个称为CPFNET的特定2D网络,以实现具有多种参数化脸部数据的语义分割。比例技术和功能聚合。然后,2D语义结果将成反比3D面数据,最终实现了3D面对解析。实验结果表明,CPFNET和“ 3D-2D-3D”策略都完成了高质量的3D面对解析和跑赢大于最新的2D网络以及定性和定量比较的3D方法。
translated by 谷歌翻译
监督的深度学习模型取决于大量标记的数据。不幸的是,收集和注释包含所需更改的零花态样本是耗时和劳动密集型的。从预训练模型中转移学习可有效减轻遥感(RS)变化检测(CD)中标签不足。我们探索在预训练期间使用语义信息的使用。不同于传统的监督预训练,该预训练从图像到标签,我们将语义监督纳入了自我监督的学习(SSL)框架中。通常,多个感兴趣的对象(例如,建筑物)以未经切割的RS图像分布在各个位置。我们没有通过全局池操纵图像级表示,而是在每个像素嵌入式上引入点级监督以学习空间敏感的特征,从而使下游密集的CD受益。为了实现这一目标,我们通过使用语义掩码在视图之间的重叠区域上通过类平衡的采样获得了多个点。我们学会了一个嵌入式空间,将背景和前景点分开,并将视图之间的空间对齐点齐聚在一起。我们的直觉是导致的语义歧视性表示与无关的变化不变(照明和无关紧要的土地覆盖)可能有助于改变识别。我们在RS社区中免费提供大规模的图像面罩,用于预训练。在三个CD数据集上进行的大量实验验证了我们方法的有效性。我们的表现明显优于Imagenet预训练,内域监督和几种SSL方法。经验结果表明我们的预训练提高了CD模型的概括和数据效率。值得注意的是,我们使用20%的培训数据获得了比基线(随机初始化)使用100%数据获得竞争结果。我们的代码可用。
translated by 谷歌翻译
该研究使用数学建模和人类对象实验,探讨了新兴网络摄像头可能在多大程度上泄漏了可识别的文本和图形信息,从网络摄像头捕获的眼镜反射中闪闪发光。我们工作的主要目标是衡量,计算和预测随着网络摄像头技术在未来发展的可识别性因素,限制和阈值。我们的工作探索并表征了基于光学攻击的可行威胁模型,该模型使用视频帧序列上的多帧超级分辨率技术。我们在受控实验室设置中的模型和实验结果表明,可以重建和识别超过75%的屏幕文本,其高度高达10毫米,并使用720p网络摄像头进行重建和识别。我们进一步将此威胁模型应用于具有不同攻击者功能的Web文本内容,以找到可以识别文本的阈值。我们与20名参与者的用户研究表明,当今的720p网络摄像头足以让对手在大芬特网站上重建文本内容。我们的模型进一步表明,向4K摄像机的演变将使文本泄漏的阈值倾斜到流行网站上大多数标题文本的重建。除文本目标外,还针对具有720p网络摄像头的Alexa前100个网站的封闭世界数据集的案例研究显示,即使没有使用机器学习模型,也没有10个参与者的最高识别精度为94%。我们的研究提出了近期缓解,包括用户可以用来模糊视频流的眼镜区域的软件原型。对于可能的长期防御,我们主张采用个人反思测试程序来评估各种环境下的威胁,并证明遵循最少特权原则对隐私敏感的情况的重要性。
translated by 谷歌翻译
学习协作对于多机构增强学习(MARL)至关重要。以前的作品通过最大化代理行为的相关性来促进协作,该行为的相关性通常以不同形式的相互信息(MI)为特征。但是,我们揭示了次最佳的协作行为,也出现了强烈的相关性,并且简单地最大化MI可以阻碍学习的学习能力。为了解决这个问题,我们提出了一个新颖的MARL框架,称为“渐进式信息协作(PMIC)”,以进行更有效的MI驱动协作。 PMIC使用全球国家和联合行动之间MI测量的新协作标准。基于此标准,PMIC的关键思想是最大程度地提高与优越的协作行为相关的MI,并最大程度地减少与下等方面相关的MI。这两个MI目标通过促进更好的合作,同时避免陷入次级优势,从而扮演互补的角色。与其他算法相比,在各种MARL基准测试的实验表明,PMIC的表现出色。
translated by 谷歌翻译