长尾图像识别对深度学习系统提出了巨大的挑战,因为多数(头)类别与少数族裔(TAIL)类之间的失衡严重偏斜了数据驱动的深度神经网络。以前的方法从数据分布,功能空间和模型设计等的角度来解决数据失衡。从以前省略的平衡标签空间的角度来看。为了减轻从头到尾的偏见,我们通过逐步调整标签空间并将头等阶层和尾部类别分开,动态构建平衡从不平衡到促进分类,提出简洁的范式。借助灵活的数据过滤和标签空间映射,我们可以轻松地将方法嵌入大多数分类模型,尤其是脱钩的训练方法。此外,我们发现头尾类别的可分离性在具有不同电感偏见的不同特征之间各不相同。因此,我们提出的模型还提供了一种功能评估方法,并为长尾特征学习铺平了道路。广泛的实验表明,我们的方法可以在广泛使用的基准上提高不同类型的最先进的性能。代码可在https://github.com/silicx/dlsa上找到。
translated by 谷歌翻译
人对象相互作用(HOI)检测在活动理解中起着至关重要的作用。尽管已经取得了重大进展,但交互性学习仍然是HOI检测的一个具有挑战性的问题:现有方法通常会产生冗余的负H-O对提案,并且无法有效提取交互式对。尽管已经在整个身体和部分级别研究了互动率,并促进了H-O配对,但以前的作品仅专注于目标人一次(即,从本地角度来看)并忽略了其他人的信息。在本文中,我们认为同时比较多人的身体零件可以使我们更有用,更补充的互动提示。也就是说,从全球的角度学习身体部分的互动:当对目标人的身体零件互动进行分类时,不仅要从自己/他本人,而且还从图像中的其他人那里探索视觉提示。我们基于自我注意力来构建身体的显着性图,以挖掘交叉人物的信息线索,并学习所有身体零件之间的整体关系。我们评估了广泛使用的基准曲线和V-Coco的建议方法。从我们的新角度来看,整体的全部本地人体互动互动学习可以对最先进的发展取得重大改进。我们的代码可从https://github.com/enlighten0707/body-part-map-for-interactimence获得。
translated by 谷歌翻译
在本文中,我们提出了一种真正的群体级对比度视觉表示学习方法,其在Imagenet上的线性评估表现超过了香草的监督学习。两个主流的无监督学习方案是实例级对比框架和基于聚类的方案。前者采用了极为细粒度的实例级别歧视,由于虚假负面因素,其监督信号无法有效。尽管后者解决了这一点,但它们通常会受到影响性能的一些限制。为了整合他们的优势,我们设计了烟雾方法。烟雾遵循对比度学习的框架,但取代了对比度单元,从而模仿了基于聚类的方法。为了实现这一目标,我们提出了同步执行特征分组与表示学习的动量分组方案。通过这种方式,烟雾解决了基于聚类的方法通常面对的监督信号滞后问题,并减少了实例对比方法的错误负面因素。我们进行详尽的实验,以表明烟雾在CNN和变压器骨架上都很好地工作。结果证明,烟雾已经超过了当前的SOTA无监督的表示方法。此外,其线性评估结果超过了通过香草监督学习获得的性能,并且可以很好地转移到下游任务。
translated by 谷歌翻译
估计看不见对象的6D姿势对许多现实世界应用非常有需求。但是,当前的最新姿势估计方法只能处理以前训练的对象。在本文中,我们提出了一项新任务,以使算法能够估计测试过程中新颖对象的6D姿势估计。我们收集一个具有真实图像和合成图像的数据集,并且在测试集中最多可见48个看不见的对象。同时,我们提出了一个名为infimum Add(IADD)的新指标,这是对具有不同类型姿势歧义的对象的不变测量。还提供了针对此任务的两个阶段基线解决方案。通过训练端到端的3D对应网络,我们的方法可以准确有效地找到看不见的对象和部分视图RGBD图像之间的相应点。然后,它使用算法鲁棒到对象对称性从对应关系中计算6D姿势。广泛的实验表明,我们的方法的表现优于几个直观基线,从而验证其有效性。所有数据,代码和模型都将公开可用。项目页面:www.graspnet.net/unseen6d
translated by 谷歌翻译
预期未来的事件是智能系统和体现AI的重要功能。但是,与传统的识别任务相比,未来和推理能力要求的不确定性使预期任务非常具有挑战性,并且远远超出了解决。在此文件中,以前的方法通常更关心模型架构设计,或者很少关注如何通过适当的学习政策培训预期模型。为此,在这项工作中,我们提出了一种称为动态上下文删除(DCR)的新型培训方案,该方案动态地安排了学习过程中观察到的未来的可见性。它遵循类似人类的课程学习过程,即逐渐消除事件上下文以增加预期难度,直到满足最终预期目标。我们的学习方案是插件,易于整合包括变压器和LSTM在内的任何推理模型,具有有效性和效率的优势。在广泛的实验中,提出的方法在四个广泛使用的基准上实现了最先进的方法。我们的代码和模型将在https://github.com/allenxuuu/dcr上公开发布。
translated by 谷歌翻译
大规模数据集对于学习良好的特性至关重要,以便在3D形状理解中,只有几个数据集可以满足深入学习培训。其中一个主要原因是,用于使用多边形或涂鸦注释每点语义标签的当前工具是乏味的,效率低下。为了促进3D形状中的分段注释,我们提出了一个有效的注释工具,名为3D形状的ISEG。它可以获得最小的人类点击(<10)的满足细分结果。在我们的观察下,大多数物体可以被视为有限原始形状的组成,我们在我们的建立原始组合的形状数据上培训ISEG3D模型,以以自我监督的方式学习几何先前知识。给定人类交互,所学的知识可用于在任意形状上分段部分,其中正点击帮助将基元与语义部件相关联,负击可以避免过分分割。此外,我们还提供了一个在线人体环路的微调模块,使模型能够使用较少点击执行更好的分段。实验证明ISEG3D对Partnet形状分割的有效性。数据和代码将公开可用。
translated by 谷歌翻译
铰接物对象在日常生活中普遍存在。然而,由于内在的高DOF结构,铰接物的关节状态很难估计。为了模拟铰接物体,应考虑两种形状变形即几何和姿势变形。在这项工作中,我们提出了一种具有铰接变形(OMAD)的特定于对象模型的专用类别参数表示,以显式模拟铰接对象。在OMAD中,类别与具有共享形状的线性形状函数与非线性接合功能相关联。这两个函数都可以从大型对象模型数据集中学习并固定为特定于类别的前瞻。然后,我们提出了一个OMADNet,以预测来自对象的单个观察的形状参数和关节状态。通过对象形状和联合状态的完整表示,我们可以解决多种任务,包括类别级对象姿势估计和铰接对象检索。为了评估这些任务,我们根据Partnet-Mobility创建一个合成数据集。广泛的实验表明,我们的简单OMADNet可以作为两个任务的强基线。
translated by 谷歌翻译
在监控视频中的异常检测是挑战,对确保公共安全有挑战性。不同于基于像素的异常检测方法,基于姿势的方法利用高结构化的骨架数据,这降低了计算负担,并避免了背景噪声的负面影响。然而,与基于像素的方法不同,这可以直接利用显式运动特征,例如光学流,基于姿势的方法缺乏替代动态表示。在本文中,提出了一种新的运动嵌入器(ME)以提供从概率的角度来提供姿态运动表示。此外,为自我监控姿势序列重建部署了一种新型任务特定的空间 - 时间变压器(STT)。然后将这两个模块集成到统一规律学习的统一框架中,该框架被称为运动先前规律学习者(MOPLL)。 MOPRL在几个具有挑战性的数据集中实现了4.7%AUC的平均改善,实现了最先进的性能。广泛的实验验证每个提出的模块的多功能性。
translated by 谷歌翻译
建设通用机器人在人类水平的各种环境中对大量的任务进行众所周知的复杂。它需要机器人学习是采样的,更概括的,可概括的,组成和增量。在这项工作中,我们介绍了一个称为SAGCI-System的系统学习框架,实现了超过四种要求。我们的系统首先采用由安装在机器人手腕上的摄像机收集的原始点云作为输入,并产生所代表为URDF的周围环境的初始建模。我们的系统采用了一个加载URDF的学习增强的可分辨率模拟。然后,机器人利用交互式感知来与环境交互,并修改URDF。利用模拟,我们提出了一种新的基于模型的RL算法,这些RL算法结合了以上的对象和机器人为中心的方法,以有效地产生完成操纵任务的策略。我们应用我们的系统,以进行仿真和现实世界的铰接物体操纵。广泛的实验表明了我们提出的学习框架的有效性。 https://sites.google.com/view/egci提供了补充材料和视频。
translated by 谷歌翻译
像素级别的2D对象语义理解是计算机视觉中的一个重要主题,可以帮助在日常生活中深入了解对象(例如功能和可折扣)。然而,最先前的方法直接在2D图像中的对应关系上培训,这是端到端,但在3D空间中失去了大量信息。在本文中,我们提出了一种关于在3D域中预测图像对应语义的新方法,然后将它们突出回2D图像以实现像素级别的理解。为了获得当前图像数据集中不存在的可靠的3D语义标签,我们构建一个名为KeyPointNet的大型关键点知识引擎,其中包含103,450个关键点和来自16个对象类别的8,234个3D模型。我们的方法利用3D视觉中的优势,并可以明确地理由对物体自动阻塞和可见性。我们表明我们的方法在标准语义基准上给出了比较甚至卓越的结果。
translated by 谷歌翻译