分布式概括(OOD)都是关于对环境变化的学习不变性。如果每个类中的上下文分布均匀分布,则OOD将是微不足道的,因为由于基本原则,可以轻松地删除上下文:类是上下文不变的。但是,收集这种平衡的数据集是不切实际的。学习不平衡的数据使模型偏见对上下文,从而伤害了OOD。因此,OOD的关键是上下文平衡。我们认为,在先前工作中广泛采用的假设,可以直接从偏见的类预测中注释或估算上下文偏差,从而使上下文不完整甚至不正确。相比之下,我们指出了上述原则的另一面:上下文对于类也不变,这激励我们将类(已经被标记为已标记的)视为不同环境以解决上下文偏见(没有上下文标签)。我们通过最大程度地减少阶级样本相似性的对比损失,同时确保这种相似性在所有类别中不变,从而实现这一想法。在具有各种上下文偏见和域间隙的基准测试中,我们表明,配备了我们上下文估计的简单基于重新加权的分类器实现了最新的性能。我们在https://github.com/simpleshinobu/irmcon上提供了附录中的理论理由和代码。
translated by 谷歌翻译
常规的去命名方法依赖于所有样品都是独立且分布相同的假设,因此最终的分类器虽然受到噪声的干扰,但仍然可以轻松地将噪声识别为训练分布的异常值。但是,在不可避免地长尾巴的大规模数据中,该假设是不现实的。这种不平衡的训练数据使分类器对尾巴类别的歧视性较小,而尾巴类别的差异化现在变成了“硬”的噪声 - 它们几乎与干净的尾巴样品一样离群值。我们将这一新挑战介绍为嘈杂的长尾分类(NLT)。毫不奇怪,我们发现大多数拖延方法无法识别出硬噪声,从而导致三个提出的NLT基准测试的性能大幅下降:Imagenet-NLT,Animal10-NLT和Food101-NLT。为此,我们设计了一个迭代嘈杂的学习框架,称为“难以容易”(H2E)。我们的引导理念是首先学习一个分类器作为噪声标识符不变的类和上下文分布变化,从而将“硬”噪声减少到“ Easy”的噪声,其删除进一步改善了不变性。实验结果表明,我们的H2E胜过最先进的方法及其在长尾设置上的消融,同时在传统平衡设置上保持稳定的性能。数据集和代码可从https://github.com/yxymessi/h2e-framework获得
translated by 谷歌翻译
基于变压器的方法最近在基于2D图像的视力任务上取得了巨大进步。但是,对于基于3D视频的任务,例如动作识别,直接将时空变压器应用于视频数据将带来沉重的计算和记忆负担,因为斑块的数量大大增加以及自我注意计算的二次复杂性。如何对视频数据的3D自我注意力进行有效地建模,这对于变压器来说是一个巨大的挑战。在本文中,我们提出了一种时间贴片移动(TPS)方法,用于在变压器中有效的3D自发明建模,以进行基于视频的动作识别。 TPS在时间尺寸中以特定的镶嵌图模式移动斑块的一部分,从而将香草的空间自我发项操作转换为时空的一部分,几乎没有额外的成本。结果,我们可以使用几乎相同的计算和记忆成本来计算3D自我注意力。 TPS是一个插件模块,可以插入现有的2D变压器模型中,以增强时空特征学习。提出的方法可以通过最先进的V1和V1,潜水-48和Kinetics400实现竞争性能,同时在计算和内存成本方面效率更高。 TPS的源代码可在https://github.com/martinxm/tps上找到。
translated by 谷歌翻译
由于基于相交的联盟(IOU)优化维持最终IOU预测度量和损失的一致性,因此它已被广泛用于单级2D对象检测器的回归和分类分支。最近,几种3D对象检测方法采用了基于IOU的优化,并用3D iou直接替换了2D iou。但是,由于复杂的实施和效率低下的向后操作,3D中的这种直接计算非常昂贵。此外,基于3D IOU的优化是优化的,因为它对旋转很敏感,因此可能导致训练不稳定性和检测性能恶化。在本文中,我们提出了一种新型的旋转旋转iou(RDIOU)方法,该方法可以减轻旋转敏感性问题,并在训练阶段与3D IOU相比产生更有效的优化目标。具体而言,我们的RDIOU通过将旋转变量解耦为独立术语,但保留3D iou的几何形状来简化回归参数的复杂相互作用。通过将RDIOU纳入回归和分类分支,鼓励网络学习更精确的边界框,并同时克服分类和回归之间的错位问题。基准Kitti和Waymo开放数据集的广泛实验验证我们的RDIOU方法可以为单阶段3D对象检测带来实质性改进。
translated by 谷歌翻译
利用Stylegan的表现力及其分离的潜在代码,现有方法可以实现对不同视觉属性的现实编辑,例如年龄和面部图像的性别。出现了一个有趣而又具有挑战性的问题:生成模型能否针对他们博学的先验进行反事实编辑?由于自然数据集中缺乏反事实样本,我们以文本驱动的方式研究了这个问题,并具有对比语言图像预言(剪辑),这些(剪辑)甚至可以为各种反事实概念提供丰富的语义知识。与内域操作不同,反事实操作需要更全面地剥削夹包含的语义知识,以及对编辑方向的更微妙的处理,以避免被卡在局部最低或不需要的编辑中。为此,我们设计了一种新颖的对比损失,该损失利用了预定义的夹子空间方向,从不同的角度将编辑指向所需的方向。此外,我们设计了一个简单而有效的方案,该方案将(目标文本)明确映射到潜在空间,并将其与潜在代码融合在一起,以进行有效的潜在代码优化和准确的编辑。广泛的实验表明,我们的设计在乘坐各种反事实概念的目标文本驾驶时,可以实现准确,现实的编辑。
translated by 谷歌翻译
半监督学习(SSL)从根本上是一个缺失的标签问题,与广泛的随机假设完全既贴心又无标记的标签完全失踪,而不是随机(mnar)问题(mnar)问题更现实和挑战数据共享相同的类分布。与现有的SSL解决方案不同,这些解决方案忽略了“类”在引起非随机性中的作用,例如,用户更有可能将流行类标记为“类别”,我们将“类”明确地纳入SSL。我们的方法是三倍:1)我们建议使用偏置标记的数据来利用未标记的数据来利用未标记的数据来训练改进的分类器。 2)鼓励罕见的课堂培训,其模型是低回调但高精度,丢弃了太多的伪标记的数据,我们提出了类动态降低(或增加)伪标签分配阈值的class感知插补(CAI)稀有(或频繁)的课程。 3)总体而言,我们将CAP和CAI集成到训练无偏的SSL模型的双重稳健估计器中。在各种MNAR设置和消融中,我们的方法不仅显着优于现有基线,而且超过了其他标签偏置删除SSL方法。请通过以下方式查看我们的代码:https://github.com/joyhuyy1412/cadr-fixmatch。
translated by 谷歌翻译
我们在现有的长尾分类方法中解决了被忽视的无偏见:我们发现它们的整体改善主要归因于尾部过度的偏置偏好,因为假设测试分配是平衡的;但是,当测试与长尾训练数据一样不平衡 - 让测试尊重ZIPF的自然定律 - 尾巴偏差不再有益,因为它伤害了大多数人。在本文中,我们提出了跨域经验风险最小化(XIM)来训练一个非偏见模型,以实现对两个测试分布的强大性能,经验证明Xerm通过学习更好的特征表示而不是头部与头部来改善分类。游戏。基于因果关系,我们进一步理论上解释了Xerm实现了非偏见的原因:通过调整不平衡域和平衡但不合形的结构域的经验风险来消除由域选择引起的偏差。代码可在https://github.com/beierzhu/xerm获得。
translated by 谷歌翻译
与基于现代聚类算法的完全监督的REID方法相比,未经监督的人重新识别(U-Reid)最近达到了竞争性能。然而,这种基于聚类的方案对大规模数据集来说变得对计算方式。如何探讨如何有效利用具有有限计算资源的无限未标记的数据,以便更好地进行更好的U-Reid。在本文中,我们首次尝试大规模U-Reid并提出一个“大型任务的小数据”范式被称为Meta聚类学习(MCL)。 MCL仅通过群集伪标记整个未标记数据的子集,以节省第一期训练的计算。之后,被学习的集群中心称为我们的MCL中的元原型,被视为代理注释器,以便轻松注释其它未标记数据以进一步抛光模型。为了缓解抛光阶段的潜在嘈杂的标签问题,我们强制执行两个精心设计的损失限制,以保证境内统一的一致性和相互识别的强烈相关性。对于多个广泛使用的U-REID基准测试,我们的方法显着节省了计算成本,同时与先前作品相比,实现了可比或更好的性能。
translated by 谷歌翻译
脊柱退化困扰着许多长老,办公室工作者,甚至是年轻世代。有效的药剂或外科干预措施可以帮助缓解退行性脊柱条件。然而,传统的诊断程序往往太费力了。临床专家需要从脊柱磁共振成像(MRI)或计算机断层扫描(CT)图像中检测椎间盘和椎骨作为进行病理诊断或术前评价的初步步骤。已经开发了机器学习系统,以帮助这一程序通常在两级方法之后:首先进行解剖定位,然后进行病理分类。为了更高效和准确的诊断,我们提出了一种单阶段检测框架,称为Spineone,同时定位和分类来自MRI切片的退化椎间盘和椎骨。脊柱内置于以下三个关键技术:1)Keypoint Heatmap的新设计,以促进同时关键点本地化和分类; 2)使用注意力模块更好地区分光盘和椎骨之间的表示; 3)一种新颖的梯度引导的客观协会机制,将多个学习目标与后来的培训阶段相关联。脊髓疾病智能诊断的经验结果Tianchi竞争(SDID-TC)550考试的数据集表明,我们的方法通过大幅度超越现有方法。
translated by 谷歌翻译
布换人员重新识别(CC-REID)旨在在长时间匹配不同地点的同一个人,例如,超过日子,因此不可避免地满足换衣服的挑战。在本文中,我们专注于处理更具有挑战性的环境下的CC-Reid问题,即,只有一个图像,它可以实现高效和延迟的行人确定实时监控应用。具体而言,我们将步态识别作为辅助任务来驱动图像Reid模型来通过利用个人独特和独立布的步态信息来学习布不可知的表现,我们将此框架命名为Gi-Reid。 Gi-Reid采用两流架构,该架构由图像Reid-Stream和辅助步态识别流(步态流)组成。在推理的高计算效率中丢弃的步态流充当调节器,以鼓励在训练期间捕获捕获布不变的生物识别运动特征。为了从单个图像获取时间连续运动提示,我们设计用于步态流的步态序列预测(GSP)模块,以丰富步态信息。最后,为有效的知识正则化强制执行两个流的高级语义一致性。基于多种图像的布更换Reid基准测试的实验,例如LTCC,PRCC,Real28和VC衣服,证明了GI-REID对最先进的人来说。代码在https://github.com/jinx-ustc/gi -reid提供。
translated by 谷歌翻译