基于信息瓶颈(IB)的多视图学习提供了一种信息理论原则,用于寻找异质数据描述中包含的共享信息。但是,它的巨大成功通常归因于估计网络变得复杂时棘手的多元互助信息。此外,表示折衷的表示,{\ it},预测压缩和足够的一致性权衡,使IB难以同时满足这两个要求。在本文中,我们设计了几种变分信息瓶颈,以利用两个关键特征({\ it,即},充分性和一致性)用于多视图表示学习。具体而言,我们提出了一种多视图变量蒸馏(MV $^2 $ d)策略,以通过给出观点的任意输入,但没有明确估算它,从而为拟合MI提供了可扩展,灵活和分析的解决方案。在严格的理论保证下,我们的方法使IB能够掌握观测和语义标签之间的内在相关性,从而自然产生预测性和紧凑的表示。同样,我们的信息理论约束可以通过消除任务 - 求核和特定信息的信息来有效地中和对异质数据的敏感性,从而阻止在多种视图情况下两种权衡。为了验证理论上的策略,我们将方法应用于三种不同应用下的各种基准。广泛的定量和定性实验证明了我们对最新方法的方法的有效性。
translated by 谷歌翻译
Detection Transformer (DETR) and Deformable DETR have been proposed to eliminate the need for many hand-designed components in object detection while demonstrating good performance as previous complex hand-crafted detectors. However, their performance on Video Object Detection (VOD) has not been well explored. In this paper, we present TransVOD, the first end-to-end video object detection system based on spatial-temporal Transformer architectures. The first goal of this paper is to streamline the pipeline of VOD, effectively removing the need for many hand-crafted components for feature aggregation, e.g., optical flow model, relation networks. Besides, benefited from the object query design in DETR, our method does not need complicated post-processing methods such as Seq-NMS. In particular, we present a temporal Transformer to aggregate both the spatial object queries and the feature memories of each frame. Our temporal transformer consists of two components: Temporal Query Encoder (TQE) to fuse object queries, and Temporal Deformable Transformer Decoder (TDTD) to obtain current frame detection results. These designs boost the strong baseline deformable DETR by a significant margin (2 %-4 % mAP) on the ImageNet VID dataset. TransVOD yields comparable performances on the benchmark of ImageNet VID. Then, we present two improved versions of TransVOD including TransVOD++ and TransVOD Lite. The former fuses object-level information into object query via dynamic convolution while the latter models the entire video clips as the output to speed up the inference time. We give detailed analysis of all three models in the experiment part. In particular, our proposed TransVOD++ sets a new state-of-the-art record in terms of accuracy on ImageNet VID with 90.0 % mAP. Our proposed TransVOD Lite also achieves the best speed and accuracy trade-off with 83.7 % mAP while running at around 30 FPS on a single V100 GPU device. Code and models will be available for further research.
translated by 谷歌翻译
虽然现有的脸部防欺骗(FAS)方法在域内实验中实现高精度,但由于普遍性较差,它们的效果严重陷入跨域情景。最近,已经探索了多种技巧,例如域泛化和代表性解剖。然而,改进仍然有限有两个问题:1)很难将所有面向共享特征空间的所有面。如果来自未知域的面不映射到共享特征空间中的已知区域,则会意外地获得不准确的预测。 2)很难完全考虑用于解剖学的各种欺骗痕迹。在本文中,我们提出了一个特征生成和假设验证框架来缓解两个问题。最重要的是,在FAS任务中第一次引入生成真实面和已知攻击的假设的特征生成网络。随后,应用两个假设验证模块来判断输入面是否分别来自真实面积和实体面分布。此外,给出了我们框架和贝叶斯不确定性估计之间关系的一些分析,为未知域中的可靠防御提供了理论支持。实验结果表明,我们的框架实现了有希望的结果,优于最先进的公共数据集的最先进的方法。
translated by 谷歌翻译
之前在为人类运动提供合理的限制方面发挥着重要作用。以前的作品在不同情况下遵循各种范式的运动前锋,导致缺乏多功能性。在本文中,我们首先总结了先前运动的不可或缺的特性,并因此设计了一种学习多功能运动的框架,其模拟人类运动的固有概率分布。具体地,对于有效的先前表示学习,我们提出了全局方向归一化,以在原始运动数据空间中删除冗余环境信息。此外,将基于序列的基于段的频率引导引入编码阶段。然后,我们采用去噪培训方案以可学习的方式从输入运动数据中解散环境信息,以产生一致和可区分的表示。在三个不同的任务中嵌入我们的运动前嵌入我们的运动,我们进行了广泛的实验,并且定量和定性结果均表现出我们之前运动的多功能性和有效性。我们的型号和代码可在https://github.com/jchenxu/human-motion-porion -prior上获得。
translated by 谷歌翻译
像素级别的2D对象语义理解是计算机视觉中的一个重要主题,可以帮助在日常生活中深入了解对象(例如功能和可折扣)。然而,最先前的方法直接在2D图像中的对应关系上培训,这是端到端,但在3D空间中失去了大量信息。在本文中,我们提出了一种关于在3D域中预测图像对应语义的新方法,然后将它们突出回2D图像以实现像素级别的理解。为了获得当前图像数据集中不存在的可靠的3D语义标签,我们构建一个名为KeyPointNet的大型关键点知识引擎,其中包含103,450个关键点和来自16个对象类别的8,234个3D模型。我们的方法利用3D视觉中的优势,并可以明确地理由对物体自动阻塞和可见性。我们表明我们的方法在标准语义基准上给出了比较甚至卓越的结果。
translated by 谷歌翻译
点云分析没有姿势前导者在真实应用中非常具有挑战性,因为点云的方向往往是未知的。在本文中,我们提出了一个全新的点集学习框架prin,即点亮旋转不变网络,专注于点云分析中的旋转不变特征提取。我们通过密度意识的自适应采样构建球形信号,以处理球形空间中的扭曲点分布。提出了球形Voxel卷积和点重新采样以提取每个点的旋转不变特征。此外,我们将Prin扩展到称为Sprin的稀疏版本,直接在稀疏点云上运行。 Prin和Sprin都可以应用于从对象分类,部分分割到3D特征匹配和标签对齐的任务。结果表明,在随机旋转点云的数据集上,Sprin比无任何数据增强的最先进方法表现出更好的性能。我们还为我们的方法提供了彻底的理论证明和分析,以实现我们的方法实现的点明智的旋转不变性。我们的代码可在https://github.com/qq456cvb/sprin上找到。
translated by 谷歌翻译
通过推断培训数据中的潜在群体,最近的作品将不可用的注释不可用的情况引入不变性学习。通常,在大多数/少数族裔分裂下学习群体不变性在经验上被证明可以有效地改善许多数据集的分布泛化。但是,缺乏这些关于学习不变机制的理论保证。在本文中,我们揭示了在防止分类器依赖于培训集中的虚假相关性的情况下,现有小组不变学习方法的不足。具体来说,我们提出了两个关于判断这种充分性的标准。从理论和经验上讲,我们表明现有方法可以违反标准,因此未能推广出虚假的相关性转移。在此激励的情况下,我们设计了一种新的组不变学习方法,该方法构建具有统计独立性测试的组,并按组标签重新启动样本,以满足标准。关于合成数据和真实数据的实验表明,新方法在推广到虚假相关性转移方面显着优于现有的组不变学习方法。
translated by 谷歌翻译
降低(DR)在高维数据的视觉分析中起着至关重要的作用。 DR的主要目的是揭示隐藏的模式,这些模式位于固有的低维歧管上。但是,当歧管被某些有影响力的数据属性严重扭曲或隐藏时,DR通常会忽略重要模式。本文介绍了一个功能学习框架FEALM,旨在为非线性DR生成优化的数据投影集,以便在隐藏的歧管中捕获重要模式。这些投影产生了最大不同的最近邻居图,因此由此产生的DR结果显着差异。为了获得这种功能,我们设计了一种优化算法,并引入了一种新的图形差异度量,称为邻居形状差异。此外,我们开发交互式可视化,以帮助比较获得的DR结果和每个DR结果的解释。我们通过使用合成数据集和对现实世界数据集的多个案例研究进行实验来证明FEALM的有效性。
translated by 谷歌翻译
步态计划是一种通常应用于地面机器人的过程,例如四足机器人; Tilt-Rotor是一种新型的四型四个输入,不是其中之一。在控制倾斜 - 依赖反馈线性化的倾斜旋转时,预计倾斜角度(输入)将过度改变,这在应用程序中可能不会预期。为了帮助抑制倾斜角度的密集变化,在反馈线性化之前,将步态计划程序引入倾斜度。用户提前时间指定倾斜角度,而不是由控制规则给出。但是,基于这种情况,反馈线性化中的去耦矩阵对于某些态度,滚动角度和螺距角的组合可能是单数的。它阻碍了反馈线性化的进一步应用。因此,建立了两个彩色图定理,以最大程度地提高可接受的态度区域,在该区域中,滚动和音高的组合将产生可逆的去耦矩阵。然而,该定理过度限制了倾斜角度的选择,这可以排除一些可行的健壮步态。本文给出了广义的两个彩色图定理。所有健壮的步态都可以根据这种广义定理找到。分析了满足该广义的两个彩色图定理(违反两个彩色图定理)的三个步态的鲁棒性。结果表明,概括的两个颜色图定理完成了对倾斜旋转的稳健步态的搜索。
translated by 谷歌翻译
跨域推荐(CDR)可以帮助客户在不同域中找到更多令人满意的项目。现有的CDR模型主要使用普通用户或映射功能作为域之间的桥梁,但在充分利用跨域的额外知识方面的探索非常有限。在本文中,我们建议将CDR的知识图(kg)纳入,这使不同领域中的项目能够共享知识。为此,我们首先从Freebase KG构建了一个新的数据集AmazonKG4CDR和Amazon评论数据的一个子集(两个域对:电影音乐,电影书籍)。这个新的数据集有助于将知识与CDR内部和跨域项目桥接。然后,我们提出了一个新的框架,KG感知的神经集体矩阵分解(KG-NEUCMF),利用KG来丰富项目表示。它首先通过图形卷积自动编码器学习项目嵌入,以从kg中的相邻和高阶邻居中捕获域特异性和域一般知识。然后,我们最大程度地提高了从kg和用户项目矩阵中学到的项目嵌入之间的共同信息,以建立跨域关系以获得更好的CDR。最后,我们对新建的数据集进行了广泛的实验,并证明我们的模型明显优于表现最佳的基线。
translated by 谷歌翻译