现代深度学习方法的一个主要局限性在于训练它们所需的数据量。另一方面,人类只能通过几个例子来识别新颖的类别。对这种快速学习能力的帮助是人类大脑中概念表征的组成结构 - 这是深度学习模型所具有的。在这项工作中,我们通过引入一种简单的正则化技术,使得学习的表示可以被分解成部分,朝着弥合人机学习之间的这种差距迈出了一步。我们在三个数据集上评估了所提出的方法:CUB-200-2011,SUN397和ImageNet,并证明我们的组合表示需要更少的例子来学习新类别的分类器,大大超过了最先进的学习方法。 。
translated by 谷歌翻译
计算机视觉中基于学习的方法的主导范式是在大型数据集上训练通用模型,例如用于图像识别的ResNet,或用于视频理解的I3D,并允许它们发现手头问题的最佳表示。虽然这是一个明显有吸引力的方法,但并不适用于所有情况。我们声称动作检测是一个具有挑战性的问题 - 需要训练的模型很大,标记数据的获取成本很高。为了解决这个限制,我们建议将领域知识纳入模型的结构,简化优化。特别是,我们使用跟踪模块扩展标准I3D网络以聚合长期运动模式,并使用图形卷积网络来推理演员和对象之间的交互。根据具有挑战性的AVA数据集进行评估,所提出的方法比I3Dbaseline提高了5.5%mAP,并且超过了最先进的4.8%mAP。
translated by 谷歌翻译
3D点云是三维结构的高效灵活表示。最近,在点云上运行的神经网络在形状分类和零件分割等任务上表现出了卓越的性能。然而,这些任务的性能是使用完整的,对齐的形状来评估的,而现实世界3D数据是部分和未对齐的。从未对齐的点云数据中学习的关键挑战是如何在几何变换方面获得不变性的方差分析。为了应对这一挑战,我们提出了一种新的变压器网络,该网络在3D点云上运行,称为迭代变压器网络(IT-Net)。与现有的变压器网络不同,IT-Net使用由经典图像和点云对齐算法启发的aniterative精简方案预测3D刚性变换。我们证明了使用IT-Net的模型在部分,未对齐的3D形状的分类和分割方面比基线实现了更高的性能。此外,我们提供了一个分析,该方法用于从部分观测中估计精确的物体姿态。
translated by 谷歌翻译
为语义分段训练深度网络需要注释大量数据,这可能既耗时又昂贵。不幸的是,当在与训练数据不一致的领域中进行测试时,这些训练有素的网络仍然很难概括。在本文中,我们通过仔细地将标记的源域和代理标记的目标多态数据的混合物呈现给网络,我们可以实现最先进的无监督域适应性结果。通过我们的设计,网络使用仅来源域的注释逐步学习特定于目标域的特征。我们使用网络自己的预测生成目标域的代理标签。然后,我们的架构允许从这组代理标签和来自注释源域的硬样本中选择性地挖掘简单样本。我们使用GTA5,Cityscapes和BDD100k数据集进行了一系列实验,包括合成到实域适应和地理域适应,展示了我们的方法优于基线和现有方法的优势。
translated by 谷歌翻译
形状完成,从部分观察中估计物体的完整几何形状的问题,是许多视觉和机器人应用的核心。在这项工作中,我们提出了点完成网络(PCN),这是一种基于新颖的基于学习的形状完成方法。与现有的形状完成方法不同,PCN直接在原始点云上操作而没有关于基础形状的任何结构化(例如对称性)或注释(例如语义类)。它采用解码器设计,可在保持少量参数的同时生成细粒度完井。 Ourexperiments显示PCN产生密集,完整的点云,输入中缺失区域的实际结构具有不同程度的不完整性和噪声,包括来自KITTI数据集中LiDAR扫描的汽车。
translated by 谷歌翻译
A major impediment in rapidly deploying object detection models for instancedetection is the lack of large annotated datasets. For example, finding a largelabeled dataset containing instances in a particular kitchen is unlikely. Eachnew environment with new instances requires expensive data collection andannotation. In this paper, we propose a simple approach to generate largeannotated instance datasets with minimal effort. Our key insight is thatensuring only patch-level realism provides enough training signal for currentobject detector models. We automatically `cut' object instances and `paste'them on random backgrounds. A naive way to do this results in pixel artifactswhich result in poor performance for trained models. We show how to makedetectors ignore these artifacts during training and generate data that givescompetitive performance on real data. Our method outperforms existing synthesisapproaches and when combined with real images improves relative performance bymore than 21% on benchmark datasets. In a cross-domain setting, our syntheticdata combined with just 10% real data outperforms models trained on all realdata.
translated by 谷歌翻译
Current approaches in video forecasting attempt to generate videos directlyin pixel space using Generative Adversarial Networks (GANs) or VariationalAutoencoders (VAEs). However, since these approaches try to model all thestructure and scene dynamics at once, in unconstrained settings they oftengenerate uninterpretable results. Our insight is to model the forecastingproblem at a higher level of abstraction. Specifically, we exploit human posedetectors as a free source of supervision and break the video forecastingproblem into two discrete steps. First we explicitly model the high levelstructure of active objects in the scene---humans---and use a VAE to model thepossible future movements of humans in the pose space. We then use the futureposes generated as conditional information to a GAN to predict the futureframes of the video in pixel space. By using the structured space of pose as anintermediate representation, we sidestep the problems that GANs have ingenerating video pixels directly. We show through quantitative and qualitativeevaluation that our method outperforms state-of-the-art methods for videoprediction.
translated by 谷歌翻译
在给定的场景中,人类通常可以很容易地预测可能发生的一系列即时未来事件。然而,广义的像素级预期计算机视觉系统是困难的,因为机器学习与预测未来固有的模糊性斗争。在本文中,我们专注于预测场景中像素的密集轨迹,特别是场景中将要移动的场景,它将在哪里传播,以及它将如何在一秒钟内变形。我们提出了条件变分自动编码器作为这个问题的解决方案。在此框架中,来自图像的直接推断形成可能轨迹的分布,而潜在变量编码图像中不可用的任何必要信息。我们表明,我们的方法能够成功地预测各种场景中的事件,并且当未来不明确时可以产生多种不同的预测。 Oural算法在数千种不同的,逼真的视频上进行训练,并且绝对不需要人类标记。除了非语义动作预测之外,我们还发现我们的方法学习了一种适用于语义视觉任务的表示。
translated by 谷歌翻译
在本文中,我们提出了一种从视频中的原始时空信号中学习视觉表示的方法。我们的表示是在没有语义标签监督的情况下学习的。我们将我们的方法表示为无监督的顺序验证任务,即,我们确定来自视频的帧的序列是否处于正确的时间顺序。通过这个简单的任务而没有语义标签,我们使用卷积神经网络(CNN)学习强大的视觉表示。该表示包含从监督的图像数据集(如ImageNet)中学习的信息。定性结果表明,我们的方法捕获了时间变化的信息,例如人体姿势。当用作行动识别的预训练时,我们的方法在基础数据集(如UCF101和HMDB51)上没有外部数据的情况下比学习有了显着的收益。为了证明其对人体姿势的敏感性,我们展示了FLIC和MPII数据集的姿态估计结果,这些结果具有竞争力,或者比使用显着更多监督的方法更好。我们的方法可以与监督表示相结合,以提供额外的准确性提升。
translated by 谷歌翻译
Given a scene, what is going to move, and in what direction will it move?Such a question could be considered a non-semantic form of action prediction.In this work, we present a convolutional neural network (CNN) based approachfor motion prediction. Given a static image, this CNN predicts the futuremotion of each and every pixel in the image in terms of optical flow. Our CNNmodel leverages the data in tens of thousands of realistic videos to train ourmodel. Our method relies on absolutely no human labeling and is able to predictmotion based on the context of the scene. Because our CNN model makes noassumptions about the underlying scene, it can predict future optical flow on adiverse set of scenarios. We outperform all previous approaches by largemargins.
translated by 谷歌翻译