无监督模型转移有可能极大地提高深层模型对新域的可扩展性。然而,目前的文献认为将目标数据分离成不同的域称为先验。在本文中,我们提出了域不可知学习(DAL)的任务:如何将知识从标记的源域转移到未标记的数据到目标域?为了解决这个问题,我们设计了一种新颖的DeepAdversarial解缠绕自动编码器(DADA),能够从类身份中解开特定于域的特征。我们通过实验证明,当目标域标签未知时,DADA会在几个图像分类数据集上产生最先进的性能。
translated by 谷歌翻译
许多感兴趣的活动都是罕见的事件,只有少数标记的例子可用。因此,期望能够从几个示例中容忍的用于时间活动检测的模型。在本文中,我们提出了几乎简单和一般但新颖的几拍时间性检测框架,它检测未修剪视频中的少数输入活动的开始和结束时间。我们的模型是端到端的可训练的,可以从更多的几个例子中受益。在测试时,为每个提议分配与最大相似度得分相对应的少数活动类别的标签。我们的相似性R-C3D方法在几次拍摄设置中优于之前关于时间活动检测的三个基准测试(THUMOS14,ActivityNet1.2和ActivityNet1.3数据集)的工作。我们的代码将可用。
translated by 谷歌翻译
视频生成是一项具有挑战性的任务,因为它需要模型同时生成逼真的内容和动作。现有方法使用单个生成器网络一起生成运动和内容,但是这种方法可能在复杂视频上失败。在本文中,我们提出了将内容和运动生成分离为两个并行生成器的双流视频生成模型,称为双流变分对抗网络(TwoStreamVAN)。我们的模型通过使用自适应运动内核逐步生成和融合多尺度上的运动和内容特征,在给定输入动作标签的情况下输出逼真的视频。此外,为了更好地评估视频生成模型,我们设计了一个新的合成人类行动数据集,以弥合过度复杂的人类行为数据集和简单的数据集之间的困难差距。我们的模型明显优于标准Weizmann Human Action和MUG Facial Expression数据集以及我们的newdataset上的现有方法。
translated by 谷歌翻译
我们提出了第一个深度学习解决方案,用于视频帧修复,在视频编辑,操作和取证中应用的一般视频修复问题的实例。我们的任务不像帧插值和视频预测那样模糊,因为我们可以同时访问时空背景和未来的部分一瞥,这使我们能够客观地评估模型预测的质量。我们设计了一个由两个模块组成的流水线:双向视频预测模块和atemporally-aware帧插值模块。预测模块使用基于卷积的基于LSTM的编码器 - 解码器对丢失帧进行两个中间预测,一个以前置帧为条件,另一个以后续帧为条件。插值模块将中间预测混合以形成最终结果。具体而言,它利用视频预测模块中的时间信息和隐藏激活来解决预测之间的不一致。我们的实验证明,我们的方法比最先进的视频预测方法和修复基线的修复框架产生更准确和定性更令人满意的结果。
translated by 谷歌翻译
3D点云中的平面检测是关键的预处理步骤,例如点云分割,语义映射和SLAM。与许多最近仅适用于有组织点云的平面检测方法相比,我们的工作针对的是无法进行二维参数化的无组织点云。我们比较了三种有效检测点云平面的方法。一种是本文提出的一种新方法,它通过从一组具有正常法线的点中抽样来产生平面假设。我们将此方法命名为Oriented Point Sampling(OPS)tocontrast,采用更传统的技术,需要对三个取向点进行采样以生成平面假设。我们还实现了基于三个非定向点的局部采样的高效平面检测方法,并将其与OPS和基于文本的3D-KHT算法进行比较,以检测来自SUN RGB-Ddataset的10,000点云的平面。
translated by 谷歌翻译
视觉注意力预测是一个经典问题,似乎在深度学习时代得到了很好的体现。然而,一个引人注目的问题是随着现有视觉数据集的快速增长的性能得分逐渐增加:现有的深度模型是否真正捕捉到人类视觉注意力的内在机制?为了解决这个问题,本文提出了一个名为VASUN的新数据集,它记录了对太阳图像的自由观察人类注意力。与以前的数据集不同,VASUN中的图像包含许多不规则的视觉模式,现有的深层模型已经隐藏了这些模式。通过对VASUN上的现有模型进行基准测试,我们发现许多最先进的深模型的性能显着下降,而许多经典的浅模型表现令人印象深刻。从这些结果中,我们发现现有深度注意力模型的显着性能提升可能来自于记忆和预测某些特定视觉模式的发生而不是学习人类视觉注意的内在机制。此外,我们还在VASUN上训练了几个基线模型,以展示预测太阳视觉注意力的可行性和关键问题。这些基线模型与建议的数据集一起,可用于从与现有视角互补的新视角重新审视视觉注意力预测的问题。
translated by 谷歌翻译
太阳眩光是导致交通事故的主要环境危害之一。每年都有许多人因与太阳眩光有关的交通事故而死亡和受伤。提供关于发生太阳光的时间和地点的准确信息将有助于防止太阳眩光造成交通事故并挽救生命。在本研究中,我们建议使用可公开访问的GoogleStreet View(GSV)全景图像来估计和预测sunglare的发生。 GSV图像具有类似于驾驶员的视线,这将使GSVimage适合于估计驾驶员对太阳眩光的可见性。最近开发的卷积神经网络算法用于分割GSV图像并预测太阳眩光上的障碍物。根据给定位置的预测障碍,我们通过估算太阳位置以及这些位置的驾驶员和太阳之间的相对角度,进一步估算了太阳伞的时间窗。我们在美国马萨诸塞州剑桥进行了一个案例研究。结果表明,该方法可以准确预测出眩光的存在。所提出的方法将为驾驶员和交通规划者提供重要的工具,以减轻太阳眩光并减少由太阳眩光引起的潜在交通事故。
translated by 谷歌翻译
In this paper we present the first large-scale scene attribute database. First, we perform crowdsourced human studies to find a taxonomy of 102 discriminative attributes. We discover attributes related to materials, surface properties , lighting, affordances, and spatial layout. Next, we build the "SUN attribute database" on top of the diverse SUN categorical database. We use crowdsourcing to annotate attributes for 14,340 images from 707 scene categories. We perform numerous experiments to study the interplay between scene attributes and scene categories. We train and evaluate attribute classifiers and then study the feasibility of attributes as an intermediate scene representation for scene classification, zero shot learning, automatic image caption-ing, semantic image search, and parsing natural images. We show that when used as features for these tasks, low dimensional scene attributes can compete with or improve on the state of the art performance. The experiments suggest that scene attributes are an effective low-dimensional feature for capturing high-level context and semantics in scenes.
translated by 谷歌翻译
In this paper we present the first large-scale scene attribute database. First, we perform crowd-sourced human studies to find a taxonomy of 102 discriminative attributes. Next, we build the "SUN attribute database" on top of the diverse SUN categorical database. Our attribute database spans more than 700 categories and 14,000 images and has potential for use in high-level scene understanding and fine-grained scene recognition. We use our dataset to train attribute classifiers and evaluate how well these relatively simple classifiers can recognize a variety of attributes related to materials, surface properties, lighting, functions and affordances, and spatial envelope properties.
translated by 谷歌翻译
We propose a definition of saliency by considering what the visual system is trying to optimize when directing attention. The resulting model is a Bayesian framework from which bottom-up saliency emerges naturally as the self-information of visual features, and overall saliency (incorporating top-down information with bottom-up saliency) emerges as the pointwise mutual information between the features and the target when searching for a target. An implementation of our framework demonstrates that our model's bottom-up saliency maps perform as well as or better than existing algorithms in predicting people's fixations in free viewing. Unlike existing saliency measures, which depend on the statistics of the particular image being viewed, our measure of saliency is derived from natural image statistics, obtained in advance from a collection of natural images. For this reason, we call our model SUN (Saliency Using Natural statistics). A measure of saliency based on natural image statistics, rather than based on a single test image, provides a straightforward explanation for many search asymmetries observed in humans; the statistics of a single test image lead to predictions that are not consistent with these asymmetries. In our model, saliency is computed locally, which is consistent with the neuroanatomy of the early visual system and results in an efficient algorithm with few free parameters.
translated by 谷歌翻译