我们提出了一种基于束调整的算法,用于从单目视频中恢复准确的3D人体姿势和网格。与之前在单帧上运算的算法不同,我们表明在整个序列上重建一个人可以提供额外的约束来解决歧义。这是因为视频通常会给出一个人的多个视图,但整体的身体形状不会改变,3D位置也会缓慢变化。我们的方法不仅改进了标准的基于mocap的数据集,例如人类3.6M - 我们展示了定量改进 - 而且还改进了具有挑战性的野生数据集,例如Kinetics.Building在我们的算法上,我们提出了一个超过3的新数据集来自Kinetics的百万帧YouTube视频,自动生成3D姿势和网格物体。我们展示了通过在3DPW和HumanEVA数据集上进行评估,在该数据上重新训练单帧3D姿态估计器可以提高真实世界和mocap数据的准确性。
translated by 谷歌翻译
本文的目的是通过计算将其转换为鸟瞰(俯视)视图的ahomography矩阵来纠正任何单目图像。我们做出以下贡献:(i)我们证明单应矩阵可以仅用指定水平线和垂直消失点的四个参数进行参数化,或者如果已知视野或焦点强度则只有两个参数化; (ii)我们引入了一个新的表示形式的aline或点(可以是无穷大)的几何形状,适用于与卷积神经网络(CNN)回归; (iii)我们为正交消失点引入了一个具有基本事实的大型合成图像数据集,可用于训练CNN预测这些几何实体;最后(iv)Weachieve在地平线检测方面的最新结果,野生数据集中的地平线上的AUC为74.52%。我们的方法快速而稳健,可用于实时消除视频中的透视失真。
translated by 谷歌翻译
手动图像注释,例如定义和标记感兴趣的区域,是许多研究项目和工业应用的基本处理阶段。在本文中,我们介绍了一个简单而独立的手动图像注释工具:VGG图像注释器(\ href {http://www.robots.ox.ac.uk/~vgg/software/via/} {VIA})。这是一个轻量级,独立和脱机的软件包,不需要任何安装或设置,只能在Web浏览器中运行。由于其轻巧和灵活性,威盛软件已迅速成为许多学科中必不可少的宝贵研究支持工具。此外,它在一些工业部门中也非常受欢迎,这些部门已经投资使这种开源软件适应他们的要求。自2017年公开发布以来,VIA软件的使用时间已超过50万美元,并且已经培育了一个庞大而蓬勃发展的开源社区。
translated by 谷歌翻译
我们介绍了Action Transformer模型,用于识别和定位视频剪辑中的人类动作。我们重新设计了一个变形金刚风格的架构来聚合我们试图分类的人的时空背景下的特征。我们通过使用高分辨率,特定于人的,类不可知的查询来表明,该模型自发地学习每个人,并从其他人的行为中获取语义上下文。此外,它的注意机制学会强调手和脸,这通常对于区分动作至关重要 - 除了盒子和类标签之外,所有这些都没有明确的监督。我们在原子视觉动作(AVA)数据集上训练和测试我们的ActionTransformer网络,以显着的优势超越现有技术 - 绝对超过7.5%(相对于40%)改进,仅使用原始RGB帧作为输入。
translated by 谷歌翻译
学习深度神经网络需要解决一个具有挑战性的优化问题:它是一个具有大量项的高维,非凸和非平滑最小化问题。神经网络优化的当前实践是依赖于随机梯度下降(SGD)算法或自适应变体。但是,SGD需要手动设计的学习率表。此外,它的自适应变体倾向于产生解决方案,与使用手工设计的时间表的SGD相比,对于看不见的数据的概括性较差。我们提出了一种优化方法,它在经验上提供了最好的两个世界:我们的算法产生良好的泛化性能,同时只需要一个超参数。我们的方法基于复合近似框架,它利用深度神经网络的组成性质,并可以通过设计利用强大的凸优化算法。具体而言,我们采用Frank-Wolfe(FW)算法进行SVM,计算闭合时的最佳步长-form在每个时间步骤。我们进一步表明,下降方向是由网络中的简单后向传递给出的,每次迭代产生与SGD相同的计算成本。我们提出了关于CIFAR和SNLI数据集的实验,其中我们证明了我们的方法相对于Adam,Adagrad以及最近提出的BPGrad和AMSGrad的显着优势。此外,我们将我们的算法与SGD与手工设计的学习率计划进行比较,并表明它提供了类似的概括,同时更快地收敛。该代码公开发布在http://github.com/oval-group/dfw。
translated by 谷歌翻译
几乎所有现有的计数方法都是针对特定的对象类而设计的。然而,我们的工作旨在创建一个能够计算任何类别对象的计数模型。为了实现这一目标,我们将计数作为一个匹配问题,使我们能够利用在对象计数问题中自然存在的图像自相似性。我们做出以下三个贡献:第一,通用匹配网络(GMN)架构,可以以类不可知的方式对任何对象进行潜在计数;第二,通过将计数问题重新配置为匹配对象之一,我们可以利用标记为跟踪的丰富视频数据,其包含适合于训练计数模型的自然重复。这样的数据使得能够训练GMN。第三,为了将GMN定制为不同的用户需求,使用适配器模块来专门化具有最小化程度的模型,即使用少数标记的示例,并且仅调整训练参数的一小部分。这是一种几次学习的形式,对于由于需要专家知识(例如微生物学)而限制标签的领域而言,这是实用的。我们展示了我们的方法在各种现有计数基准上的灵活性:特别是细胞,汽车和人群。该模型在细胞和人群数据集上实现了竞争性能,并且仅使用三个训练图像就超过了汽车数据集的最新技术水平。在对整个数据集进行训练时,建议的方法大大优于以前的所有方法。
translated by 谷歌翻译
本文的目的是学习基于模板的人脸识别的图像集的紧凑表示。我们做出以下贡献:首先,我们提出了一种网络体系结构,它将深度卷积神经网络产生的面部描述符聚合并嵌入到一个紧凑的长度表示中。这种紧凑的表示需要最小的存储空间并实现有效的相似性计算。其次,我们提出了一个新颖的GhostVLAD层,它包含{\ em ghost clusters},不包含在聚合中。我们展示了输入面上的质量加权自动出现,使得信息图像以低质量贡献更多,并且鬼群增强了网络处理劣质图像的能力。第三,我们探讨输入特征,集群数量和不同训练技术如何影响认知表现。鉴于此分析,我们培训了一个在IJB-B人脸识别数据集上具有最新技术水平的网络。这是目前最具挑战性的公共基准之一,我们在识别和验证协议方面超越了最新技术水平。
translated by 谷歌翻译
这项工作提出了一种视觉文本识别方法,无需使用任何配对的监督数据。我们将文本识别任务制定为从给定的textimages预测的字符串的条件分布,其中词法有效的字符串从目标语料库中采样。这可以从线级文本图像和不成对的文本字符串样本中实现自动化和无监督学习,从而避免了对大型对齐数据集的需求。我们对提出的方法的各个方面进行了详细的分析,即 - (1)训练序列长度对收敛的影响,(2)字符频率与学习的顺序之间的关系,以及(3)证明了它们的泛化能力。我们的识别网络对任意长度的输入。最后,我们在合成生成的textimages和真实印刷书籍的扫描图像上展示了优秀的文本识别准确性,没有使用标记的训练样本。
translated by 谷歌翻译
随着深度学习模型倾向于从数据集中学习非预期的信号,网络总是有可能“作弊”或者解决任务。在用于视觉亲属验证的数据集的实例中,一个这样的非预期信号可能是从相同照片裁剪面部,因为来自相同照片的面部更可能来自相同的家庭。在本文中,我们调查了这种人工数据推理对公布的亲属验证数据集的影响。为此,我们获得了一个大型数据集,并训练CNN分类器来确定两张脸是否来自同一张照片。使用这个分类器作为亲属的天真分类器,我们在五个公共基准数据集上展示了近似的现有技术结果,用于亲属验证 - 在其中一个上获得超过90%的准确率。因此,我们得出结论,从我们检查的所有数据集中,从同一张照片中得到的面部是一个强烈的无意信号,并且现有的亲属关系模型所解释的亲属关系很可能很小。
translated by 谷歌翻译
神经网络在图像分类任务中实现了最先进的技术。然而,它们可以编码可能存在于训练数据中的虚假变化或偏差。例如,在不平衡性别的数据集上训练年龄预测因子可能导致性别偏见的预测(例如,如果只有老年男性在训练集中,则错误预测男性年龄较大)。我们提出了两个不同的贡献:1)算法可以从网络的要素表示中删除多个变量来源。我们证明,当训练网络在极端偏向的数据集上时,该算法可用于从特征表示中去除偏差,从而提高分类准确性。 2)来自东亚,印度次大陆,撒哈拉以南非洲和西欧的1400个人的祖先来源数据库。我们在该数据集上展示了对于多种面部属性分类任务,我们能够从网络特征表示中消除偏差。
translated by 谷歌翻译