在自然界中,动物的集体行为(例如飞鸟)由同一物种的个体之间的相互作用主导。但是,对鸟类物种中这种行为的研究是一个复杂的过程,即人类无法使用常规的视觉观察技术(例如自然界的焦点采样)进行。对于鸟类等社会动物,群体形成的机制可以帮助生态学家了解社交线索及其视觉特征随着时间的流逝(例如姿势和形状)之间的关系。但是,恢复飞行鸟类的不同姿势和形状是一个极具挑战性的问题。解决此瓶颈的一种广泛的解决方案是将姿势和形状从2D图像提取到3D对应关系。 3D视觉的最新进展导致了关于3D形状和姿势估计的许多令人印象深刻的作品,每项作品都有不同的利弊。据我们所知,这项工作是首次尝试概述基于单眼视觉的3D鸟重建的最新进展,使计算机视觉和生物学研究人员概述了现有方法,并比较其特征。
translated by 谷歌翻译
从2D图像中学习可变形的3D对象通常是一个不适的问题。现有方法依赖于明确的监督来建立多视图对应关系,例如模板形状模型和关键点注释,这将其在“野外”中的对象上限制了。建立对应关系的一种更自然的方法是观看四处移动的对象的视频。在本文中,我们介绍了Dove,一种方法,可以从在线可用的单眼视频中学习纹理的3D模型,而无需关键点,视点或模板形状监督。通过解决对称性诱导的姿势歧义并利用视频中的时间对应关系,该模型会自动学会从每个单独的RGB框架中分解3D形状,表达姿势和纹理,并准备在测试时间进行单像推断。在实验中,我们表明现有方法无法学习明智的3D形状,而无需其他关键点或模板监督,而我们的方法在时间上产生了时间一致的3D模型,可以从任意角度来对其进行动画和呈现。
translated by 谷歌翻译
通过手动创建或使用3D扫描工具来创建高质量的铰接3D动物3D模型。因此,从2D图像重建铰接的3D对象的技术至关重要且非常有用。在这项工作中,我们提出了一个实用问题设置,以估算只有几个(10-30)特定动物物种(例如马)的野外图像(Horse)的3D姿势和形状。与依赖于预定义模板形状的现有作品相反,我们不假设任何形式的2D或3D地面真相注释,也不利用任何多视图或时间信息。此外,每个输入图像合奏都可以包含具有不同姿势,背景,照明和纹理的动物实例。我们的主要见解是,与整体动物相比,3D零件的形状要简单得多,并且它们是强大的W.R.T.动物姿势关节。遵循这些见解,我们提出了Lassie,这是一个新颖的优化框架,以最少的用户干预以自我监督的方式发现3D部分。 Lassie背后的关键推动力是使用自我篇幅的深度功能实现2D-3D零件的一致性。与先前的艺术相比,关于Pascal-Part和自我收集的野生动物数据集的实验表明,3D重建以及2D和3D部分的发现都更好。项目页面:chhankyo.github.io/lassie/
translated by 谷歌翻译
从单眼图像中恢复纹理的3D网格是高度挑战的,尤其是对于缺乏3D地面真理的野外物体。在这项工作中,我们提出了网络文化,这是一个新的框架,可通过利用3D GAN预先训练的3D纹理网格合成的3D GAN的生成性先验。重建是通过在3D GAN中搜索最类似于目标网格的潜在空间来实现重建。由于预先训练的GAN以网状几何形状和纹理封装了丰富的3D语义,因此在GAN歧管内进行搜索,因此自然地使重建的真实性和忠诚度正常。重要的是,这种正则化直接应用于3D空间,从而提供了在2D空间中未观察到的网格零件的关键指导。标准基准测试的实验表明,我们的框架获得了忠实的3D重建,并在观察到的部分和未观察到的部分中都具有一致的几何形状和纹理。此外,它可以很好地推广到不太常见的网格中,例如可变形物体的扩展表达。代码在https://github.com/junzhezhang/mesh-inversion上发布
translated by 谷歌翻译
Recovering the skeletal shape of an animal from a monocular video is a longstanding challenge. Prevailing animal reconstruction methods often adopt a control-point driven animation model and optimize bone transforms individually without considering skeletal topology, yielding unsatisfactory shape and articulation. In contrast, humans can easily infer the articulation structure of an unknown animal by associating it with a seen articulated character in their memory. Inspired by this fact, we present CASA, a novel Category-Agnostic Skeletal Animal reconstruction method consisting of two major components: a video-to-shape retrieval process and a neural inverse graphics framework. During inference, CASA first retrieves an articulated shape from a 3D character assets bank so that the input video scores highly with the rendered image, according to a pretrained language-vision model. CASA then integrates the retrieved character into an inverse graphics framework and jointly infers the shape deformation, skeleton structure, and skinning weights through optimization. Experiments validate the efficacy of CASA regarding shape reconstruction and articulation. We further demonstrate that the resulting skeletal-animated characters can be used for re-animation.
translated by 谷歌翻译
铰接式3D形状重建的事先工作通常依赖于专用传感器(例如,同步的多摄像机系统)或预先构建的3D可变形模型(例如,Smal或SMPL)。这些方法无法在野外扩展到不同的各种物体。我们呈现Banmo,这是一种需要专用传感器的方法,也不需要预定义的模板形状。 Banmo在可怜的渲染框架中从许多单眼休闲视频中建立高保真,铰接式的3D模型(包括形状和动画皮肤的重量)。虽然许多视频的使用提供了更多的相机视图和对象关节的覆盖范围,但它们在建立不同背景,照明条件等方面建立了重大挑战。我们的主要洞察力是合并三所思想学校; (1)使用铰接骨骼和混合皮肤的经典可变形形状模型,(2)可容纳基于梯度的优化,(3)在像素之间产生对应关系的规范嵌入物模型。我们介绍了神经混合皮肤模型,可允许可微分和可逆的铰接变形。与规范嵌入式结合时,这些模型允许我们在跨越可通过循环一致性自我监督的视频中建立密集的对应。在真实和合成的数据集上,Banmo显示比人类和动物的先前工作更高保真3D重建,具有从新颖的观点和姿势的现实图像。项目网页:Banmo-www.github.io。
translated by 谷歌翻译
Automatically estimating 3D skeleton, shape, camera viewpoints, and part articulation from sparse in-the-wild image ensembles is a severely under-constrained and challenging problem. Most prior methods rely on large-scale image datasets, dense temporal correspondence, or human annotations like camera pose, 2D keypoints, and shape templates. We propose Hi-LASSIE, which performs 3D articulated reconstruction from only 20-30 online images in the wild without any user-defined shape or skeleton templates. We follow the recent work of LASSIE that tackles a similar problem setting and make two significant advances. First, instead of relying on a manually annotated 3D skeleton, we automatically estimate a class-specific skeleton from the selected reference image. Second, we improve the shape reconstructions with novel instance-specific optimization strategies that allow reconstructions to faithful fit on each instance while preserving the class-specific priors learned across all images. Experiments on in-the-wild image ensembles show that Hi-LASSIE obtains higher quality state-of-the-art 3D reconstructions despite requiring minimum user input.
translated by 谷歌翻译
Obtaining photorealistic reconstructions of objects from sparse views is inherently ambiguous and can only be achieved by learning suitable reconstruction priors. Earlier works on sparse rigid object reconstruction successfully learned such priors from large datasets such as CO3D. In this paper, we extend this approach to dynamic objects. We use cats and dogs as a representative example and introduce Common Pets in 3D (CoP3D), a collection of crowd-sourced videos showing around 4,200 distinct pets. CoP3D is one of the first large-scale datasets for benchmarking non-rigid 3D reconstruction "in the wild". We also propose Tracker-NeRF, a method for learning 4D reconstruction from our dataset. At test time, given a small number of video frames of an unseen object, Tracker-NeRF predicts the trajectories of its 3D points and generates new views, interpolating viewpoint and time. Results on CoP3D reveal significantly better non-rigid new-view synthesis performance than existing baselines.
translated by 谷歌翻译
人类性能捕获是一种非常重要的计算机视觉问题,在电影制作和虚拟/增强现实中具有许多应用。许多以前的性能捕获方法需要昂贵的多视图设置,或者没有恢复具有帧到帧对应关系的密集时空相干几何。我们提出了一种新颖的深度致密人体性能捕获的深层学习方法。我们的方法是基于多视图监督的弱监督方式培训,完全删除了使用3D地面真理注释的培训数据的需求。网络架构基于两个单独的网络,将任务解散为姿势估计和非刚性表面变形步骤。广泛的定性和定量评估表明,我们的方法在质量和稳健性方面优于现有技术。这项工作是DeepCAP的扩展版本,在那里我们提供更详细的解释,比较和结果以及应用程序。
translated by 谷歌翻译
我们提出了一种神经动力构造(NDR),这是一种无模板的方法,可从单眼RGB-D摄像机中恢复动态场景的高保真几何形状和动作。在NDR中,我们采用神经隐式函数进行表面表示和渲染,使捕获的颜色和深度可以完全利用以共同优化表面和变形。为了表示和限制非刚性变形,我们提出了一种新型的神经可逆变形网络,以便自动满足任意两个帧之间的循环一致性。考虑到动态场景的表面拓扑可能会随着时间的流逝而发生变化,我们采用一种拓扑感知的策略来构建融合框架的拓扑变化对应关系。NDR还以全球优化的方式进一步完善了相机的姿势。公共数据集和我们收集的数据集的实验表明,NDR的表现优于现有的单眼动态重建方法。
translated by 谷歌翻译
在本文中,我们考虑了同时找到和从单个2D图像中恢复多手的具有挑战性的任务。先前的研究要么关注单手重建,要么以多阶段的方式解决此问题。此外,常规的两阶段管道首先检测到手部区域,然后估计每个裁剪贴片的3D手姿势。为了减少预处理和特征提取中的计算冗余,我们提出了一条简洁但有效的单阶段管道。具体而言,我们为多手重建设计了多头自动编码器结构,每个HEAD网络分别共享相同的功能图并分别输出手动中心,姿势和纹理。此外,我们采用了一个弱监督的计划来减轻昂贵的3D现实世界数据注释的负担。为此,我们提出了一系列通过舞台训练方案优化的损失,其中根据公开可用的单手数据集生成具有2D注释的多手数据集。为了进一步提高弱监督模型的准确性,我们在单手和多个手设置中采用了几个功能一致性约束。具体而言,从本地功能估算的每只手的关键点应与全局功能预测的重新投影点一致。在包括Freihand,HO3D,Interhand 2.6M和RHD在内的公共基准测试的广泛实验表明,我们的方法在弱监督和完全监督的举止中优于基于最先进的模型方法。代码和模型可在{\ url {https://github.com/zijinxuxu/smhr}}上获得。
translated by 谷歌翻译
综合照片 - 现实图像和视频是计算机图形的核心,并且是几十年的研究焦点。传统上,使用渲染算法(如光栅化或射线跟踪)生成场景的合成图像,其将几何形状和材料属性的表示为输入。统称,这些输入定义了实际场景和呈现的内容,并且被称为场景表示(其中场景由一个或多个对象组成)。示例场景表示是具有附带纹理的三角形网格(例如,由艺术家创建),点云(例如,来自深度传感器),体积网格(例如,来自CT扫描)或隐式曲面函数(例如,截短的符号距离)字段)。使用可分辨率渲染损耗的观察结果的这种场景表示的重建被称为逆图形或反向渲染。神经渲染密切相关,并将思想与经典计算机图形和机器学习中的思想相结合,以创建用于合成来自真实观察图像的图像的算法。神经渲染是朝向合成照片现实图像和视频内容的目标的跨越。近年来,我们通过数百个出版物显示了这一领域的巨大进展,这些出版物显示了将被动组件注入渲染管道的不同方式。这种最先进的神经渲染进步的报告侧重于将经典渲染原则与学习的3D场景表示结合的方法,通常现在被称为神经场景表示。这些方法的一个关键优势在于它们是通过设计的3D-一致,使诸如新颖的视点合成捕获场景的应用。除了处理静态场景的方法外,我们还涵盖了用于建模非刚性变形对象的神经场景表示...
translated by 谷歌翻译
我们介绍重做,一个类无话的框架来重建RGBD或校准视频的动态对象。与事先工作相比,我们的问题设置是更真实的,更具挑战性的三个原因:1)由于遮挡或相机设置,感兴趣的对象可能永远不会完全可见,但我们的目标是重建完整的形状; 2)我们的目标是处理不同的对象动态,包括刚性运动,非刚性运动和关节; 3)我们的目标是通过一个统一的框架重建不同类别的对象。为了解决这些挑战,我们开发了两种新模块。首先,我们介绍了一个规范的4D隐式功能,它是与聚合的时间视觉线索对齐的像素对齐。其次,我们开发了一个4D变换模块,它捕获对象动态以支持时间传播和聚合。我们研究了重做在综合性RGBD视频数据集风帆-VOS 3D和Deformingthings4d ++上的大量实验中的疗效,以及现实世界视频数据3DPW。我们发现重做优于最先进的动态重建方法。在消融研究中,我们验证每个发达的组件。
translated by 谷歌翻译
This paper presents an approach that reconstructs a hand-held object from a monocular video. In contrast to many recent methods that directly predict object geometry by a trained network, the proposed approach does not require any learned prior about the object and is able to recover more accurate and detailed object geometry. The key idea is that the hand motion naturally provides multiple views of the object and the motion can be reliably estimated by a hand pose tracker. Then, the object geometry can be recovered by solving a multi-view reconstruction problem. We devise an implicit neural representation-based method to solve the reconstruction problem and address the issues of imprecise hand pose estimation, relative hand-object motion, and insufficient geometry optimization for small objects. We also provide a newly collected dataset with 3D ground truth to validate the proposed approach.
translated by 谷歌翻译
A key challenge of learning a visual representation for the 3D high fidelity geometry of dressed humans lies in the limited availability of the ground truth data (e.g., 3D scanned models), which results in the performance degradation of 3D human reconstruction when applying to real-world imagery. We address this challenge by leveraging a new data resource: a number of social media dance videos that span diverse appearance, clothing styles, performances, and identities. Each video depicts dynamic movements of the body and clothes of a single person while lacking the 3D ground truth geometry. To learn a visual representation from these videos, we present a new self-supervised learning method to use the local transformation that warps the predicted local geometry of the person from an image to that of another image at a different time instant. This allows self-supervision by enforcing a temporal coherence over the predictions. In addition, we jointly learn the depths along with the surface normals that are highly responsive to local texture, wrinkle, and shade by maximizing their geometric consistency. Our method is end-to-end trainable, resulting in high fidelity depth estimation that predicts fine geometry faithful to the input real image. We further provide a theoretical bound of self-supervised learning via an uncertainty analysis that characterizes the performance of the self-supervised learning without training. We demonstrate that our method outperforms the state-of-the-art human depth estimation and human shape recovery approaches on both real and rendered images.
translated by 谷歌翻译
全面监督的人类网格恢复方法是渴望数据的,由于3D规定基准数据集的可用性有限和多样性,因此具有较差的概括性。使用合成数据驱动的训练范例,已经从合成配对的2D表示(例如2D关键点和分段掩码)和3D网格中训练了模型的最新进展,其中已使用合成数据驱动的训练范例和3D网格进行了训练。但是,由于合成训练数据和实际测试数据之间的域间隙很难解决2D密集表示,因此很少探索合成密集的对应图(即IUV)。为了减轻IUV上的这个领域差距,我们提出了使用可靠但稀疏表示的互补信息(2D关键点)提出的交叉代理对齐。具体而言,初始网格估计和两个2D表示之间的比对误差将转发为回归器,并在以下网格回归中动态校正。这种适应性的交叉代理对准明确地从偏差和捕获互补信息中学习:从稀疏的表示和浓郁的浓度中的稳健性。我们对多个标准基准数据集进行了广泛的实验,并展示了竞争结果,帮助减少在人类网格估计中生产最新模型所需的注释工作。
translated by 谷歌翻译
We introduce Structured 3D Features, a model based on a novel implicit 3D representation that pools pixel-aligned image features onto dense 3D points sampled from a parametric, statistical human mesh surface. The 3D points have associated semantics and can move freely in 3D space. This allows for optimal coverage of the person of interest, beyond just the body shape, which in turn, additionally helps modeling accessories, hair, and loose clothing. Owing to this, we present a complete 3D transformer-based attention framework which, given a single image of a person in an unconstrained pose, generates an animatable 3D reconstruction with albedo and illumination decomposition, as a result of a single end-to-end model, trained semi-supervised, and with no additional postprocessing. We show that our S3F model surpasses the previous state-of-the-art on various tasks, including monocular 3D reconstruction, as well as albedo and shading estimation. Moreover, we show that the proposed methodology allows novel view synthesis, relighting, and re-posing the reconstruction, and can naturally be extended to handle multiple input images (e.g. different views of a person, or the same view, in different poses, in video). Finally, we demonstrate the editing capabilities of our model for 3D virtual try-on applications.
translated by 谷歌翻译
我们的目标是从单个图像中恢复3D形状和姿势。这是一项艰巨的任务,因为狗表现出各种形状和外表,并且高度阐明。最近的工作提出了直接从图像中直接带有其他肢体规模参数的Smal动物模型。我们的方法称为BARC(使用分类的品种调查回归),以几种重要方式超越了先前的工作。首先,我们修改SMAL形状空间,以更适合表示狗形。但是,即使具有更好的形状模型,从图像中回归狗形状的问题仍然具有挑战性,因为我们缺少具有3D地面真相的配对图像。为了弥补缺乏配对数据的缺乏,我们制定了利用有关狗品种信息的新损失。特别是,我们利用了同一品种的狗具有相似的身体形状的事实。我们制定了一个新型的品种相似性损失,包括两个部分:一个术语鼓励同一品种的狗形状比不同品种的狗更相似。第二个是品种分类损失,有助于产生可识别的品种特异性形状。通过消融研究,我们发现我们的品种损失显着提高了没有它们的基线的形状精度。我们还通过知觉研究将BARC与WLDO进行定性比较,并发现我们的方法产生的狗更现实。这项工作表明,有关遗传相似性的A-Priori信息可以帮助弥补缺乏3D培训数据。这个概念可能适用于其他动物物种或种类。我们的代码可在https://barc.is.tue.mpg.de/上公开提供。
translated by 谷歌翻译
捕获穿着人的动态变形3D形状对于许多应用,包括VR / AR,自主驾驶和人机交互必不可少。现有方法要么需要高度专业化的捕获设置,如昂贵的多视图成像系统,或者它们缺乏对挑战身体姿势的鲁棒性。在这项工作中,我们提出了一种能够从具有具有挑战性身体姿势的单眼视频捕获动态3D人形状的方法,而没有任何额外的输入。我们首先基于学习的回归模型构建了对象的3D模板人体模型。然后,我们基于2D图像观察跟踪该模板模型在具有挑战性的身体剖视下的变形。我们的方法在野外的人类视频数据集3DPW上占据了最先进的方法。此外,我们展示了IPS数据集视频中鲁棒性和普遍性的效果。
translated by 谷歌翻译