智能论文笔记

Visual Vibration Tomography: Estimating Interior Material Properties from Monocular Video

Berthy T. Feng , Alexander C. Ogren , Chiara Daraio , Katherine L. Bouman

分类：计算机视觉

2021-04-06

物体的内部材料特性，而对人眼不可见，确定在其表面上观察到的运动。我们提出一种方法，该方法从其表面振动的单眼视频估计物体的异质材料特性。具体来说，我们展示了如何在具有已知几何形状的3D对象中估算杨氏模量和密度。了解这些值如何变化对象的变化对于模拟其运动和表征任何缺陷非常有用。传统的非破坏性测试方法，通常需要昂贵的仪器，通常只估计均质材料特性或只是识别缺陷的存在。相反，我们的方法利用单目一体视频来从物体的子像素运动识别图像空间模式，（2）直接从观察到的模式推断出空间不同的杨氏模量和密度值。我们在模拟和真实视频上展示了我们的方法。

translated by 谷歌翻译

Model-Free 3D Shape Control of Deformable Objects Using Novel Features Based on Modal Analysis

Bohan Yang , Bo Lu , Wei Chen , Fangxun Zhong , Yun-Hui Liu

分类：机器人

2022-07-04

可变形物体的形状控制是一个具有挑战性且重要的机器人问题。本文提出了一个基于模态分析的新型3D全局变形特征的无模型控制器。与使用几何功能的大多数现有控制器不同，我们的控制器通过将3D全局变形将其分解为低频模式形状，采用基于物理的变形功能。尽管模态分析在计算机视觉和仿真中被广泛采用，但尚未用于机器人变形控制中。我们为机器人操纵下的基于模态的变形控制开发了一个新的无模型框架。模式形状的物理解释使我们能够制定一个分析变形雅各布矩阵，将机器人操纵映射到模态特征的变化上。在Jacobian矩阵中，对象的未知几何形状和物理性质被视为低维模态参数，可用于线性地参数化闭环系统。因此，可以设计具有证实稳定性的自适应控制器，以使对象变形，同时在线估计模态参数。模拟和实验是在不同设置下使用线性，平面和实体对象进行的。结果不仅证实了我们的控制器的出色性能，而且还证明了其优势比基线方法。

translated by 谷歌翻译

A soft thumb-sized vision-based sensor with accurate all-round force perception

Huanbo Sun , Katherine J. Kuchenbecker , Georg Martius

分类：机器人 | 计算机视觉 | 机器学习

2021-11-10

视觉的触觉传感器由于经济实惠的高分辨率摄像机和成功的计算机视觉技术而被出现为机器人触摸的有希望的方法。但是，它们的物理设计和他们提供的信息尚不符合真实应用的要求。我们提供了一种名为Insight的强大，柔软，低成本，视觉拇指大小的3D触觉传感器：它不断在其整个圆锥形感测表面上提供定向力分布图。围绕内部单眼相机构造，传感器仅在刚性框架上仅成型一层弹性体，以保证灵敏度，鲁棒性和软接触。此外，Insight是第一个使用准直器将光度立体声和结构光混合的系统来检测其易于更换柔性外壳的3D变形。通过将图像映射到3D接触力的空间分布（正常和剪切）的深神经网络推断力信息。洞察力在0.4毫米的总空间分辨率，力量幅度精度约为0.03 n，并且对于具有不同接触面积的多个不同触点，在0.03-2 n的范围内的5度大约5度的力方向精度。呈现的硬件和软件设计概念可以转移到各种机器人部件。

translated by 谷歌翻译

VolTeMorph: Realtime, Controllable and Generalisable Animation of Volumetric Representations

Stephan J. Garbin , Marek Kowalski , Virginia Estellers , Stanislaw Szymanowicz , Shideh Rezaeifar , Jingjing Shen , Matthew Johnson , Julien Valentin

分类：计算机视觉

2022-08-01

对于场景重建和新型视图综合的数量表示形式的普及最近，人们的普及使重点放在以高视觉质量和实时为实时的体积内容动画上。尽管基于学习功能的隐性变形方法可以产生令人印象深刻的结果，但它们是艺术家和内容创建者的“黑匣子”，但它们需要大量的培训数据才能有意义地概括，并且在培训数据之外不会产生现实的外推。在这项工作中，我们通过引入实时的音量变形方法来解决这些问题，该方法是实时的，易于使用现成的软件编辑，并且可以令人信服地推断出来。为了证明我们方法的多功能性，我们将其应用于两种情况：基于物理的对象变形和触发性，其中使用Blendshapes控制着头像。我们还进行了彻底的实验，表明我们的方法与两种体积方法相比，结合了基于网格变形的隐式变形和方法。

translated by 谷歌翻译

Characterization of surface motion patterns in highly deformable soft tissue organs from dynamic MRI: An application to assess 4D bladder motion

Karim Makki , Amine Bohi , Augustin . C Ogier , Marc Emmanuel Bellemare

分类：计算机视觉

2020-10-05

动态MRI可以捕获具有高对比度的软组织器官中的时间解剖变化，但是获得的序列通常遭受有限的体积覆盖，这使得器官形状轨迹的高分辨率重建在时间研究中的主要挑战。由于腹部器官形状的变异性跨越时间和受试者，本研究的目的是朝向3D致密速度测量来完全覆盖整个表面并提取有意义的特征，其特征在于观察到的器官变形并实现临床作用或决定。我们在深呼吸运动期间提出了一种用于表征膀胱表面动力学的管道。对于紧凑的形状表示，首先使用重建的时间体积来使用LDDMM框架建立专用的动态4D网状序列。然后，我们从诸如网格伸长和失真的机械参数执行器官动力学的统计表征。由于我们将器官引用作为非平面，因此我们还使用平均曲率变化为度量来量化表面演变。然而，曲率的数值计算强烈地取决于表面参数化。为了应对这一依赖性，我们采用了一种用于表面变形分析的新方法。独立于参数化并最小化测地曲线的长度，通过最小化Dirichlet能量，它使表面曲线平滑地朝向球体。 eulerian PDE方法用于从曲线缩短流中导出形状描述符。使用Laplace Beltrami操作员特征函数来计算各个运动模式之间的接口，用于球形映射。用于提取用于局部控制的模拟形状轨迹的表征相关曲线的应用演示了所提出的形状描述符的稳定性。

translated by 谷歌翻译

Data-Driven Modeling and Prediction of Non-Linearizable Dynamics via Spectral Submanifolds

Mattia Cenedese , Joar Axås , Bastian Bäuerlein , Kerstin Avila , George Haller

分类：机器学习

2022-01-13

我们开发一种方法来构造来自表示基本上非线性（或不可连锁的）动态系统的数据集构成低维预测模型，其中具有由有限许多频率的外部强制进行外部矫正的双曲线线性部分。我们的数据驱动，稀疏，非线性模型获得为低维，吸引动力系统的光谱子纤维（SSM）的降低的动态的延长正常形式。我们说明了数据驱动的SSM降低了高维数值数据集的功率和涉及梁振荡，涡旋脱落和水箱中的晃动的实验测量。我们发现，在未加工的数据上培训的SSM减少也在额外的外部强制下准确预测非线性响应。

translated by 谷歌翻译

Spiderweb nanomechanical resonators via Bayesian optimization: inspired by nature and guided by machine learning

Dongil Shin , Andrea Cupertino , Matthijs H. J. de Jong , Peter G. Steeneken , Miguel A. Bessa , Richard A. Norte

分类：机器学习

2021-08-10

从对量子网络和传感器的基本力量的超敏感探测器，机械谐振器能够在室温环境中实现下一代技术。目前，氮化硅纳米腔作为这些进步中的领先微芯片平台，允许机械谐振器从环境热噪声显着隔离的机械谐振器。然而，迄今为止，人类直觉仍然是设计过程背后的驱动力。这里，由自然启发和通过机器学习引导，开发了一种蜘蛛网纳米机械谐振器，其显示通过数据驱动优化算法发现的新颖“扭转软夹紧”机构从环境热环境中分离的振动模式。然后制造该生物启发的谐振器;通过在室温环境中通过高于10亿以上的机械师进行实验证实了新的范式。与其他最先进的谐振器相比，这种里程碑是通过紧凑的设计实现的，该设计不需要亚微米光刻特征或复声胶凝带，使得在大尺度上制造显着更容易和更便宜。在这里，我们展示了机器学习与人类直觉一起工作的能力，以增加创造性的可能性，并在计算和纳米技术中发现新的策略。

translated by 谷歌翻译

Registration Techniques for Deformable Objects

Alireza Ahmadi

分类：计算机视觉

2021-11-07

通常，非刚性登记的问题是匹配在两个不同点拍摄的动态对象的两个不同扫描。这些扫描可以进行刚性动作和非刚性变形。由于模型的新部分可能进入视图，而其他部件在两个扫描之间堵塞，则重叠区域是两个扫描的子集。在最常规的设置中，没有给出先前的模板形状，并且没有可用的标记或显式特征点对应关系。因此，这种情况是局部匹配问题，其考虑了随后的扫描在具有大量重叠区域的情况下进行的扫描经历的假设[28]。本文在环境中寻址的问题是同时在环境中映射变形对象和本地化摄像机。

translated by 谷歌翻译

Advances in Neural Rendering

Ayush Tewari , Justus Thies , Ben Mildenhall , Pratul Srinivasan , Edgar Tretschk , Yifan Wang , Christoph Lassner , Vincent Sitzmann , Ricardo Martin-Brualla , Stephen Lombardi

分类：计算机视觉

2021-11-10

综合照片 - 现实图像和视频是计算机图形的核心，并且是几十年的研究焦点。传统上，使用渲染算法（如光栅化或射线跟踪）生成场景的合成图像，其将几何形状和材料属性的表示为输入。统称，这些输入定义了实际场景和呈现的内容，并且被称为场景表示（其中场景由一个或多个对象组成）。示例场景表示是具有附带纹理的三角形网格（例如，由艺术家创建），点云（例如，来自深度传感器），体积网格（例如，来自CT扫描）或隐式曲面函数（例如，截短的符号距离）字段）。使用可分辨率渲染损耗的观察结果的这种场景表示的重建被称为逆图形或反向渲染。神经渲染密切相关，并将思想与经典计算机图形和机器学习中的思想相结合，以创建用于合成来自真实观察图像的图像的算法。神经渲染是朝向合成照片现实图像和视频内容的目标的跨越。近年来，我们通过数百个出版物显示了这一领域的巨大进展，这些出版物显示了将被动组件注入渲染管道的不同方式。这种最先进的神经渲染进步的报告侧重于将经典渲染原则与学习的3D场景表示结合的方法，通常现在被称为神经场景表示。这些方法的一个关键优势在于它们是通过设计的3D-一致，使诸如新颖的视点合成捕获场景的应用。除了处理静态场景的方法外，我们还涵盖了用于建模非刚性变形对象的神经场景表示...

translated by 谷歌翻译

Virtual Elastic Objects

Hsiao-yu Chen , Edgar Tretschk , Tuur Stuyck , Petr Kadlecek , Ladislav Kavan , Etienne Vouga , Christoph Lassner

分类：计算机视觉

2022-01-12

我们呈现虚拟弹性物体（VEOS）：虚拟物体，不仅看起来像他们的真实同行，而且也表现得像他们一样，即使在进行新颖的互动时也是如此。实现这一挑战：不仅必须捕获对象，包括对它们上的物理力量，然后忠实地重建和呈现，而且还发现和模拟了合理的材料参数。要创建VEOS，我们构建了一个多视图捕获系统，捕获压缩空气流的影响下的物体。建立近期型号动态神经辐射区域的进步，我们重建了物体和相应的变形字段。我们建议使用可差异的基于粒子的模拟器来使用这些变形字段来查找代表性的材料参数，这使我们能够运行新的模拟。为了渲染模拟对象，我们设计了一种用神经辐射场将模拟结果集成的方法。结果方法适用于各种场景：它可以处理由非均匀材料组成的物体，具有非常不同的形状，它可以模拟与其他虚拟对象的交互。我们在各种力字段下使用12个对象的新收集的数据集介绍了我们的结果，这将与社区共享。

translated by 谷歌翻译

Shakes on a Plane: Unsupervised Depth Estimation from Unstabilized Photography

Ilya Chugunov , Yuxuan Zhang , Felix Heide

分类：计算机视觉

2022-12-22

Modern mobile burst photography pipelines capture and merge a short sequence of frames to recover an enhanced image, but often disregard the 3D nature of the scene they capture, treating pixel motion between images as a 2D aggregation problem. We show that in a "long-burst", forty-two 12-megapixel RAW frames captured in a two-second sequence, there is enough parallax information from natural hand tremor alone to recover high-quality scene depth. To this end, we devise a test-time optimization approach that fits a neural RGB-D representation to long-burst data and simultaneously estimates scene depth and camera motion. Our plane plus depth model is trained end-to-end, and performs coarse-to-fine refinement by controlling which multi-resolution volume features the network has access to at what time during training. We validate the method experimentally, and demonstrate geometrically accurate depth reconstructions with no additional hardware or separate data pre-processing and pose-estimation steps.

translated by 谷歌翻译

Neural Fields in Visual Computing and Beyond

Yiheng Xie , Towaki Takikawa , Shunsuke Saito , Or Litany , Shiqin Yan , Numair Khan , Federico Tombari , James Tompkin , Vincent Sitzmann , Srinath Sridhar

分类：计算机视觉 | 机器学习

2021-11-22

机器学习的最近进步已经创造了利用一类基于坐标的神经网络来解决视觉计算问题的兴趣，该基于坐标的神经网络在空间和时间跨空间和时间的场景或对象的物理属性。我们称之为神经领域的这些方法已经看到在3D形状和图像的合成中成功应用，人体的动画，3D重建和姿势估计。然而，由于在短时间内的快速进展，许多论文存在，但尚未出现全面的审查和制定问题。在本报告中，我们通过提供上下文，数学接地和对神经领域的文学进行广泛综述来解决这一限制。本报告涉及两种维度的研究。在第一部分中，我们通过识别神经字段方法的公共组件，包括不同的表示，架构，前向映射和泛化方法来专注于神经字段的技术。在第二部分中，我们专注于神经领域的应用在视觉计算中的不同问题，超越（例如，机器人，音频）。我们的评论显示了历史上和当前化身的视觉计算中已覆盖的主题的广度，展示了神经字段方法所带来的提高的质量，灵活性和能力。最后，我们展示了一个伴随着贡献本综述的生活版本，可以由社区不断更新。

translated by 谷歌翻译

CASA: Category-agnostic Skeletal Animal Reconstruction

Yuefan Wu , Zeyuan Chen , Shaowei Liu , Zhongzheng Ren , Shenlong Wang

分类：计算机视觉

2022-11-04

Recovering the skeletal shape of an animal from a monocular video is a longstanding challenge. Prevailing animal reconstruction methods often adopt a control-point driven animation model and optimize bone transforms individually without considering skeletal topology, yielding unsatisfactory shape and articulation. In contrast, humans can easily infer the articulation structure of an unknown animal by associating it with a seen articulated character in their memory. Inspired by this fact, we present CASA, a novel Category-Agnostic Skeletal Animal reconstruction method consisting of two major components: a video-to-shape retrieval process and a neural inverse graphics framework. During inference, CASA first retrieves an articulated shape from a 3D character assets bank so that the input video scores highly with the rendered image, according to a pretrained language-vision model. CASA then integrates the retrieved character into an inverse graphics framework and jointly infers the shape deformation, skeleton structure, and skinning weights through optimization. Experiments validate the efficacy of CASA regarding shape reconstruction and articulation. We further demonstrate that the resulting skeletal-animated characters can be used for re-animation.

translated by 谷歌翻译

Diffractive lensless imaging with optimized Voronoi-Fresnel phase

Qiang Fu , Dong-Ming Yan , Wolfgang Heidrich

分类：计算机视觉

2021-09-28

Lensless cameras are a class of imaging devices that shrink the physical dimensions to the very close vicinity of the image sensor by replacing conventional compound lenses with integrated flat optics and computational algorithms. Here we report a diffractive lensless camera with spatially-coded Voronoi-Fresnel phase to achieve superior image quality. We propose a design principle of maximizing the acquired information in optics to facilitate the computational reconstruction. By introducing an easy-to-optimize Fourier domain metric, Modulation Transfer Function volume (MTFv), which is related to the Strehl ratio, we devise an optimization framework to guide the optimization of the diffractive optical element. The resulting Voronoi-Fresnel phase features an irregular array of quasi-Centroidal Voronoi cells containing a base first-order Fresnel phase function. We demonstrate and verify the imaging performance for photography applications with a prototype Voronoi-Fresnel lensless camera on a 1.6-megapixel image sensor in various illumination conditions. Results show that the proposed design outperforms existing lensless cameras, and could benefit the development of compact imaging systems that work in extreme physical conditions.

translated by 谷歌翻译

3D Labeling Tool

John Rachwan , Charbel Zalaket

分类：计算机视觉 | 人工智能

2022-07-23

培训和测试监督对象检测模型需要大量带有地面真相标签的图像。标签定义图像中的对象类及其位置，形状以及可能的其他信息，例如姿势。即使存在人力，标签过程也非常耗时。我们引入了一个新的标签工具，用于2D图像以及3D三角网格：3D标记工具（3DLT）。这是一个独立的，功能丰富和跨平台软件，不需要安装，并且可以在Windows，MacOS和基于Linux的发行版上运行。我们不再像当前工具那样在每个图像上分别标记相同的对象，而是使用深度信息从上述图像重建三角形网格，并仅在上述网格上标记一次对象。我们使用注册来简化3D标记，离群值检测来改进2D边界框的计算和表面重建，以将标记可能性扩展到大点云。我们的工具经过最先进的方法测试，并且在保持准确性和易用性的同时，它极大地超过了它们。

translated by 谷歌翻译

Deformable Surface Reconstruction via Riemannian Metric Preservation

Oriol Barbany , Adrià Colomé , Carme Torras

分类：计算机视觉

2022-12-22

Estimating the pose of an object from a monocular image is an inverse problem fundamental in computer vision. The ill-posed nature of this problem requires incorporating deformation priors to solve it. In practice, many materials do not perceptibly shrink or extend when manipulated, constituting a powerful and well-known prior. Mathematically, this translates to the preservation of the Riemannian metric. Neural networks offer the perfect playground to solve the surface reconstruction problem as they can approximate surfaces with arbitrary precision and allow the computation of differential geometry quantities. This paper presents an approach to inferring continuous deformable surfaces from a sequence of images, which is benchmarked against several techniques and obtains state-of-the-art performance without the need for offline training.

translated by 谷歌翻译

Parametric Level-sets Enhanced To Improve Reconstruction (PaLEnTIR)

Ege Ozsar , Misha Kilmer , Eric Miller , Eric de Sturler , Arvind Saibaba

分类：计算机视觉

2022-04-21

在本文中，我们考虑使用Palentir在两个和三个维度中对分段常数对象的恢复和重建，这是相对于当前最新ART的显着增强的参数级别集（PALS）模型。本文的主要贡献是一种新的PALS公式，它仅需要一个单个级别的函数来恢复具有具有多个未知对比度的分段常数对象的场景。我们的模型比当前的多对抗性，多对象问题提供了明显的优势，所有这些问题都需要多个级别集并明确估计对比度大小。给定对比度上的上限和下限，我们的方法能够以任何对比度分布恢复对象，并消除需要知道给定场景中的对比度或其值的需求。我们提供了一个迭代过程，以找到这些空间变化的对比度限制。相对于使用径向基函数（RBF）的大多数PAL方法，我们的模型利用了非异型基函数，从而扩展了给定复杂性的PAL模型可以近似的形状类别。最后，Palentir改善了作为参数识别过程一部分所需的Jacobian矩阵的条件，因此通过控制PALS扩展系数的幅度来加速优化方法，固定基本函数的中心，以及参数映射到图像映射的唯一性，由新参数化提供。我们使用X射线计算机断层扫描，弥漫性光学断层扫描（DOT），Denoising，DeonConvolution问题的2D和3D变体证明了新方法的性能。应用于实验性稀疏CT数据和具有不同类型噪声的模拟数据，以进一步验证所提出的方法。

translated by 谷歌翻译

Garment Avatars: Realistic Cloth Driving using Pattern Registration

Oshri Halimi , Fabian Prada , Tuur Stuyck , Donglai Xiang , Timur Bagautdinov , He Wen , Ron Kimmel , Takaaki Shiratori , Chenglei Wu , Yaser Sheikh

分类：计算机视觉

2022-06-07

虚拟网格是在线通信的未来。服装是一个人身份和自我表达的重要组成部分。然而，目前，在培训逼真的布置动画的远程介绍模型的必需分子和准确性中，目前无法使用注册衣服的地面真相数据。在这里，我们提出了一条端到端的管道，用于建造可驱动的服装代表。我们方法的核心是一种多视图图案的布跟踪算法，能够以高精度捕获变形。我们进一步依靠跟踪方法生产的高质量数据来构建服装头像：一件衣服的表达和完全驱动的几何模型。可以使用一组稀疏的视图来对所得模型进行动画，并产生高度逼真的重建，这些重建忠于驾驶信号。我们证明了管道对现实的虚拟电视应用程序的功效，在该应用程序中，从两种视图中重建了衣服，并且用户可以根据自己的意愿进行选择和交换服装设计。此外，当仅通过身体姿势驱动时，我们表现出一个具有挑战性的场景，我们可驾驶的服装Avatar能够生产出比最先进的面包质量明显更高的逼真的布几何形状。

translated by 谷歌翻译

Unbiased 4D: Monocular 4D Reconstruction with a Neural Deformation Model

Erik C. M. Johnson , Marc Habermann , Soshi Shimada , Vladislav Golyanik , Christian Theobalt

分类：计算机视觉

2022-06-16

捕获一般的变形场景对于许多计算机图形和视觉应用至关重要，当只有单眼RGB视频可用时，这尤其具有挑战性。竞争方法假设密集的点轨道，3D模板，大规模训练数据集或仅捕获小规模的变形。与这些相反，我们的方法UB4D在挑战性的情况下超过了先前的艺术状态，而没有做出这些假设。我们的技术包括两个新的，在非刚性3D重建的背景下，组件，即1）1）针对非刚性场景的基于坐标的和隐性的神经表示，这使动态场景无偏重建，2）新颖的新颖。动态场景流量损失，可以重建较大的变形。我们的新数据集（将公开可用）的结果表明，就表面重建精度和对大变形的鲁棒性而言，对最新技术的明显改善。访问项目页面https://4dqv.mpi-inf.mpg.de/ub4d/。

translated by 谷歌翻译

A database and evaluation methodology for optical flow

分类：

The quantitative evaluation of optical flow algorithms by Barron et al. (1994) led to significant advances in performance. The challenges for optical flow algorithms today go beyond the datasets and evaluation methods proposed in that paper. Instead, they center on problems associated with complex natural scenes, including nonrigid motion, real sensor noise, and motion discontinuities. We propose a new set of benchmarks and evaluation methods for the next generation of optical flow algorithms. To that end, we contribute four types of data to test different aspects of optical flow algorithms: (1) sequences with nonrigid motion where the ground-truth flow is determined by A preliminary version of this paper appeared in the IEEE International Conference on Computer Vision (Baker et al. 2007).

translated by 谷歌翻译