Vision transformers have emerged as powerful tools for many computer vision tasks. It has been shown that their features and class tokens can be used for salient object segmentation. However, the properties of segmentation transformers remain largely unstudied. In this work we conduct an in-depth study of the spatial attentions of different backbone layers of semantic segmentation transformers and uncover interesting properties. The spatial attentions of a patch intersecting with an object tend to concentrate within the object, whereas the attentions of larger, more uniform image areas rather follow a diffusive behavior. In other words, vision transformers trained to segment a fixed set of object classes generalize to objects well beyond this set. We exploit this by extracting heatmaps that can be used to segment unknown objects within diverse backgrounds, such as obstacles in traffic scenes. Our method is training-free and its computational overhead negligible. We use off-the-shelf transformers trained for street-scene segmentation to process other scene types.
translated by 谷歌翻译
Recent approaches to drape garments quickly over arbitrary human bodies leverage self-supervision to eliminate the need for large training sets. However, they are designed to train one network per clothing item, which severely limits their generalization abilities. In our work, we rely on self-supervision to train a single network to drape multiple garments. This is achieved by predicting a 3D deformation field conditioned on the latent codes of a generative network, which models garments as unsigned distance fields. Our pipeline can generate and drape previously unseen garments of any topology, whose shape can be edited by manipulating their latent codes. Being fully differentiable, our formulation makes it possible to recover accurate 3D models of garments from partial observations -- images or 3D scans -- via gradient descent. Our code will be made publicly available.
translated by 谷歌翻译
模拟逼真的传感器是自主系统数据生成的挑战,通常涉及精心手工的传感器设计,场景属性和物理建模。为了减轻这一点,我们引入了一条管道,用于对逼真的激光雷达传感器进行数据驱动的模拟。我们提出了一个模型,该模型可以在RGB图像和相应的LIDAR功能(例如Raydrop或每点强度)之间直接从真实数据集中进行映射。我们表明,我们的模型可以学会编码逼真的效果,例如透明表面上的掉落点或反射材料上的高强度回报。当应用于现成的模拟器软件提供的天真播放点云时,我们的模型通过根据场景的外观预测强度和删除点来增强数据,以匹配真实的激光雷达传感器。我们使用我们的技术来学习两个不同的LIDAR传感器的模型,并使用它们相应地改善模拟的LiDAR数据。通过车辆细分的示例任务,我们表明通过我们的技术增强模拟点云可以改善下游任务性能。
translated by 谷歌翻译
现有的数据驱动方法用于披上姿势的人体,尽管有效,但无法处理任意拓扑的服装,并且通常不是端到端的。为了解决这些局限性,我们提出了一条端到端可区分管道,该管道用隐式表面表示服装,并学习以铰接式身体模型的形状和姿势参数为条件的皮肤场。为了限制身体的插入和人工制品,我们提出了一种解释意识的训练数据的预处理策略和新颖的训练损失,在覆盖服装的同时惩罚了自身交流。我们证明,我们的方法可以针对最新方法产生更准确的结果和变形。此外,我们表明我们的方法凭借其端到端的可不同性,可以从图像观察中共同恢复身体和服装参数,这是以前的工作无法做到的。
translated by 谷歌翻译
如果不正确地进行,无监督的自我锻炼练习和体育训练可能会造成严重伤害。我们介绍了一个基于学习的框架,该框架可以识别用户犯的错误,并提出纠正措施,以更轻松,更安全的个人培训。我们的框架不依赖于硬编码的启发式规则。取而代之的是,它从数据中学习,这有助于其适应特定用户需求。为此,我们使用作用于用户姿势序列的图形卷积网络(GCN)体系结构来模拟身体关节轨迹之间的关系。为了评估我们的方法,我们介绍了一个具有3种不同体育锻炼的数据集。我们的方法产生了90.9%的错误识别准确性,并成功纠正了94.2%的错误。
translated by 谷歌翻译
许多生物学和医疗任务需要描绘出图像体积的3D曲线结构,例如血管和神经突。这通常是使用通过最大程度地减少不捕获这些结构拓扑特性的体素损失函数来训练的神经网络完成的。结果,回收结构的连通性通常是错误的,这减少了它们的实用性。在本文中,我们建议通过最大程度地减少其2D预测的拓扑感知损失的总和来提高结果的3D连接性。这足以提高准确性并减少提供所需的注释培训数据所需的注释工作。
translated by 谷歌翻译
人类注释是不完美的,尤其是在初级实践者生产的时候。多专家共识通常被认为是黄金标准,而这种注释协议太昂贵了,无法在许多现实世界中实施。在这项研究中,我们提出了一种完善人类注释的方法,称为神经注释细化(接近)。它基于可学习的隐式函数,该函数将潜在向量解码为表示形状。通过将外观整合为隐式函数的输入,可以固定注释人工制品的外观可见。我们的方法在肾上腺分析的应用中得到了证明。我们首先表明,可以在公共肾上腺细分数据集上修复扭曲的金标准。此外,我们开发了一个新的肾上腺分析(ALAN)数据集,其中拟议的附近,每个病例都由专家分配的肾上腺及其诊断标签(正常与异常)组成。我们表明,经过近距离修复的形状训练的型号比原始的肾上腺更好地诊断肾上腺。 Alan数据集将是开源的,具有1,594个用于肾上腺诊断的形状,它是医学形状分析的新基准。代码和数据集可在https://github.com/m3dv/near上找到。
translated by 谷歌翻译
长期以来,众所周知,在从嘈杂或不完整数据中重建3D形状时,形状先验是有效的。当使用基于深度学习的形状表示时,这通常涉及学习潜在表示,可以以单个全局向量的形式或多个局部媒介。后者可以更灵活,但容易过度拟合。在本文中,我们主张一种与三个网眼相结合的混合方法,该方法在每个顶点处与单独的潜在向量。在训练过程中,潜在向量被限制为具有相同的值,从而避免过度拟合。为了推断,潜在向量是独立更新的,同时施加空间正规化约束。我们表明,这赋予了我们灵活性和概括功能,我们在几个医学图像处理任务上证明了这一点。
translated by 谷歌翻译
当标记的数据丰富时,从单个图像中进行3D姿势估计的监督方法非常有效。但是,由于对地面3D标签的获取是劳动密集型且耗时的,最近的关注已转向半决赛和弱监督的学习。产生有效的监督形式,几乎没有注释,仍然在拥挤的场景中构成重大挑战。在本文中,我们建议通过加权区分三角剖分施加多视文几何约束,并在没有标签时将其用作一种自我设计的形式。因此,我们以一种方式训练2D姿势估计器,以使其预测对应于对三角姿势的3D姿势的重新投影,并在其上训练辅助网络以产生最终的3D姿势。我们通过一种加权机制来补充三角剖分,从而减轻了由自我咬合或其他受试者的遮挡引起的嘈杂预测的影响。我们证明了半监督方法对人类36M和MPI-INF-3DHP数据集的有效性,以及在具有闭塞的新的多视频多人数据集上。
translated by 谷歌翻译
最新的6D对象构成估计方法,包括无监督的方法,需要许多真实的训练图像。不幸的是,对于某些应用,例如在空间或深水下的应用程序,几乎是不可能获取真实图像的,即使是未注释的。在本文中,我们提出了一种可以仅在合成图像上训练的方法,也可以选择使用一些其他真实图像。鉴于从第一个网络获得的粗糙姿势估计,它使用第二个网络来预测使用粗糙姿势和真实图像呈现的图像之间的密集2D对应场,并渗透了所需的姿势校正。与最新方法相比,这种方法对合成图像和真实图像之间的域变化敏感得多。它与需要注释的真实图像进行训练时的方法表现出色,并且在使用二十个真实图像的情况下,它们的表现要优于它们。
translated by 谷歌翻译