我们介绍了1,497个3D VR草图和具有较大形状多样性的椅子类别的3D形状对的第一个细粒数据集。我们的数据集支持草图社区的最新趋势,以细粒度的数据分析,并将其扩展到主动开发的3D域。我们争辩说最方便的草图场景,其中草图由稀疏的线条组成,并且不需要任何草图技能,事先培训或耗时的准确绘图。然后,我们首次将细粒度3D VR草图的场景研究为3D形状检索,作为一种新颖的VR素描应用程序和一个探索基础,以推动通用见解以告知未来的研究。通过实验在这个新问题上精心选择的设计因素组合,我们得出重要的结论以帮助跟进工作。我们希望我们的数据集能够启用其他新颖的应用程序,尤其是那些需要细粒角的应用程序,例如细粒度的3D形状重建。该数据集可在tinyurl.com/vrsketch3dv21上获得。
translated by 谷歌翻译
生长免费的在线3D形状集合决定了3D检索的研究。然而,已经进行了积极的辩论(i)最佳输入方式是触发检索,以及(ii)这种检索的最终用法场景。在本文中,我们为回答这些问题提供了不同的观点 - 我们研究了3D草图作为输入方式,并提倡进行检索的VR-Scenario。因此,最终的愿景是用户可以通过在VR环境中自由空气供电来自由地检索3D模型。作为新的3D VR-Sketch的首次刺入3D形状检索问题,我们做出了四个贡献。首先,我们对VR实用程序进行编码以收集3D VR-Sketches并进行检索。其次,我们从ModelNet收集了两个形状类别的第一套$ 167 $ 3D VR-SKETCHES。第三,我们提出了一种新的方法,以生成不同抽象级别类似人类的3D草图的合成数据集,以训练深层网络。最后,我们比较了常见的多视图和体积方法:我们表明,与3D形状到3D形状检索相比,基于体积点的方法在3D草图上表现出卓越的性能,并且由于稀疏和抽象的性质而显示出3D形状的检索3D VR-Sketches。我们认为,这些贡献将集体成为未来在此问题的尝试的推动者。 VR接口,代码和数据集可在https://tinyurl.com/3dsketch3dv上找到。
translated by 谷歌翻译
我们研究基于3D-VR-Sketch的细粒度3D形状检索的实际任务。此任务特别令人感兴趣,因为2D草图被证明是2D图像的有效查询。但是,由于域间隙,很难从2D草图中以3D形状的检索获得强劲的性能。最近的工作证明了3D VR素描在此任务上的优势。在我们的工作中,我们专注于3D VR草图中固有的不准确性造成的挑战。我们观察到,带有固定边缘值的三胞胎损失获得的检索结果,通常用于检索任务,包含许多无关的形状,通常只有一个或几个或几个具有与查询相似的结构。为了减轻此问题,我们首次在自适应边距值和形状相似性之间建立联系。特别是,我们建议使用由“拟合差距”驱动的自适应边距值的三重损失,这是在结构保护变形下的两个形状的相似性。我们还进行了一项用户研究,该研究确认这种拟合差距确实是评估形状结构相似性的合适标准。此外,我们介绍了202个VR草图的数据集,用于从内存而不是观察到的202个3D形状。代码和数据可在https://github.com/rowl1ng/structure-aware-aware-vr-sketch-shape-retrieval中找到。
translated by 谷歌翻译
已经提出了多个草图数据集,以了解人们如何绘制3D对象。但是,这样的数据集通常是小规模的,并且覆盖了一小部分对象或类别。此外,这些数据集包含大多来自专家用户的徒手草图,因此很难比较专家和新手用户的图纸,而这种比较对于告知对任何一个用户组的基于草图的界面更为有效的接口至关重要。这些观察结果激发了我们分析具有和没有足够绘图技能的人的不同程度的素描3D对象。我们邀请了70个新手用户和38位专家用户素描136 3D对象,这些对象是从多个视图中呈现的362张图像。这导致了3,620个徒手多视图草图的新数据集,在某些视图下,它们在其相应的3D对象上注册。我们的数据集比现有数据集大的数量级。我们在三个级别(即在空间和时间特征下以及跨越创建者组的内部和范围内)分析了三个级别的收集数据。我们发现,专业人士和新手的图纸在本质和外在的中风级别上显示出显着差异。我们在两个应用程序中演示了数据集的有用性:(i)徒手式的草图合成,(ii)将其作为基于草图的3D重建的潜在基准。我们的数据集和代码可在https://chufengxiao.github.io/differsketching/上获得。
translated by 谷歌翻译
基于草图的3D形状检索(SBSR)是一项重要但艰巨的任务,近年来引起了越来越多的关注。现有方法在限制设置中解决了该问题,而无需适当模拟真实的应用程序方案。为了模仿现实的设置,在此曲目中,我们采用了不同级别的绘图技能的业余爱好者以及各种3D形状的大规模草图,不仅包括CAD型号,而且还可以从真实对象扫描的模型。我们定义了两个SBSR任务,并构建了两个基准,包括46,000多个CAD型号,1,700个现实型号和145,000个草图。四个团队参加了这一轨道,并为这两个任务提交了15次跑步,由7个常用指标评估。我们希望,基准,比较结果和开源评估法会在3D对象检索社区中促进未来的研究。
translated by 谷歌翻译
我们使用徒手场景草图FS-Coco的第一个数据集将草图研究推向了场景。考虑到实用的应用,我们收集的草图很好地传达了场景内容,但可以在几分钟之内由具有素描技巧的人勾勒出来。我们的数据集包含10,000个徒手场景向量素描,每点时空信息由100个非专家个人提供,提供对象和场景级抽象。每个草图都用文本描述增强。使用我们的数据集,我们首次研究了徒手场景草图和草图标题的细粒度图像检索问题。我们了解以下内容:(i)使用笔触的时间顺序在草图中编码的场景显着性; (ii)从场景草图和图像标题中进行图像检索的性能比较; (iii)素描和图像标题中信息的互补性,以及结合两种方式的潜在优势。此外,我们扩展了一个流行的矢量草图基于LSTM的编码器,以处理比以前的工作所支持的更复杂性的草图。也就是说,我们提出了一个层次草图解码器,我们将其在特定于草图的“预文本”任务中利用。我们的数据集可以首次研究徒手场景素描理解及其实际应用。
translated by 谷歌翻译
我们介绍了第一个单次个性化素描细分方法。我们的目标是分割属于与单个草图的相同类别的所有草图,其中包含给定部分注释,而(i)保留在示例中嵌入的零件语义,并且(ii)稳健地输入样式和抽象。我们将此方案称为个性化。因此,我们重要地为下游细粒度素描分析任务提供了绝望的个性化能力。要培训强大的分割模块,我们将示例草图对同一类别的每个可用草图进行了变形。我们的方法推广到培训期间未观察到的草图。我们的中央贡献是特定于草图的层级变形网络。给定通过图形卷积网络获得的多级草图笔划编码,我们的方法估计从对上层的参考的刚体变换。通过冲程明智的变形进一步通过较低水平进一步获得从示例到全球翘曲的参考素描的更精细的变形。两个变形水平都是通过在没有监督的情况下学习的关键点之间的平均平方距离引导,确保中风语义被保留。我们评估我们对最先进的分割和感知分组基线的方法,为单次设置和两次射击3D形状分割方法重新设计。我们表明,我们的方法平均超过10%的所有替代品。消融研究进一步证明我们的方法对个性化是强大的:输入部分语义和风格差异的变化。
translated by 谷歌翻译
基于单个草图图像重建3D形状是由于稀疏,不规则的草图和常规,密集的3D形状之间的较大域间隙而具有挑战性的。现有的作品尝试采用从草图提取的全局功能来直接预测3D坐标,但通常会遭受失去对输入草图不忠心的细节。通过分析3D到2D投影过程,我们注意到表征2D点云分布的密度图(即,投影平面每个位置的点的概率)可以用作代理,以促进该代理重建过程。为此,我们首先通过图像翻译网络将草图翻译成一个更有信息的2D表示,可用于生成密度映射。接下来,通过两个阶段的概率采样过程重建一个3D点云:首先通过对密度映射进行采样,首先恢复2D点(即X和Y坐标);然后通过在每个2D点确定的射线处采样深度值来预测深度​​(即Z坐标)。进行了广泛的实验,定量和定性结果都表明,我们提出的方法显着优于其他基线方法。
translated by 谷歌翻译
人类在需要快速传达对象信息的游戏中显示出高级的抽象功能。他们将消息内容分解为多个部分,并以可解释的协议将它们传达。为了为机器提供这种功能,我们提出了基于原始的草图抽象任务,其目标是在预算影响下使用一组固定的绘图原始图表示草图。为了解决这项任务,我们的原始匹配网络(PMN)以自我监督的方式学习了草图的可解释抽象。具体而言,PMN将草图的每个笔划都映射到给定集中最相似的原始性,预测了仿射转换将所选原始词与目标冲程对齐的仿射转换。我们学习了端到端的这一笔触至关重要的映射,当原始草图精确地用预测的原语重建时,距离转换损失是最小的。我们的PMN抽象在经验上取得了素描识别和基于草图的图像检索的最高性能,同时也是高度可解释的。这为草图分析打开了新的可能性,例如通过提取定义对象类别的最相关的原始图来比较草图。代码可在https://github.com/explainableml/sketch-primitives上找到。
translated by 谷歌翻译
It can be easy and even fun to sketch humans in different poses. In contrast, creating those same poses on a 3D graphics "mannequin" is comparatively tedious. Yet 3D body poses are necessary for various downstream applications. We seek to preserve the convenience of 2D sketching while giving users of different skill levels the flexibility to accurately and more quickly pose\slash refine a 3D mannequin. At the core of the interactive system, we propose a machine-learning model for inferring the 3D pose of a CG mannequin from sketches of humans drawn in a cylinder-person style. Training such a model is challenging because of artist variability, a lack of sketch training data with corresponding ground truth 3D poses, and the high dimensionality of human pose-space. Our unique approach to synthesizing vector graphics training data underpins our integrated ML-and-kinematics system. We validate the system by tightly coupling it with a user interface, and by performing a user study, in addition to quantitative comparisons.
translated by 谷歌翻译
即使对于计算机图形专家来说,从风格化草图中对非线性对象的3D建模也是一个挑战。对象参数从风格化的草图中的外推是一项非常复杂且繁琐的任务。在本研究中,我们提出了一个经纪人系统,该系统在建模者和3D建模软件之间进行了介导,并可以将树的样式绘图转换为完整的3D模型。输入草图不需要准确或详细,只需要代表建模者希望3D模型的树的基本轮廓即可。我们的方法基于定义明确的深神经网络(DNN)体系结构,我们称为treeketchnet(TSN),基于卷积,并能够生成Weber和Penn参数,这些参数可以通过建模软件来解释以生成3D模型的模型树从简单的草图开始。培训数据集由合成生成的草图组成,这些草图与专用搅拌器建模软件附加组件生成的Weber-Penn参数相关。通过使用合成和手工制作的草图测试TSN来证明所提出方法的准确性。最后,我们通过评估预测参数与几个区别特征的相干性,对我们的结果进行定性分析。
translated by 谷歌翻译
我们解决了用草图和文本查询检索图像的问题。我们提出任务形成器(文本和草图变压器),这是一种可使用文本说明和草图作为输入的端到端训练模型。我们认为,两种输入方式都以一种单独的方式无法轻易实现的方式相互补充。任务形成器遵循延迟融合双编码方法,类似于剪辑,该方法允许有效且可扩展的检索,因为检索集可以独立于查询而独立于索引。我们从经验上证明,与传统的基于文本的图像检索相比,除文本外,使用输入草图(甚至是绘制的草图)大大增加了检索召回。为了评估我们的方法,我们在可可数据集的测试集中收集了5,000个手绘草图。收集的草图可获得https://janesjanes.github.io/tsbir/。
translated by 谷歌翻译
我们介绍了Amazon Berkeley对象(ABO),这是一个新的大型数据集,旨在帮助弥合真实和虚拟3D世界之间的差距。ABO包含产品目录图像,元数据和艺术家创建的3D模型,具有复杂的几何形状和与真实的家用物体相对应的物理基础材料。我们得出了具有挑战性的基准,这些基准利用ABO的独特属性,并测量最先进的对象在三个开放问题上的最新限制,以了解实际3D对象:单视3D 3D重建,材料估计和跨域多视图对象检索。
translated by 谷歌翻译
最近对基于细粒的基于草图的图像检索(FG-SBIR)的重点已转向将模型概括为新类别,而没有任何培训数据。但是,在现实世界中,经过训练的FG-SBIR模型通常应用于新类别和不同的人类素描器,即不同的绘图样式。尽管这使概括问题复杂化,但幸运的是,通常可以使用一些示例,从而使模型适应新的类别/样式。在本文中,我们提供了一种新颖的视角 - 我们没有要求使用概括的模型,而是提倡快速适应的模型,在测试过程中只有很少的样本(以几种方式)。为了解决这个新问题,我们介绍了一种基于几个关键修改的基于新型的模型 - 静态元学习(MAML)框架:(1)作为基于边缘的对比度损失的检索任务,我们简化了内部循环中的MAML训练使其更稳定和易于处理。 (2)我们的对比度损失的边距也通过其余模型进行了元学习。 (3)在外循环中引入了另外三个正规化损失,以使元学习的FG-SBIR模型对类别/样式适应更有效。在公共数据集上进行的广泛实验表明,基于概括和基于零射的方法的增益很大,还有一些强大的射击基线。
translated by 谷歌翻译
Multi-view projection techniques have shown themselves to be highly effective in achieving top-performing results in the recognition of 3D shapes. These methods involve learning how to combine information from multiple view-points. However, the camera view-points from which these views are obtained are often fixed for all shapes. To overcome the static nature of current multi-view techniques, we propose learning these view-points. Specifically, we introduce the Multi-View Transformation Network (MVTN), which uses differentiable rendering to determine optimal view-points for 3D shape recognition. As a result, MVTN can be trained end-to-end with any multi-view network for 3D shape classification. We integrate MVTN into a novel adaptive multi-view pipeline that is capable of rendering both 3D meshes and point clouds. Our approach demonstrates state-of-the-art performance in 3D classification and shape retrieval on several benchmarks (ModelNet40, ScanObjectNN, ShapeNet Core55). Further analysis indicates that our approach exhibits improved robustness to occlusion compared to other methods. We also investigate additional aspects of MVTN, such as 2D pretraining and its use for segmentation. To support further research in this area, we have released MVTorch, a PyTorch library for 3D understanding and generation using multi-view projections.
translated by 谷歌翻译
素描是一种常用于创新过程的自然和有效的视觉通信介质。深度学习模型的最新发展急剧改善了理解和生成视觉内容的机器能力。令人兴奋的发展领域探讨了用于模拟人类草图的深度学习方法,开设创造性应用的机会。本章介绍了开发深受学习驱动的创造性支持工具的三个基本步骤,这些步骤消耗和生成草图:1)在草图和移动用户界面之间生成新配对数据集的数据收集工作; 2)基于草图的用户界面检索系统,适用于最先进的计算机视觉技术; 3)一个对话的草图系统,支持基于自然语言的草图/批判创作过程的新颖互动。在本章中,我们在深度学习和人机互动社区中进行了对相关的事先工作,详细记录了数据收集过程和系统的架构,目前提供了定性和定量结果,并绘制了几个未来研究的景观在这个令人兴奋的地区的方向。
translated by 谷歌翻译
作为3D对象的两个基本表示方式,2D多视图图像和3D点云反映了来自视觉外观和几何结构各个方面的形状信息。与基于深度学习的2D多视图图像建模不同,该模型在各种3D形状分析任务中展示了领先的性能,基于3D点云的几何建模仍然遭受学习能力不足。在本文中,我们创新地构建了一个统一的跨模式知识转移框架,该框架将2D图像的歧视性视觉描述器提炼成3D点云的几何描述符。从技术上讲,在经典的教师学习范式下,我们提出了多视觉愿景到几何的蒸馏,由深入的2D图像编码器作为老师和深层的3D点云编码器组成。为了实现异质特征对齐,我们进一步提出了可见性感知的特征投影,通过该投影可以通过该投影将每个点嵌入可以汇总到多视图几何描述符中。对3D形状分类,部分分割和无监督学习的广泛实验验证了我们方法的优势。我们将公开提供代码和数据。
translated by 谷歌翻译
基于细粒的草图的图像检索(FG-SBIR)解决了在给定查询草图中检索特定照片的问题。然而,它的广泛适用性受到大多数人为大多数人绘制完整草图的事实的限制,并且绘图过程经常需要时间。在这项研究中,我们的目标是用最少数量的笔划检索目标照片(不完整草图),命名为vs-the-fry fg-sbir(bhunia等人.2020),它一旦尽快开始检索每个行程绘图开始。我们认为每张照片的草图绘图集中的这些不完整草图之间存在显着相关性。为了了解照片和ITS不完整的草图之间共享的更高效的联合嵌入空间,我们提出了一个多粒度关联学习框架,进一步优化了所有不完整草图的嵌入空间。具体地,基于草图的完整性,我们可以将完整的草图插曲分为几个阶段,每个阶段对应于简单的线性映射层。此外,我们的框架指导了当前草图的矢量空间表示,以近似速写,以实现草图的检索性能,以利用更多的笔触来接近草图的草图。在实验中,我们提出了更现实的挑战,我们的方法在两个公开的细粒草图检索数据集上实现了最先进的方法和替代基线的卓越的早期检索效率。
translated by 谷歌翻译
点云过滤和正常估计是3D场中的两个基本研究问题。现有方法通常会单独执行正常的估计和过滤,并且经常表现出对噪声和/或无法保留尖锐几何特征(例如角和边缘)的敏感性。在本文中,我们提出了一种新颖的深度学习方法,以共同估计正态和过滤点云。我们首先引入了一个基于3D补丁的对比学习框架,并以噪声损坏为增强,以训练能够生成点云斑块的忠实表示的功能编码器,同时保持噪音的强大功能。这些表示由简单的回归网络消耗,并通过新的关节损失进行监督,同时估算用于过滤贴片中心的点正常和位移。实验结果表明,我们的方法同时支持这两个任务,并保留尖锐的功能和细节。通常,它在这两个任务上都胜过最先进的技术。
translated by 谷歌翻译
Contrastive learning applied to self-supervised representation learning has seen a resurgence in recent years, leading to state of the art performance in the unsupervised training of deep image models. Modern batch contrastive approaches subsume or significantly outperform traditional contrastive losses such as triplet, max-margin and the N-pairs loss. In this work, we extend the self-supervised batch contrastive approach to the fully-supervised setting, allowing us to effectively leverage label information. Clusters of points belonging to the same class are pulled together in embedding space, while simultaneously pushing apart clusters of samples from different classes. We analyze two possible versions of the supervised contrastive (SupCon) loss, identifying the best-performing formulation of the loss. On ResNet-200, we achieve top-1 accuracy of 81.4% on the Ima-geNet dataset, which is 0.8% above the best number reported for this architecture. We show consistent outperformance over cross-entropy on other datasets and two ResNet variants. The loss shows benefits for robustness to natural corruptions, and is more stable to hyperparameter settings such as optimizers and data augmentations. Our loss function is simple to implement and reference TensorFlow code is released at https://t.ly/supcon 1 .
translated by 谷歌翻译