生长免费的在线3D形状集合决定了3D检索的研究。然而,已经进行了积极的辩论(i)最佳输入方式是触发检索,以及(ii)这种检索的最终用法场景。在本文中,我们为回答这些问题提供了不同的观点 - 我们研究了3D草图作为输入方式,并提倡进行检索的VR-Scenario。因此,最终的愿景是用户可以通过在VR环境中自由空气供电来自由地检索3D模型。作为新的3D VR-Sketch的首次刺入3D形状检索问题,我们做出了四个贡献。首先,我们对VR实用程序进行编码以收集3D VR-Sketches并进行检索。其次,我们从ModelNet收集了两个形状类别的第一套$ 167 $ 3D VR-SKETCHES。第三,我们提出了一种新的方法,以生成不同抽象级别类似人类的3D草图的合成数据集,以训练深层网络。最后,我们比较了常见的多视图和体积方法:我们表明,与3D形状到3D形状检索相比,基于体积点的方法在3D草图上表现出卓越的性能,并且由于稀疏和抽象的性质而显示出3D形状的检索3D VR-Sketches。我们认为,这些贡献将集体成为未来在此问题的尝试的推动者。 VR接口,代码和数据集可在https://tinyurl.com/3dsketch3dv上找到。
translated by 谷歌翻译
我们介绍了1,497个3D VR草图和具有较大形状多样性的椅子类别的3D形状对的第一个细粒数据集。我们的数据集支持草图社区的最新趋势,以细粒度的数据分析,并将其扩展到主动开发的3D域。我们争辩说最方便的草图场景,其中草图由稀疏的线条组成,并且不需要任何草图技能,事先培训或耗时的准确绘图。然后,我们首次将细粒度3D VR草图的场景研究为3D形状检索,作为一种新颖的VR素描应用程序和一个探索基础,以推动通用见解以告知未来的研究。通过实验在这个新问题上精心选择的设计因素组合,我们得出重要的结论以帮助跟进工作。我们希望我们的数据集能够启用其他新颖的应用程序,尤其是那些需要细粒角的应用程序,例如细粒度的3D形状重建。该数据集可在tinyurl.com/vrsketch3dv21上获得。
translated by 谷歌翻译
基于草图的3D形状检索(SBSR)是一项重要但艰巨的任务,近年来引起了越来越多的关注。现有方法在限制设置中解决了该问题,而无需适当模拟真实的应用程序方案。为了模仿现实的设置,在此曲目中,我们采用了不同级别的绘图技能的业余爱好者以及各种3D形状的大规模草图,不仅包括CAD型号,而且还可以从真实对象扫描的模型。我们定义了两个SBSR任务,并构建了两个基准,包括46,000多个CAD型号,1,700个现实型号和145,000个草图。四个团队参加了这一轨道,并为这两个任务提交了15次跑步,由7个常用指标评估。我们希望,基准,比较结果和开源评估法会在3D对象检索社区中促进未来的研究。
translated by 谷歌翻译
我们研究基于3D-VR-Sketch的细粒度3D形状检索的实际任务。此任务特别令人感兴趣,因为2D草图被证明是2D图像的有效查询。但是,由于域间隙,很难从2D草图中以3D形状的检索获得强劲的性能。最近的工作证明了3D VR素描在此任务上的优势。在我们的工作中,我们专注于3D VR草图中固有的不准确性造成的挑战。我们观察到,带有固定边缘值的三胞胎损失获得的检索结果,通常用于检索任务,包含许多无关的形状,通常只有一个或几个或几个具有与查询相似的结构。为了减轻此问题,我们首次在自适应边距值和形状相似性之间建立联系。特别是,我们建议使用由“拟合差距”驱动的自适应边距值的三重损失,这是在结构保护变形下的两个形状的相似性。我们还进行了一项用户研究,该研究确认这种拟合差距确实是评估形状结构相似性的合适标准。此外,我们介绍了202个VR草图的数据集,用于从内存而不是观察到的202个3D形状。代码和数据可在https://github.com/rowl1ng/structure-aware-aware-vr-sketch-shape-retrieval中找到。
translated by 谷歌翻译
已经提出了多个草图数据集,以了解人们如何绘制3D对象。但是,这样的数据集通常是小规模的,并且覆盖了一小部分对象或类别。此外,这些数据集包含大多来自专家用户的徒手草图,因此很难比较专家和新手用户的图纸,而这种比较对于告知对任何一个用户组的基于草图的界面更为有效的接口至关重要。这些观察结果激发了我们分析具有和没有足够绘图技能的人的不同程度的素描3D对象。我们邀请了70个新手用户和38位专家用户素描136 3D对象,这些对象是从多个视图中呈现的362张图像。这导致了3,620个徒手多视图草图的新数据集,在某些视图下,它们在其相应的3D对象上注册。我们的数据集比现有数据集大的数量级。我们在三个级别(即在空间和时间特征下以及跨越创建者组的内部和范围内)分析了三个级别的收集数据。我们发现,专业人士和新手的图纸在本质和外在的中风级别上显示出显着差异。我们在两个应用程序中演示了数据集的有用性:(i)徒手式的草图合成,(ii)将其作为基于草图的3D重建的潜在基准。我们的数据集和代码可在https://chufengxiao.github.io/differsketching/上获得。
translated by 谷歌翻译
素描是一种常用于创新过程的自然和有效的视觉通信介质。深度学习模型的最新发展急剧改善了理解和生成视觉内容的机器能力。令人兴奋的发展领域探讨了用于模拟人类草图的深度学习方法,开设创造性应用的机会。本章介绍了开发深受学习驱动的创造性支持工具的三个基本步骤,这些步骤消耗和生成草图:1)在草图和移动用户界面之间生成新配对数据集的数据收集工作; 2)基于草图的用户界面检索系统,适用于最先进的计算机视觉技术; 3)一个对话的草图系统,支持基于自然语言的草图/批判创作过程的新颖互动。在本章中,我们在深度学习和人机互动社区中进行了对相关的事先工作,详细记录了数据收集过程和系统的架构,目前提供了定性和定量结果,并绘制了几个未来研究的景观在这个令人兴奋的地区的方向。
translated by 谷歌翻译
人类在需要快速传达对象信息的游戏中显示出高级的抽象功能。他们将消息内容分解为多个部分,并以可解释的协议将它们传达。为了为机器提供这种功能,我们提出了基于原始的草图抽象任务,其目标是在预算影响下使用一组固定的绘图原始图表示草图。为了解决这项任务,我们的原始匹配网络(PMN)以自我监督的方式学习了草图的可解释抽象。具体而言,PMN将草图的每个笔划都映射到给定集中最相似的原始性,预测了仿射转换将所选原始词与目标冲程对齐的仿射转换。我们学习了端到端的这一笔触至关重要的映射,当原始草图精确地用预测的原语重建时,距离转换损失是最小的。我们的PMN抽象在经验上取得了素描识别和基于草图的图像检索的最高性能,同时也是高度可解释的。这为草图分析打开了新的可能性,例如通过提取定义对象类别的最相关的原始图来比较草图。代码可在https://github.com/explainableml/sketch-primitives上找到。
translated by 谷歌翻译
我们介绍了第一个单次个性化素描细分方法。我们的目标是分割属于与单个草图的相同类别的所有草图,其中包含给定部分注释,而(i)保留在示例中嵌入的零件语义,并且(ii)稳健地输入样式和抽象。我们将此方案称为个性化。因此,我们重要地为下游细粒度素描分析任务提供了绝望的个性化能力。要培训强大的分割模块,我们将示例草图对同一类别的每个可用草图进行了变形。我们的方法推广到培训期间未观察到的草图。我们的中央贡献是特定于草图的层级变形网络。给定通过图形卷积网络获得的多级草图笔划编码,我们的方法估计从对上层的参考的刚体变换。通过冲程明智的变形进一步通过较低水平进一步获得从示例到全球翘曲的参考素描的更精细的变形。两个变形水平都是通过在没有监督的情况下学习的关键点之间的平均平方距离引导,确保中风语义被保留。我们评估我们对最先进的分割和感知分组基线的方法,为单次设置和两次射击3D形状分割方法重新设计。我们表明,我们的方法平均超过10%的所有替代品。消融研究进一步证明我们的方法对个性化是强大的:输入部分语义和风格差异的变化。
translated by 谷歌翻译
即使对于计算机图形专家来说,从风格化草图中对非线性对象的3D建模也是一个挑战。对象参数从风格化的草图中的外推是一项非常复杂且繁琐的任务。在本研究中,我们提出了一个经纪人系统,该系统在建模者和3D建模软件之间进行了介导,并可以将树的样式绘图转换为完整的3D模型。输入草图不需要准确或详细,只需要代表建模者希望3D模型的树的基本轮廓即可。我们的方法基于定义明确的深神经网络(DNN)体系结构,我们称为treeketchnet(TSN),基于卷积,并能够生成Weber和Penn参数,这些参数可以通过建模软件来解释以生成3D模型的模型树从简单的草图开始。培训数据集由合成生成的草图组成,这些草图与专用搅拌器建模软件附加组件生成的Weber-Penn参数相关。通过使用合成和手工制作的草图测试TSN来证明所提出方法的准确性。最后,我们通过评估预测参数与几个区别特征的相干性,对我们的结果进行定性分析。
translated by 谷歌翻译
基于草图的3D形状检索是一项具有挑战性的任务,这是由于草图和3D形状之间的较大域差异。由于现有方法是在相同类别上进行培训和评估的,因此他们无法有效地识别培训期间未使用的类别。在本文中,我们建议用于基于零素描的3D检索的新型域分解生成对抗网络(DD-GAN),该域可以检索训练过程中未访问的不看到的类别。具体而言,我们首先通过删除草图和3D形状的学习特征来生成域不变的特征和特定于域特异性特征,在该特征中,域,域,不变的特征用于与相应的单词嵌入在一起。然后,我们开发了一个生成的对抗网络,该网络将所见类别的特定域特征与对齐的域不变特征结合在一起,以合成样品,在其中使用相应的单词嵌入式生成了看不见类别的合成样本。最后,我们使用看不见类别的综合样本与可见类别的真实样本相结合来训练网络进行检索,以便可以识别出看不见的类别。为了减少域移位问题,我们利用未看到的未见样本来增强歧视者的歧视能力。通过鉴别器将生成的样品与未看到的看不见的样品区分开,生成器可以生成更现实的看不见的样品。 SHEREC'13和SHEREC'14数据集的广泛实验表明,我们的方法显着提高了看不见类别的检索性能。
translated by 谷歌翻译
A longstanding question in computer vision concerns the representation of 3D shapes for recognition: should 3D shapes be represented with descriptors operating on their native 3D formats, such as voxel grid or polygon mesh, or can they be effectively represented with view-based descriptors? We address this question in the context of learning to recognize 3D shapes from a collection of their rendered views on 2D images. We first present a standard CNN architecture trained to recognize the shapes' rendered views independently of each other, and show that a 3D shape can be recognized even from a single view at an accuracy far higher than using state-of-the-art 3D shape descriptors. Recognition rates further increase when multiple views of the shapes are provided. In addition, we present a novel CNN architecture that combines information from multiple views of a 3D shape into a single and compact shape descriptor offering even better recognition performance. The same architecture can be applied to accurately recognize human hand-drawn sketches of shapes. We conclude that a collection of 2D views can be highly informative for 3D shape recognition and is amenable to emerging CNN architectures and their derivatives.
translated by 谷歌翻译
Multi-view projection techniques have shown themselves to be highly effective in achieving top-performing results in the recognition of 3D shapes. These methods involve learning how to combine information from multiple view-points. However, the camera view-points from which these views are obtained are often fixed for all shapes. To overcome the static nature of current multi-view techniques, we propose learning these view-points. Specifically, we introduce the Multi-View Transformation Network (MVTN), which uses differentiable rendering to determine optimal view-points for 3D shape recognition. As a result, MVTN can be trained end-to-end with any multi-view network for 3D shape classification. We integrate MVTN into a novel adaptive multi-view pipeline that is capable of rendering both 3D meshes and point clouds. Our approach demonstrates state-of-the-art performance in 3D classification and shape retrieval on several benchmarks (ModelNet40, ScanObjectNN, ShapeNet Core55). Further analysis indicates that our approach exhibits improved robustness to occlusion compared to other methods. We also investigate additional aspects of MVTN, such as 2D pretraining and its use for segmentation. To support further research in this area, we have released MVTorch, a PyTorch library for 3D understanding and generation using multi-view projections.
translated by 谷歌翻译
最近对基于细粒的基于草图的图像检索(FG-SBIR)的重点已转向将模型概括为新类别,而没有任何培训数据。但是,在现实世界中,经过训练的FG-SBIR模型通常应用于新类别和不同的人类素描器,即不同的绘图样式。尽管这使概括问题复杂化,但幸运的是,通常可以使用一些示例,从而使模型适应新的类别/样式。在本文中,我们提供了一种新颖的视角 - 我们没有要求使用概括的模型,而是提倡快速适应的模型,在测试过程中只有很少的样本(以几种方式)。为了解决这个新问题,我们介绍了一种基于几个关键修改的基于新型的模型 - 静态元学习(MAML)框架:(1)作为基于边缘的对比度损失的检索任务,我们简化了内部循环中的MAML训练使其更稳定和易于处理。 (2)我们的对比度损失的边距也通过其余模型进行了元学习。 (3)在外循环中引入了另外三个正规化损失,以使元学习的FG-SBIR模型对类别/样式适应更有效。在公共数据集上进行的广泛实验表明,基于概括和基于零射的方法的增益很大,还有一些强大的射击基线。
translated by 谷歌翻译
Figure 1: We provide evidence that state-of-the-art single-view 3D reconstruction methods (AtlasNet (light green, 0.38 IoU) [12], OGN (green, 0.46 IoU) [46], Matryoshka Networks (dark green, 0.47 IoU) [37]) do not actually perform reconstruction but image classification. We explicitly design pure recognition baselines (Clustering (light blue, 0.46 IoU) and Retrieval (dark blue, 0.57 IoU)) and show that they produce similar or better results both qualitatively and quantitatively. For reference, we show the ground truth (white) and a nearest neighbor from the training set (red, 0.76 IoU). The inset shows the input image.
translated by 谷歌翻译
基于细粒的草图的图像检索(FG-SBIR)旨在找到来自给定查询草图的大型画廊的特定图像。尽管FG-SBIR在许多关键域中进行了广泛适用性(例如,犯罪活动跟踪),但现有的方法仍然遭受低精度,同时对外部噪声敏感,例如草图中不必要的笔画。在更实际的在飞行环境下,检索性能将进一步恶化,其中仅具有少数(噪声)笔划的部分完整的草图可用于检索相应的图像。我们提出了一种新颖的框架,利用了一个独特设计的深度加强学习模型,该模型执行双层探索,以处理部分素描训练和注意区域选择。通过对模型的注意力对原始草图的重要地区实施,对不必要的行程噪声仍然坚固,并通过大边距提高检索准确性。为了充分探索部分草图并找到要参加的重要区域,该模型在调整控制本地探索的定位器网络的标准偏差项时,该模型对全局探索进行引导策略梯度。培训过程是由混合损失引导的,融合了强化损失和监督损失。开发了一种动态排名奖励,以使用部分草图来适应随机图像检索过程。在三个公共数据集上执行的广泛实验表明,我们的建议方法在部分草图基于图像检索上实现了最先进的性能。
translated by 谷歌翻译
It can be easy and even fun to sketch humans in different poses. In contrast, creating those same poses on a 3D graphics "mannequin" is comparatively tedious. Yet 3D body poses are necessary for various downstream applications. We seek to preserve the convenience of 2D sketching while giving users of different skill levels the flexibility to accurately and more quickly pose\slash refine a 3D mannequin. At the core of the interactive system, we propose a machine-learning model for inferring the 3D pose of a CG mannequin from sketches of humans drawn in a cylinder-person style. Training such a model is challenging because of artist variability, a lack of sketch training data with corresponding ground truth 3D poses, and the high dimensionality of human pose-space. Our unique approach to synthesizing vector graphics training data underpins our integrated ML-and-kinematics system. We validate the system by tightly coupling it with a user interface, and by performing a user study, in addition to quantitative comparisons.
translated by 谷歌翻译
作为3D对象的两个基本表示方式,2D多视图图像和3D点云反映了来自视觉外观和几何结构各个方面的形状信息。与基于深度学习的2D多视图图像建模不同,该模型在各种3D形状分析任务中展示了领先的性能,基于3D点云的几何建模仍然遭受学习能力不足。在本文中,我们创新地构建了一个统一的跨模式知识转移框架,该框架将2D图像的歧视性视觉描述器提炼成3D点云的几何描述符。从技术上讲,在经典的教师学习范式下,我们提出了多视觉愿景到几何的蒸馏,由深入的2D图像编码器作为老师和深层的3D点云编码器组成。为了实现异质特征对齐,我们进一步提出了可见性感知的特征投影,通过该投影可以通过该投影将每个点嵌入可以汇总到多视图几何描述符中。对3D形状分类,部分分割和无监督学习的广泛实验验证了我们方法的优势。我们将公开提供代码和数据。
translated by 谷歌翻译
我们介绍了Amazon Berkeley对象(ABO),这是一个新的大型数据集,旨在帮助弥合真实和虚拟3D世界之间的差距。ABO包含产品目录图像,元数据和艺术家创建的3D模型,具有复杂的几何形状和与真实的家用物体相对应的物理基础材料。我们得出了具有挑战性的基准,这些基准利用ABO的独特属性,并测量最先进的对象在三个开放问题上的最新限制,以了解实际3D对象:单视3D 3D重建,材料估计和跨域多视图对象检索。
translated by 谷歌翻译
本文从跨模式度量学习的角度来解决基于零点草图的图像检索(ZS-SBIR)问题。此任务具有两个特性:1)零拍摄设置需要具有良好的课堂紧凑性和识别新颖类别的课堂间差异的度量空间,而2)草图查询和照片库是不同的模态。从两个方面,公制学习视点益处ZS-SBIR。首先,它促进了深度度量学习(DML)中最近的良好实践的改进。通过在DML中结合两种基本学习方法,例如分类培训和成对培训,我们为ZS-SBIR设置了一个强大的基线。没有钟声和口哨,这种基线实现了竞争的检索准确性。其次,它提供了一个正确抑制模态间隙至关重要的洞察力。为此,我们设计了一种名为Domency Ippar Triplet硬挖掘(Mathm)的新颖方法。 Mathm增强了基线,具有三种类型的成对学习,例如跨模型样本对,模态样本对,以及它们的组合。\我们还设计了一种自适应加权方法,可以在动态训练期间平衡这三个组件。实验结果证实,Mathm根据强大的基线带来另一轮显着改进,并建立了新的最先进的性能。例如,在Tu-Berlin数据集上,我们达到了47.88 + 2.94%地图@全部和58.28 + 2.34%prip @ 100。代码将在:https://github.com/huangzongheng/mathm公开使用。
translated by 谷歌翻译
我们使用徒手场景草图FS-Coco的第一个数据集将草图研究推向了场景。考虑到实用的应用,我们收集的草图很好地传达了场景内容,但可以在几分钟之内由具有素描技巧的人勾勒出来。我们的数据集包含10,000个徒手场景向量素描,每点时空信息由100个非专家个人提供,提供对象和场景级抽象。每个草图都用文本描述增强。使用我们的数据集,我们首次研究了徒手场景草图和草图标题的细粒度图像检索问题。我们了解以下内容:(i)使用笔触的时间顺序在草图中编码的场景显着性; (ii)从场景草图和图像标题中进行图像检索的性能比较; (iii)素描和图像标题中信息的互补性,以及结合两种方式的潜在优势。此外,我们扩展了一个流行的矢量草图基于LSTM的编码器,以处理比以前的工作所支持的更复杂性的草图。也就是说,我们提出了一个层次草图解码器,我们将其在特定于草图的“预文本”任务中利用。我们的数据集可以首次研究徒手场景素描理解及其实际应用。
translated by 谷歌翻译