从计算机辅助设计(CAD)图形​​中发现图形符号对许多工业应用至关重要。与光栅图像不同,CAD图纸是由诸如段,弧和圆等几何基元组成的矢量图形。通过将每个CAD绘图视为图形,我们提出了一种新颖的曲线图注意网络GAT-CADNet来解决Panoptic符号发现问题:从GAT分支派生的顶点特征映射到语义标签,而他们的注意分数是级联和映射到实例预言。我们的主要贡献是三倍:1)将实例符号发现任务制定为子图检测问题,并通过预测邻接矩阵来解决; 2)相对空间编码(RSE)模块明确地编码顶点之间的相对位置和几何关系,以增强顶点注意; 3)级联边缘编码(CEE)模块从GAT的多个阶段提取顶点前提,并将其视为边缘编码以预测邻接矩阵。建议的GAT-CADNet直观但有效,并管理在一个综合网络中解决Panoptic Symbol Spotting问题。对公共基准的广泛实验和消融研究表明,我们的基于图的方法超越了现有的现有方法。
translated by 谷歌翻译
访问大型和多样化的计算机辅助设计(CAD)图纸对于开发符号发现算法至关重要。在本文中,我们展示了地板平面图,这是一个大型现实世界CAD绘图数据集,包含超过10,000楼的计划,从住宅到商业建筑。 DataSet中的CAD图形都表示为矢量图形,这使我们能够提供30个对象类别的线粒化注释。通过这种注释配备,我们介绍了Panoptic符号发现的任务,这需要点发现可数件事的实例,也需要发现不可数的东西的语义。旨在解决这项任务,我们通过将图形卷积网络(GCNS)与卷积神经网络(CNNS)组合来提出一种新颖的方法,其捕获非欧几里德和欧几里德特征,并且可以训练结束到底。所提出的CNN-GCN方法在语义符号发现的任务上实现了最先进的(SOTA)性能,并帮助我们为Panoptic符号发现任务构建基线网络。我们的贡献是三倍:1)据我们所知,所呈现的CAD图形数据集是其第一个; 2)Panoptic Symbol Spotting Task考虑了事物实例的发现和语义作为一个识别问题; 3)我们基于新型CNN-GCN方法向Panoptic Symbol Spotting Task提供了基线解决方案,该方法在语义符号斑点上实现了SOTA性能。我们认为,这些贡献将促进相关领域的研究。
translated by 谷歌翻译
矢量图形(VG)在我们的日常生活中无处不在,在工程,建筑,设计等方面进行了广泛的应用。大多数现有方法的VG识别过程是首先将VG渲染为栅格图形(RG),然后基于行为识别。 RG格式。但是,此过程丢弃了几何结构并失去了VG的高分辨率。最近,提出了另一种类别的算法以直接从原始VG格式识别。但是它受RG渲染可以滤除的拓扑错误的影响。它不是查看一种格式,而是将VG和RG格式一起使用以避免这些缺点的好解决方案。此外,我们认为VG-TO-RG渲染过程对于有效组合VG和RG信息至关重要。通过指定有关如何将VG原语转移到RG像素的规则,渲染过程描述了VG和RG之间的相互作用和相关性。结果,我们提出了Rendnet,这是在2D和3D方案上识别的统一体系结构,该体系结构考虑VG/RG表示并通过结合VG-TO-RG栅格化过程来利用其相互作用。实验表明,Rendnet可以在各种VG数据集上的2D和3D对象识别任务上实现最新性能。
translated by 谷歌翻译
大规模矢量映射对于运输,城市规划,调查和人口普查很重要。我们提出了GraphMapper,这是从卫星图像中提取端到端向量图的统一框架。我们的关键思想是一种新颖的统一表示,称为“原始图”的不同拓扑的形状,这是一组形状原语及其成对关系矩阵。然后,我们将向量形状的预测,正则化和拓扑重构转换为独特的原始图学习问题。具体而言,GraphMapper是一个基于多头注意的全局形状上下文建模的通用原始图形学习网络。开发了一种嵌入式空间排序方法,用于准确的原始关系建模。我们从经验上证明了GraphMapper对两个具有挑战性的映射任务的有效性,即建立足迹正则化和道路网络拓扑重建。我们的模型在公共基准上的两项任务中都优于最先进的方法。所有代码将公开可用。
translated by 谷歌翻译
Point cloud learning has lately attracted increasing attention due to its wide applications in many areas, such as computer vision, autonomous driving, and robotics. As a dominating technique in AI, deep learning has been successfully used to solve various 2D vision problems. However, deep learning on point clouds is still in its infancy due to the unique challenges faced by the processing of point clouds with deep neural networks. Recently, deep learning on point clouds has become even thriving, with numerous methods being proposed to address different problems in this area. To stimulate future research, this paper presents a comprehensive review of recent progress in deep learning methods for point clouds. It covers three major tasks, including 3D shape classification, 3D object detection and tracking, and 3D point cloud segmentation. It also presents comparative results on several publicly available datasets, together with insightful observations and inspiring future research directions.
translated by 谷歌翻译
We address 2D floorplan reconstruction from 3D scans. Existing approaches typically employ heuristically designed multi-stage pipelines. Instead, we formulate floorplan reconstruction as a single-stage structured prediction task: find a variable-size set of polygons, which in turn are variable-length sequences of ordered vertices. To solve it we develop a novel Transformer architecture that generates polygons of multiple rooms in parallel, in a holistic manner without hand-crafted intermediate stages. The model features two-level queries for polygons and corners, and includes polygon matching to make the network end-to-end trainable. Our method achieves a new state-of-the-art for two challenging datasets, Structured3D and SceneCAD, along with significantly faster inference than previous methods. Moreover, it can readily be extended to predict additional information, i.e., semantic room types and architectural elements like doors and windows. Our code and models will be available at: https://github.com/ywyue/RoomFormer.
translated by 谷歌翻译
本文通过解决面具可逆性问题来研究建筑物多边形映射的问题,该问题导致了基于学习的方法的预测蒙版和多边形之间的显着性能差距。我们通过利用分层监督(底部级顶点,中层线段和高级区域口罩)来解决此问题,并提出了一种新颖用于建筑物多边形映射的面具。结果,我们表明,学识渊博的可逆建筑面具占据了深度卷积神经网络的所有优点,用于建筑物的高绩效多边形映射。在实验中,我们评估了对Aicrowd和Inria的两个公共基准的方法。在Aicrowd数据集上,我们提出的方法对AP,APBOUNDARY和POLIS的指标获得了一致改进。对于Inria数据集,我们提出的方法还获得了IOU和准确性指标的竞争结果。型号和源代码可在https://github.com/sarahwxu上获得。
translated by 谷歌翻译
在本文中,我们考虑一种用于图像的不同数据格式:矢量图形。与广泛用于图像识别的光栅图形相比,由于文档中的基元的分析表示,矢量图形可以向上或向下缩放或向下扩展到任何分辨率而不进行别名或信息丢失的分辨率。此外,向量图形能够提供有关低级别元素组如何一起形成高级形状或结构的额外结构信息。图形矢量的这些优点尚未完全利用现有方法。要探索此数据格式,我们针对基本识别任务:对象本地化和分类。我们提出了一个有效的无CNN的管道,不会将图形呈现为像素(即光栅化),并将向量图形的文本文档作为输入,称为Yolat(您只查看文本)。 Yolat构建多图来模拟矢量图形中的结构和空间信息,并提出了双流图形神经网络来检测图表中的对象。我们的实验表明,通过直接在向量图形上运行,在平均精度和效率方面,Yolat Out-ut-Proped基于的物体检测基线。
translated by 谷歌翻译
视频分析的图像分割在不同的研究领域起着重要作用,例如智能城市,医疗保健,计算机视觉和地球科学以及遥感应用。在这方面,最近致力于发展新的细分策略;最新的杰出成就之一是Panoptic细分。后者是由语义和实例分割的融合引起的。明确地,目前正在研究Panoptic细分,以帮助获得更多对视频监控,人群计数,自主驾驶,医学图像分析的图像场景的更细致的知识,以及一般对场景更深入的了解。为此,我们介绍了本文的首次全面审查现有的Panoptic分段方法,以获得作者的知识。因此,基于所采用的算法,应用场景和主要目标的性质,执行现有的Panoptic技术的明确定义分类。此外,讨论了使用伪标签注释新数据集的Panoptic分割。继续前进,进行消融研究,以了解不同观点的Panoptic方法。此外,讨论了适合于Panoptic分割的评估度量,并提供了现有解决方案性能的比较,以告知最先进的并识别其局限性和优势。最后,目前对主题技术面临的挑战和吸引不久的将来吸引相当兴趣的未来趋势,可以成为即将到来的研究研究的起点。提供代码的文件可用于:https://github.com/elharroussomar/awesome-panoptic-egation
translated by 谷歌翻译
深度学习技术导致了通用对象检测领域的显着突破,近年来产生了很多场景理解的任务。由于其强大的语义表示和应用于场景理解,场景图一直是研究的焦点。场景图生成(SGG)是指自动将图像映射到语义结构场景图中的任务,这需要正确标记检测到的对象及其关系。虽然这是一项具有挑战性的任务,但社区已经提出了许多SGG方法并取得了良好的效果。在本文中,我们对深度学习技术带来了近期成就的全面调查。我们审查了138个代表作品,涵盖了不同的输入方式,并系统地将现有的基于图像的SGG方法从特征提取和融合的角度进行了综述。我们试图通过全面的方式对现有的视觉关系检测方法进行连接和系统化现有的视觉关系检测方法,概述和解释SGG的机制和策略。最后,我们通过深入讨论当前存在的问题和未来的研究方向来完成这项调查。本调查将帮助读者更好地了解当前的研究状况和想法。
translated by 谷歌翻译
从单眼图像中重建多人类的身体网格是一个重要但具有挑战性的计算机视觉问题。除了单个身体网格模型外,我们还需要估计受试者之间的相对3D位置以产生连贯的表示。在这项工作中,通过单个图形神经网络,名为MUG(多人类图网络),我们仅使用多人2D姿势作为输入来构建相干的多人类网格。与现有的方法相比,采用检测风格的管道(即提取图像特征,然后找到人体实例并从中恢复身体网格),并遭受实验室收集的训练数据集和野外测试之间的显着域间隙数据集,我们的方法从2D姿势中受益,该姿势具有跨数据集具有相对一致的几何特性。我们的方法工作如下:首先,为了建模多人类环境,它处理多人2D姿势并构建一个新颖的异质图,其中来自不同人和一个人内部的节点与一个人内部连接在一起,以捕获人际关系间的互动并绘制人际关系身体几何形状(即骨骼和网格结构)。其次,它采用双分支图神经网络结构 - 一种用于预测人间深度关系,另一个用于预测与根系接线相关的网格坐标。最后,通过将两个分支的输出组合来构建整个多人类3D网格。广泛的实验表明,杯子在标准3D人体基准的先前多人类网格估计方法 - Panoptic,Mupots-3D和3DPW上的表现。
translated by 谷歌翻译
Deep learning based methods have significantly boosted the study of automatic building extraction from remote sensing images. However, delineating vectorized and regular building contours like a human does remains very challenging, due to the difficulty of the methodology, the diversity of building structures, and the imperfect imaging conditions. In this paper, we propose the first end-to-end learnable building contour extraction framework, named BuildMapper, which can directly and efficiently delineate building polygons just as a human does. BuildMapper consists of two main components: 1) a contour initialization module that generates initial building contours; and 2) a contour evolution module that performs both contour vertex deformation and reduction, which removes the need for complex empirical post-processing used in existing methods. In both components, we provide new ideas, including a learnable contour initialization method to replace the empirical methods, dynamic predicted and ground truth vertex pairing for the static vertex correspondence problem, and a lightweight encoder for vertex information extraction and aggregation, which benefit a general contour-based method; and a well-designed vertex classification head for building corner vertices detection, which casts light on direct structured building contour extraction. We also built a suitable large-scale building dataset, the WHU-Mix (vector) building dataset, to benefit the study of contour-based building extraction methods. The extensive experiments conducted on the WHU-Mix (vector) dataset, the WHU dataset, and the CrowdAI dataset verified that BuildMapper can achieve a state-of-the-art performance, with a higher mask average precision (AP) and boundary AP than both segmentation-based and contour-based methods.
translated by 谷歌翻译
分割高度重叠的图像对象是具有挑战性的,因为图像上的真实对象轮廓和遮挡边界之间通常没有区别。与先前的实例分割方法不同,我们将图像形成模拟为两个重叠层的组成,并提出了双层卷积网络(BCNET),其中顶层检测到遮挡对象(遮挡器),而底层则渗透到部分闭塞实例(胶囊)。遮挡关系与双层结构的显式建模自然地将遮挡和遮挡实例的边界解散,并在掩模回归过程中考虑了它们之间的相互作用。我们使用两种流行的卷积网络设计(即完全卷积网络(FCN)和图形卷积网络(GCN))研究了双层结构的功效。此外,我们通过将图像中的实例表示为单独的可学习封闭器和封闭者查询,从而使用视觉变压器(VIT)制定双层解耦。使用一个/两个阶段和基于查询的对象探测器具有各种骨架和网络层选择验证双层解耦合的概括能力,如图像实例分段基准(可可,亲戚,可可)和视频所示实例分割基准(YTVIS,OVIS,BDD100K MOTS),特别是对于重闭塞病例。代码和数据可在https://github.com/lkeab/bcnet上找到。
translated by 谷歌翻译
3D点云的卷积经过广泛研究,但在几何深度学习中却远非完美。卷积的传统智慧在3D点之间表现出特征对应关系,这是对差的独特特征学习的内在限制。在本文中,我们提出了自适应图卷积(AGCONV),以供点云分析的广泛应用。 AGCONV根据其动态学习的功能生成自适应核。与使用固定/各向同性核的解决方案相比,AGCONV提高了点云卷积的灵活性,有效,精确地捕获了不同语义部位的点之间的不同关系。与流行的注意力体重方案不同,AGCONV实现了卷积操作内部的适应性,而不是简单地将不同的权重分配给相邻点。广泛的评估清楚地表明,我们的方法优于各种基准数据集中的点云分类和分割的最新方法。同时,AGCONV可以灵活地采用更多的点云分析方法来提高其性能。为了验证其灵活性和有效性,我们探索了基于AGCONV的完成,DeNoing,Upsmpling,注册和圆圈提取的范式,它们与竞争对手相当甚至优越。我们的代码可在https://github.com/hrzhou2/adaptconv-master上找到。
translated by 谷歌翻译
我们介绍了一种名为RobustAbnet的新表检测和结构识别方法,以检测表的边界并从异质文档图像中重建每个表的细胞结构。为了进行表检测,我们建议将Cornernet用作新的区域建议网络来生成更高质量的表建议,以更快的R-CNN,这显着提高了更快的R-CNN的定位准确性以进行表检测。因此,我们的表检测方法仅使用轻巧的RESNET-18骨干网络,在三个公共表检测基准(即CTDAR TRACKA,PUBLAYNET和IIIT-AR-13K)上实现最新性能。此外,我们提出了一种新的基于分裂和合并的表结构识别方法,其中提出了一个新型的基于CNN的新空间CNN分离线预测模块将每个检测到的表分为单元格,并且基于网格CNN的CNN合并模块是应用用于恢复生成细胞。由于空间CNN模块可以有效地在整个表图像上传播上下文信息,因此我们的表结构识别器可以坚固地识别具有较大的空白空间和几何扭曲(甚至弯曲)表的表。得益于这两种技术,我们的表结构识别方法在包括SCITSR,PubTabnet和CTDAR TrackB2-Modern在内的三个公共基准上实现了最先进的性能。此外,我们进一步证明了我们方法在识别具有复杂结构,大空间以及几何扭曲甚至弯曲形状的表上的表格上的优势。
translated by 谷歌翻译
最近,在深图模型的帮助下,表结构识别取得了令人印象深刻的进展。其中大多数利用表格元素的单个视觉线索或通过早期融合来利用其他方式与其他方式结合起来,以推理其图形关系。然而,在多种模式方面既不是早期融合也不是单独的推理,可以适用于具有巨大多样性的表结构。相反,预计不同的方式将以不同的表案例的不同模式相互协作。在社区中,表层结构推理的跨性模特间交互的重要性仍未开发。在本文中,我们将其定义为异构表结构识别(异质-TSR)问题。旨在填补这种差距,我们提出了一种配备有堆叠的协作块的新型神经协作图机(NCGM),其替代地提取了模态上下文并以分层方式模拟了模范间交互。它可以代表表格元件的帧内模特关系更加强大,这显着提高了识别性能。我们还表明,所提出的NCGM可以调制在模态线索的背景下调节不同方式的不同方式的协同模式,这对于多元化表案例至关重要。基准测试的实验结果证明了我们所提出的NCGM实现最先进的性能,并通过较大的余量击败其他当代方法,特别是在挑战性的情况下。
translated by 谷歌翻译
道路网络图为自动驾驶应用程序提供关键信息,例如可用于运动计划算法的可驱动区域。为了找到道路网络图,手动注释通常效率低下且劳动密集型。自动检测道路网络图可以减轻此问题,但现有作品仍然存在一些局限性。例如,基于细分的方法无法确保令人满意的拓扑正确性,并且基于图的方法无法提供足够精确的检测结果。为了解决这些问题的解决方案,我们在本文中提出了一种基于变压器和模仿学习的新方法。鉴于当今世界各地可以轻松访问高分辨率航空图像,我们在方法中使用航空图像。作为输入的空中图像,我们的方法迭代生成道路网络图逐vertex。我们的方法可以处理复杂的交叉点,以及各种事件的道路细分。我们在公开可用的数据集上评估我们的方法。通过比较实验证明了我们方法的优势。我们的作品附有一个演示视频,可在\ url {https://tonyxuqaq.github.io/projects/rngdet/}中获得。
translated by 谷歌翻译
The International Workshop on Reading Music Systems (WoRMS) is a workshop that tries to connect researchers who develop systems for reading music, such as in the field of Optical Music Recognition, with other researchers and practitioners that could benefit from such systems, like librarians or musicologists. The relevant topics of interest for the workshop include, but are not limited to: Music reading systems; Optical music recognition; Datasets and performance evaluation; Image processing on music scores; Writer identification; Authoring, editing, storing and presentation systems for music scores; Multi-modal systems; Novel input-methods for music to produce written music; Web-based Music Information Retrieval services; Applications and projects; Use-cases related to written music. These are the proceedings of the 3rd International Workshop on Reading Music Systems, held in Alicante on the 23rd of July 2021.
translated by 谷歌翻译
变压器在自然语言处理中的成功最近引起了计算机视觉领域的关注。由于能够学习长期依赖性,变压器已被用作广泛使用的卷积运算符的替代品。事实证明,这种替代者在许多任务中都取得了成功,其中几种最先进的方法依靠变压器来更好地学习。在计算机视觉中,3D字段还见证了使用变压器来增加3D卷积神经网络和多层感知器网络的增加。尽管许多调查都集中在视力中的变压器上,但由于与2D视觉相比,由于数据表示和处理的差异,3D视觉需要特别注意。在这项工作中,我们介绍了针对不同3D视觉任务的100多种变压器方法的系统和彻底审查,包括分类,细分,检测,完成,姿势估计等。我们在3D Vision中讨论了变形金刚的设计,该设计使其可以使用各种3D表示形式处理数据。对于每个应用程序,我们强调了基于变压器的方法的关键属性和贡献。为了评估这些方法的竞争力,我们将它们的性能与12个3D基准测试的常见非转化方法进行了比较。我们通过讨论3D视觉中变压器的不同开放方向和挑战来结束调查。除了提出的论文外,我们的目标是频繁更新最新的相关论文及其相应的实现:https://github.com/lahoud/3d-vision-transformers。
translated by 谷歌翻译
We introduce Similarity Group Proposal Network (SGPN), a simple and intuitive deep learning framework for 3D object instance segmentation on point clouds. SGPN uses a single network to predict point grouping proposals and a corresponding semantic class for each proposal, from which we can directly extract instance segmentation results. Important to the effectiveness of SGPN is its novel representation of 3D instance segmentation results in the form of a similarity matrix that indicates the similarity between each pair of points in embedded feature space, thus producing an accurate grouping proposal for each point. Experimental results on various 3D scenes show the effectiveness of our method on 3D instance segmentation, and we also evaluate the capability of SGPN to improve 3D object detection and semantic segmentation results. We also demonstrate its flexibility by seamlessly incorporating 2D CNN features into the framework to boost performance.
translated by 谷歌翻译