Geometric rectification of images of distorted documents finds wide applications in document digitization and Optical Character Recognition (OCR). Although smoothly curved deformations have been widely investigated by many works, the most challenging distortions, e.g. complex creases and large foldings, have not been studied in particular. The performance of existing approaches, when applied to largely creased or folded documents, is far from satisfying, leaving substantial room for improvement. To tackle this task, knowledge about document rectification should be incorporated into the computation, among which the developability of 3D document models and particular textural features in the images, such as straight lines, are the most essential ones. For this purpose, we propose a general framework of document image rectification in which a computational isometric mapping model is utilized for expressing a 3D document model and its flattening in the plane. Based on this framework, both model developability and textural features are considered in the computation. The experiments and comparisons to the state-of-the-art approaches demonstrated the effectiveness and outstanding performance of the proposed method. Our method is also flexible in that the rectification results can be enhanced by any other methods that extract high-quality feature lines in the images.
translated by 谷歌翻译
培训和测试监督对象检测模型需要大量带有地面真相标签的图像。标签定义图像中的对象类及其位置,形状以及可能的其他信息,例如姿势。即使存在人力,标签过程也非常耗时。我们引入了一个新的标签工具,用于2D图像以及3D三角网格:3D标记工具(3DLT)。这是一个独立的,功能丰富和跨平台软件,不需要安装,并且可以在Windows,MacOS和基于Linux的发行版上运行。我们不再像当前工具那样在每个图像上分别标记相同的对象,而是使用深度信息从上述图像重建三角形网格,并仅在上述网格上标记一次对象。我们使用注册来简化3D标记,离群值检测来改进2D边界框的计算和表面重建,以将标记可能性扩展到大点云。我们的工具经过最先进的方法测试,并且在保持准确性和易用性的同时,它极大地超过了它们。
translated by 谷歌翻译
网状denoising是数字几何处理中的基本问题。它试图消除表面噪声,同时尽可能准确地保留表面固有信号。尽管传统的智慧是基于专门的先验来平稳表面的,但基于学习的方法在概括和自动化方面取得了巨大的成功。在这项工作中,我们对网格denoising的进步进行了全面的综述,其中包含传统的几何方法和最近的基于学习的方法。首先,要熟悉读者的denoising任务,我们总结了网格denoising中的四个常见问题。然后,我们提供了两种现有的脱氧方法的分类。此外,分别详细介绍和分析了三个重要类别,包括优化,过滤器和基于数据驱动的技术。说明了定性和定量比较,以证明最先进的去核方法的有效性。最后,指出未来工作的潜在方向来解决这些方法的共同问题。这项工作还建立了网格denoising基准测试,未来的研究人员将通过最先进的方法轻松方便地评估其方法。
translated by 谷歌翻译
Intelligent mesh generation (IMG) refers to a technique to generate mesh by machine learning, which is a relatively new and promising research field. Within its short life span, IMG has greatly expanded the generalizability and practicality of mesh generation techniques and brought many breakthroughs and potential possibilities for mesh generation. However, there is a lack of surveys focusing on IMG methods covering recent works. In this paper, we are committed to a systematic and comprehensive survey describing the contemporary IMG landscape. Focusing on 110 preliminary IMG methods, we conducted an in-depth analysis and evaluation from multiple perspectives, including the core technique and application scope of the algorithm, agent learning goals, data types, targeting challenges, advantages and limitations. With the aim of literature collection and classification based on content extraction, we propose three different taxonomies from three views of key technique, output mesh unit element, and applicable input data types. Finally, we highlight some promising future research directions and challenges in IMG. To maximize the convenience of readers, a project page of IMG is provided at \url{https://github.com/xzb030/IMG_Survey}.
translated by 谷歌翻译
与平板扫描仪相比,便携式智能手机在物理文档数字化方面更加方便。但是,由于不受控制的物理变形,相机位置和照明变化,这种数字化的文档通常会扭曲。为此,我们提出了DocScanner,这是文档图像纠正的新颖框架。与现有方法不同,DocScanner通过引入渐进的学习机制来解决此问题。具体而言,DOCSCANNER维护了整流图像的单个估计值,该图像通过经常性架构逐步校正。迭代的精炼使DocScanner融合到了强大而卓越的性能,而轻量级的重复体系结构可确保运行效率。此外,在上述整流过程之前,观察先前工作中存在的损坏的整流边界,DocScanner利用文档本地化模块从混乱的背景环境中明确分割前景文档。为了进一步提高纠正质量,基于扭曲图像和整流图像之间的几何先验,在训练过程中引入了几何正则化,以进一步提高性能。在DOC3D数据集和Docunet基准数据集上进行了广泛的实验,定量和定性评估结果验证了DOCSCANNER的有效性,DOCSCANNER的有效性超过了先前的OCR准确性,图像相似性,以及我们建议的失真指标可相当大。此外,我们的DOCSCANNER显示出运行时延迟和型号大小的最高效率。
translated by 谷歌翻译
我们为来自多视图立体声(MVS)城市场景的3D建筑物的实例分割了一部小说框架。与关注城市场景的语义分割的现有作品不同,即使它们安装在大型和不精确的3D表面模型中,这项工作的重点是检测和分割3D构建实例。通过添加高度图,首先将多视图RGB图像增强到RGBH图像,并且被分段以使用微调的2D实例分割神经网络获得所有屋顶实例。然后将来自不同的多视图图像的屋顶实例掩码被聚集到全局掩码中。我们的面具聚类占空间闭塞和重叠,可以消除多视图图像之间的分割歧义。基于这些全局掩码,3D屋顶实例由掩码背部投影分割,并通过Markov随机字段(MRF)优化扩展到整个建筑实例。定量评估和消融研究表明了该方法的所有主要步骤的有效性。提供了一种用于评估3D建筑模型的实例分割的数据集。据我们所知,它是一个在实例分割级别的3D城市建筑的第一个数据集。
translated by 谷歌翻译
线云虽然在先前的工作中受到评价不足,但与从多视图图像中提取的点云相比,可能对建筑物的结构信息进行了更紧凑的结构信息。在这项工作中,我们建议第一个处理用于构建线框抽象的线云的网络。该网络将线云作为输入,即从多视图图像提取的3D线段的非结构和无序集,并输出基础建筑物的3D线框,该建筑物由稀疏的3D连接组组成,由线段连接, 。我们观察到一个线斑块,即一组相邻的线段,编码足够的轮廓信息,以预测潜在连接的存在甚至3D位置,以及两个查询连接之间的连通性的可能性。因此,我们引入了两层线斑变压器,以从采样线贴片中提取连接和连接性,以形成3D构建线框模型。我们还介绍了带有地面3D线框的多视图图像的合成数据集。我们广泛证明,在多个基线建筑重建方法上,我们的重建3D线框模型可显着改善。
translated by 谷歌翻译
虚拟网格是在线通信的未来。服装是一个人身份和自我表达的重要组成部分。然而,目前,在培训逼真的布置动画的远程介绍模型的必需分子和准确性中,目前无法使用注册衣服的地面真相数据。在这里,我们提出了一条端到端的管道,用于建造可驱动的服装代表。我们方法的核心是一种多视图图案的布跟踪算法,能够以高精度捕获变形。我们进一步依靠跟踪方法生产的高质量数据来构建服装头像:一件衣服的表达和完全驱动的几何模型。可以使用一组稀疏的视图来对所得模型进行动画,并产生高度逼真的重建,这些重建忠于驾驶信号。我们证明了管道对现实的虚拟电视应用程序的功效,在该应用程序中,从两种视图中重建了衣服,并且用户可以根据自己的意愿进行选择和交换服装设计。此外,当仅通过身体姿势驱动时,我们表现出一个具有挑战性的场景,我们可驾驶的服装Avatar能够生产出比最先进的面包质量明显更高的逼真的布几何形状。
translated by 谷歌翻译
通常,非刚性登记的问题是匹配在两个不同点拍摄的动态对象的两个不同扫描。这些扫描可以进行刚性动作和非刚性变形。由于模型的新部分可能进入视图,而其他部件在两个扫描之间堵塞,则重叠区域是两个扫描的子集。在最常规的设置中,没有给出先前的模板形状,并且没有可用的标记或显式特征点对应关系。因此,这种情况是局部匹配问题,其考虑了随后的扫描在具有大量重叠区域的情况下进行的扫描经历的假设[28]。本文在环境中寻址的问题是同时在环境中映射变形对象和本地化摄像机。
translated by 谷歌翻译
本文介绍了一组数字方法,用于在不变(弹性)二阶Sobolev指标的设置中对3D表面进行Riemannian形状分析。更具体地说,我们解决了代表为3D网格的参数化或未参数浸入式表面之间的测量学和地球距离的计算。在此基础上,我们为表面集的统计形状分析开发了工具,包括用于估算Karcher均值并在形状群体上执行切线PCA的方法,以及计算沿表面路径的平行传输。我们提出的方法从根本上依赖于通过使用Varifold Fidelity术语来为地球匹配问题提供轻松的变异配方,这使我们能够在计算未参数化表面之间的地理位置时强制执行重新训练的独立性,同时还可以使我们能够与多用途算法相比,使我们能够将表面与vare表面进行比较。采样或网状结构。重要的是,我们演示了如何扩展放松的变分框架以解决部分观察到的数据。在合成和真实的各种示例中,说明了我们的数值管道的不同好处。
translated by 谷歌翻译
三角形网格是3D对象的最受欢迎的表示,但是许多网格表面都包含拓扑奇异性,代表了显示或进一步正确处理它们的挑战。这样的奇异性是通过扫描过程或通过变形转换(例如偏离设置)创建的网格表面中存在的自我交流。网格折叠包括一个特殊的筛网表面自相交的情况,其中3D模型的面相交并逆转,相对于网格表面的展开部分。提出了一种识别和修复网格表面折叠的新方法,该方法利用了折叠的结构特征,以有效地检测折叠区域。检测后,卸下折叠,并根据3D模型的几何形状填补了折叠的任何空白。所提出的方法直接适用于简单的网格表面表示,而它不执行3D网格的任何嵌入(即Voxelization,投影)。该方法的目标是以最有效的方式以保留原始结构的方式促进网格退化程序。
translated by 谷歌翻译
从嘈杂的点云中恢复高质量的表面,称为点云降级,是几何处理中的一个基本而又具有挑战性的问题。大多数现有方法要么直接将嘈杂的输入或过滤器原始正态变为更新点位置。由点云降解和正常过滤之间的基本相互作用的动机,我们从多任务的角度重新访问点云,并提出一个名为PCDNF的端到端网络,以通过关节正常滤波来denoise点云。特别是,我们引入了一项辅助正常过滤任务,以帮助整体网络更有效地消除噪声,同时更准确地保留几何特征。除了整体体系结构外,我们的网络还具有两个新型模块。一方面,为了提高降噪性能,我们设计了一种形状感知的选择器,以全面考虑学习点,正常特征和几何学先验,以构建特定点的潜在切线空间表示。另一方面,点特征更适合描述几何细节,正常特征更有利于表示几何结构(例如,边缘和角落)。结合点和正常特征使我们能够克服它们的弱点。因此,我们设计一个功能改进模块,以融合点和正常功能,以更好地恢复几何信息。广泛的评估,比较和消融研究表明,所提出的方法在点云降解和正常过滤方面优于最先进的方法。
translated by 谷歌翻译
在本文中,我们重新审视了从单线图中自动重建3D对象的长期问题。以前的基于优化的方法可以生成紧凑而准确的3D模型,但是它们的成功率在很大程度上取决于(i)确定一组真正的真正几何约束的能力,以及(ii)为数值优化选择一个良好的初始值。鉴于这些挑战,我们建议训练深层神经网络,以检测3D对象中几何实体(即边缘)之间的成对关系,并预测顶点的初始深度值。我们在大型CAD模型数据集上进行的实验表明,通过利用几何约束解决管道中的深度学习,基于优化的3D重建的成功率可以显着提高。
translated by 谷歌翻译
捕获比窄FOV相机的宽视野(FOV)相机,其捕获更大的场景区域,用于许多应用,包括3D重建,自动驾驶和视频监控。然而,广角图像包含违反针孔摄像机模型底层的假设的扭曲,导致对象失真,估计场景距离,面积和方向困难,以及防止在未造成的图像上使用现成的深层模型。下游计算机视觉任务。图像整流,旨在纠正这些扭曲,可以解决这些问题。本文从转换模型到整流方法的广角图像整流的全面调查进展。具体地,我们首先介绍了不同方法中使用的相机模型的详细描述和讨论。然后,我们总结了几种失真模型,包括径向失真和投影失真。接下来,我们审查了传统的基于几何图像整流方法和基于深度学习的方法,其中前者将失真参数估计作为优化问题,并且后者通过利用深神经网络的力量来将其作为回归问题。我们评估在公共数据集上最先进的方法的性能,并显示虽然两种方法都可以实现良好的结果,但这些方法仅适用于特定的相机型号和失真类型。我们还提供了强大的基线模型,并对合成数据集和真实世界广角图像进行了对不同失真模型的实证研究。最后,我们讨论了几个潜在的研究方向,预计将来进一步推进这一领域。
translated by 谷歌翻译
We propose an end-to-end deep learning architecture that produces a 3D shape in triangular mesh from a single color image. Limited by the nature of deep neural network, previous methods usually represent a 3D shape in volume or point cloud, and it is non-trivial to convert them to the more ready-to-use mesh model. Unlike the existing methods, our network represents 3D mesh in a graph-based convolutional neural network and produces correct geometry by progressively deforming an ellipsoid, leveraging perceptual features extracted from the input image. We adopt a coarse-to-fine strategy to make the whole deformation procedure stable, and define various of mesh related losses to capture properties of different levels to guarantee visually appealing and physically accurate 3D geometry. Extensive experiments show that our method not only qualitatively produces mesh model with better details, but also achieves higher 3D shape estimation accuracy compared to the state-of-the-art.
translated by 谷歌翻译
本文解决了从给定稀疏点云生成密集点云的问题,以模拟物体/场景的底层几何结构。为了解决这一具有挑战性的问题,我们提出了一种新的基于端到端学习的框架。具体地,通过利用线性近似定理,我们首先明确地制定问题,这逐到确定内插权和高阶近似误差。然后,我们设计轻量级神经网络,通过分析输入点云的局部几何体,自适应地学习统一和分类的插值权重以及高阶改进。所提出的方法可以通过显式制定来解释,因此比现有的更高的内存效率。与仅用于预定义和固定的上采样因子的现有方法的鲜明对比,所提出的框架仅需要一个单一的神经网络,一次性训练可以在典型范围内处理各种上采样因子,这是真实的-world应用程序。此外,我们提出了一种简单但有效的培训策略来推动这种灵活的能力。此外,我们的方法可以很好地处理非均匀分布和嘈杂的数据。合成和现实世界数据的广泛实验证明了所提出的方法在定量和定性的最先进方法上的优越性。
translated by 谷歌翻译
摄像头捕获的文档图像通常会遭受透视和几何变形的影响。在考虑视觉不良美学和OCR系统性能不断恶化时,纠正它们是很大的价值。最近的基于学习的方法将重点放在精确的文档图像上。但是,这可能不足以克服实际挑战,包括具有大边缘区域或没有边缘的文档图像。由于这种不切实际,用户在遇到大边缘区域时努力进行裁剪。同时,没有边距的脱瓦图像仍然是一个无法克服的问题。据我们所知,仍然没有完整有效的管道来纠正野外文档图像。为了解决这个问题,我们提出了一种称为Marior的新方法(删除边缘和\迭代内容纠正)。马里奥(Marior)遵循一种渐进策略,以粗到精细的方式迭代地改善脱水质量和可读性。具体而言,我们将管道分为两个模块:边缘去除模块(MRM)和迭代内容整流模块(ICRM)。首先,我们预测输入图像的分割面膜以删除边缘,从而获得初步结果。然后,我们通过产生密集的位移流以实现内容感知的整流来进一步完善图像。我们可以适应地确定改进的迭代次数。实验证明了我们方法在公共基准测试方面的最先进性能。资源可在https://github.com/zzzhang-jx/marior上获得,以进行进一步比较。
translated by 谷歌翻译
拼图解决问题,从一组非重叠的无序视觉碎片构建一个连贯的整体,是许多应用的基础,然而,过去二十年的大部分文献都集中在较不太现实的谜题上正方形。在这里,我们正规化一种新型的拼图拼图,其中碎片是通过用任意数量的直切割的全局多边形/图像切割而产生的一般凸多边形,这是由庆祝的懒人辅助er序列的产生模型。我们分析了这种难题的理论特性,包括在碎片被几何噪声被污染时解决它们的固有挑战。为了应对此类困难并获得易行的解决方案,我们摘要作为一种具有分层循环约束和分层重建过程的多体弹簧质量动态系统的问题。我们定义了评估指标,并在普通植物和图案谜题上呈现实验结果,以表明它们是完全自动溶解的。
translated by 谷歌翻译
非刚性注册以非刚性方式与目标形状保持一致的源形状变形,是计算机视觉中的经典问题。由于数据(噪声,离群值和部分重叠)和高度自由度,因此此类问题可能具有挑战性。现有方法通常采用$ \ ell_ {p} $键入鲁棒标准来测量对齐误差并规范变形的平滑度,并使用近端算法来解决所得的非平滑优化问题。但是,这种算法的缓慢收敛性限制了其广泛的应用。在本文中,我们提出了一种基于全球平稳的稳健标准进行对齐和正则化的稳健非刚性登记的公式,该规范可以有效地处理异常值和部分重叠。使用大型最小化算法解决了该问题,该算法将每次迭代减少到使用封闭形式的解决方案的凸二次问题。我们进一步应用安德森加速度以加快求解器的收敛性,使求解器能够在具有有限的计算能力的设备上有效运行。广泛的实验证明了我们方法在两种形状之间具有异常值和部分重叠的形状之间的非刚性比对的有效性,并进行定量评估表明,就注册准确性和计算速度而言,它的表现优于最先进的方法。源代码可从https://github.com/yaoyx689/amm_nrr获得。
translated by 谷歌翻译
我们提出了一种新颖的隐式表示 - 神经半空间表示(NH-REP),以将歧管B-REP固体转换为隐式表示。 NH-REP是一棵布尔树木,建立在由神经网络代表的一组隐式函数上,复合布尔函数能够代表实体几何形状,同时保留锐利的特征。我们提出了一种有效的算法,以从歧管B-Rep固体中提取布尔树,并设计一种基于神经网络的优化方法来计算隐式函数。我们证明了我们的转换算法在一千个流形B-REP CAD模型上提供的高质量,这些模型包含包括NURB在内的各种弯曲斑块,以及我们学习方法优于其他代表性的隐性转换算法,在表面重建,尖锐的特征保存,尖锐的特征保存,尖锐的特征,,符号距离场的近似和对各种表面几何形状的鲁棒性以及由NH-REP支持的一组应用。
translated by 谷歌翻译