In the process of projecting the surface of a three-dimensional object onto a two-dimensional surface, due to the perspective distortion, the image on the surface of the object will have different degrees of distortion according to the level of the surface curvature. This paper presents an imprecise method for flattening this type of distortion on the surface of a regularly curved body. The main idea of this method is to roughly estimate the gridded surface subdivision that can be used to describe the surface of the three-dimensional object through the contour curve of the two-dimensional image of the object. Then, take each grid block with different sizes and shapes inversely transformed into a rectangle with exactly the same shape and size. Finally, each of the same rectangles is splicing and recombining in turn to obtain a roughly flat rectangle. This paper will introduce and show the specific process and results of using this method to solve the problem of bending page flattening, then demonstrate the feasibility and limitations of this method.
translated by 谷歌翻译
Geometric rectification of images of distorted documents finds wide applications in document digitization and Optical Character Recognition (OCR). Although smoothly curved deformations have been widely investigated by many works, the most challenging distortions, e.g. complex creases and large foldings, have not been studied in particular. The performance of existing approaches, when applied to largely creased or folded documents, is far from satisfying, leaving substantial room for improvement. To tackle this task, knowledge about document rectification should be incorporated into the computation, among which the developability of 3D document models and particular textural features in the images, such as straight lines, are the most essential ones. For this purpose, we propose a general framework of document image rectification in which a computational isometric mapping model is utilized for expressing a 3D document model and its flattening in the plane. Based on this framework, both model developability and textural features are considered in the computation. The experiments and comparisons to the state-of-the-art approaches demonstrated the effectiveness and outstanding performance of the proposed method. Our method is also flexible in that the rectification results can be enhanced by any other methods that extract high-quality feature lines in the images.
translated by 谷歌翻译
兴趣点检测是计算机视觉和图像处理中最根本,最关键的问题之一。在本文中,我们对图像特征信息(IFI)提取技术进行了全面综述,以进行利益点检测。为了系统地介绍现有的兴趣点检测方法如何从输入图像中提取IFI,我们提出了IFI提取技术的分类学检测。根据该分类法,我们讨论了不同类型的IFI提取技术以进行兴趣点检测。此外,我们确定了与现有的IFI提取技术有关的主要未解决的问题,以及以前尚未讨论过的任何兴趣点检测方法。提供了现有的流行数据集和评估标准,并评估和讨论了18种最先进方法的性能。此外,还详细阐述了有关IFI提取技术的未来研究方向。
translated by 谷歌翻译
我们提出了一种基于具有子域(CENN)的神经网络的保守能量方法,其中允许通过径向基函数(RBF),特定解决方案神经网络和通用神经网络构成满足没有边界惩罚的基本边界条件的可允许功能。与具有子域的强形式Pinn相比,接口处的损耗术语具有较低的阶数。所提出的方法的优点是效率更高,更准确,更小的近双达,而不是具有子域的强形式Pinn。所提出的方法的另一个优点是它可以基于可允许功能的特殊结构适用于复杂的几何形状。为了分析其性能,所提出的方法宫殿用于模拟代表性PDE,这些实施例包括强不连续性,奇异性,复杂边界,非线性和异质问题。此外,在处理异质问题时,它优于其他方法。
translated by 谷歌翻译
提出了一种新的算法来加速RANSAC模型质量计算。该方法基于将联合对应空间(例如,2D-2D点对应)分区为一对常规网格。网格电池被最小的样本模型映射,估计在Ransac内,以拒绝早期与模型参数不一致的对应关系。所提出的技术是一般的。即使将点映射到点集,例如,它也适用于任意变换,例如,作为对末极线的基本矩阵映射。该方法在来自公共可用数据集的数千个图像对上测试了来自基本和基本矩阵,同字和径向扭曲的相同估计。平均而言,它将RANSAC运行时间降低了41%,无需准确性劣化。它可以直接插入最先进的Ransac框架中,例如,vsac。
translated by 谷歌翻译
本文讨论了如何通过通过预处理和后处理方法增强光学特征识别(OCR)发动机来成功数字化大规模的历史微数据。尽管由于机器学习的改善,近年来OCR软件已大大改善,但现成的OCR应用程序仍然显示高错误率,这限制了其应用程序以准确提取结构化信息。但是,补充OCR可以大大提高其成功率,使其成为经济史学家的强大且具有成本效益的工具。本文展示了这些方法,并解释了为什么它们有用。我们将它们应用于两个大型资产负债表数据集,并引入Quipucamayoc,Quipucamayoc是一个统一框架中包含这些方法的Python软件包。
translated by 谷歌翻译
培训和测试监督对象检测模型需要大量带有地面真相标签的图像。标签定义图像中的对象类及其位置,形状以及可能的其他信息,例如姿势。即使存在人力,标签过程也非常耗时。我们引入了一个新的标签工具,用于2D图像以及3D三角网格:3D标记工具(3DLT)。这是一个独立的,功能丰富和跨平台软件,不需要安装,并且可以在Windows,MacOS和基于Linux的发行版上运行。我们不再像当前工具那样在每个图像上分别标记相同的对象,而是使用深度信息从上述图像重建三角形网格,并仅在上述网格上标记一次对象。我们使用注册来简化3D标记,离群值检测来改进2D边界框的计算和表面重建,以将标记可能性扩展到大点云。我们的工具经过最先进的方法测试,并且在保持准确性和易用性的同时,它极大地超过了它们。
translated by 谷歌翻译
动态MRI可以捕获具有高对比度的软组织器官中的时间解剖变化,但是获得的序列通常遭受有限的体积覆盖,这使得器官形状轨迹的高分辨率重建在时间研究中的主要挑战。由于腹部器官形状的变异性跨越时间和受试者,本研究的目的是朝向3D致密速度测量来完全覆盖整个表面并提取有意义的特征,其特征在于观察到的器官变形并实现临床作用或决定。我们在深呼吸运动期间提出了一种用于表征膀胱表面动力学的管道。对于紧凑的形状表示,首先使用重建的时间体积来使用LDDMM框架建立专用的动态4D网状序列。然后,我们从诸如网格伸长和失真的机械参数执行器官动力学的统计表征。由于我们将器官引用作为非平面,因此我们还使用平均曲率变化为度量来量化表面演变。然而,曲率的数值计算强烈地取决于表面参数化。为了应对这一依赖性,我们采用了一种用于表面变形分析的新方法。独立于参数化并最小化测地曲线的长度,通过最小化Dirichlet能量,它使表面曲线平滑地朝向球体。 eulerian PDE方法用于从曲线缩短流中导出形状描述符。使用Laplace Beltrami操作员特征函数来计算各个运动模式之间的接口,用于球形映射。用于提取用于局部控制的模拟形状轨迹的表征相关曲线的应用演示了所提出的形状描述符的稳定性。
translated by 谷歌翻译
近年来,场景文本检测和识别的研究重点已转移到任意形状文本,文本形状表示是一个基本问题。理想的表示应紧凑,完整,高效和可重复使用,以便我们认为后续认可。但是,以前的表示在一个或多个方面存在缺陷。薄板间隙(TPS)转换在场景文本识别方面取得了巨大成功。受到这一点的启发,我们逆转了它的用法,并精致地将TPS视为任意形状文本表示的精美表示。 TPS表示是紧凑,完整和有效的。使用预测的TPS参数,可以将检测到的文本区域直接纠正到近冬季的参数,以帮助后续识别。为了进一步利用TPS表示的潜力,提出了边界对准损失。基于这些设计,我们实现了文本检测器tpsnet,可以方便地将其扩展到文本次数。对几个公共基准的广泛评估和消融表明,提出的文本表示和斑点方法的有效性和优势。特别是,TPSNET在ART数据集上实现了4.4 \%(78.4 \%vs. 74.0 \%)的检测F量改进,并且在5.0 \%(78.5 \%vs. 73.55)上进行了端到端的斑点f-Measure改进。 \%)在总文本上,这是没有铃铛和口哨的大边缘。
translated by 谷歌翻译
视觉的触觉传感器由于经济实惠的高分辨率摄像机和成功的计算机视觉技术而被出现为机器人触摸的有希望的方法。但是,它们的物理设计和他们提供的信息尚不符合真实应用的要求。我们提供了一种名为Insight的强大,柔软,低成本,视觉拇指大小的3D触觉传感器:它不断在其整个圆锥形感测表面上提供定向力分布图。围绕内部单眼相机构造,传感器仅在刚性框架上仅成型一层弹性体,以保证灵敏度,鲁棒性和软接触。此外,Insight是第一个使用准直器将光度立体声和结构光混合的系统来检测其易于更换柔性外壳的3D变形。通过将图像映射到3D接触力的空间分布(正常和剪切)的深神经网络推断力信息。洞察力在0.4毫米的总空间分辨率,力量幅度精度约为0.03 n,并且对于具有不同接触面积的多个不同触点,在0.03-2 n的范围内的5度大约5度的力方向精度。呈现的硬件和软件设计概念可以转移到各种机器人部件。
translated by 谷歌翻译
Visual perception plays an important role in autonomous driving. One of the primary tasks is object detection and identification. Since the vision sensor is rich in color and texture information, it can quickly and accurately identify various road information. The commonly used technique is based on extracting and calculating various features of the image. The recent development of deep learning-based method has better reliability and processing speed and has a greater advantage in recognizing complex elements. For depth estimation, vision sensor is also used for ranging due to their small size and low cost. Monocular camera uses image data from a single viewpoint as input to estimate object depth. In contrast, stereo vision is based on parallax and matching feature points of different views, and the application of deep learning also further improves the accuracy. In addition, Simultaneous Location and Mapping (SLAM) can establish a model of the road environment, thus helping the vehicle perceive the surrounding environment and complete the tasks. In this paper, we introduce and compare various methods of object detection and identification, then explain the development of depth estimation and compare various methods based on monocular, stereo, and RDBG sensors, next review and compare various methods of SLAM, and finally summarize the current problems and present the future development trends of vision technologies.
translated by 谷歌翻译
This paper presents trajectory planning for three-dimensional autonomous multi-UAV volume coverage and visual inspection based on the Heat Equation Driven Area Coverage (HEDAC) algorithm. The method designs a potential field to achieve the target density and generate trajectories using potential gradients to direct UAVs to regions of a higher potential. Collisions are prevented by implementing a distance field and correcting the agent's directional vector if the distance threshold is reached. The method is successfully tested for volume coverage and visual inspection of complex structures such as wind turbines and a bridge. For visual inspection, the algorithm is supplemented with camera direction control. A field containing the nearest distance from any point in the domain to the structure is designed and this field's gradient provides the camera orientation throughout the trajectory. The bridge inspection test case is compared with a state-of-the-art method where the HEDAC algorithm allowed more surface area to be inspected under the same conditions. The limitations of the HEDAC method are analyzed, focusing on computational efficiency and adequacy of spatial coverage to approximate the surface coverage. The proposed methodology offers flexibility in various setup parameters and is applicable to real-world inspection tasks.
translated by 谷歌翻译
视频博客和自拍照是流行的社交媒体格式,通常由广角相机捕获,以显示人类受试者和扩展的背景。遗憾的是,由于透视投影,靠近角落和边缘的面孔表现出明显的扭曲,延伸并挤出面部特征,导致视频质量差。在这项工作中,我们展示了一种视频扭曲算法来纠正这些扭曲。我们的主要思想是在面部地区本地应用立体投影。我们使用空间 - 时间能量最小化配制网眼翘曲问题,并使用线路保存术语最小化背景变形,以维持背景中的直边。为了解决时间一致性,我们通过潜在变量限制了翘曲网格和面部轨迹上的时间平滑度。对于性能评估,我们开发了具有广泛焦距的广角视频数据集。用户学习表明,83.9%的用户更喜欢基于透视投影的其他替代方案的算法。
translated by 谷歌翻译
在许多计算机视觉域中,输入图像必须与针孔相机型号符合,其中现实世界中的直线被投影为图像中的直线。在实时运动广播上执行计算机愿景任务识别算法要求的挑战要求,其中算法不能依赖于特定的校准模式,必须能够应对未知和未校准的相机,源自复杂电视镜头的径向失真,很少有视觉线索以补偿失真,并通过实时绩效的必要性。我们提出了一种基于深度卷积神经网络的单图像自动镜头失真补偿的新方法,能够使用运动广播域的应用领域的多项式变形模型的两个最高阶系数的实时性能和精度。关键词:深卷积神经网络,径向失真,单幅图像整流
translated by 谷歌翻译
Specularity prediction is essential to many computer vision applications, giving important visual cues usable in Augmented Reality (AR), Simultaneous Localisation and Mapping (SLAM), 3D reconstruction and material modeling. However, it is a challenging task requiring numerous information from the scene including the camera pose, the geometry of the scene, the light sources and the material properties. Our previous work addressed this task by creating an explicit model using an ellipsoid whose projection fits the specularity image contours for a given camera pose. These ellipsoid-based approaches belong to a family of models called JOint-LIght MAterial Specularity (JOLIMAS), which we have gradually improved by removing assumptions on the scene geometry. However, our most recent approach is still limited to uniformly curved surfaces. This paper generalises JOLIMAS to any surface geometry while improving the quality of specularity prediction, without sacrificing computation performances. The proposed method establishes a link between surface curvature and specularity shape in order to lift the geometric assumptions made in previous work. Contrary to previous work, our new model is built from a physics-based local illumination model namely Torrance-Sparrow, providing an improved reconstruction. Specularity prediction using our new model is tested against the most recent JOLIMAS version on both synthetic and real sequences with objects of various general shapes. Our method outperforms previous approaches in specularity prediction, including the real-time setup, as shown in the supplementary videos.
translated by 谷歌翻译
可靠地定量自然和人为气体释放(例如,从海底进入海洋的自然和人为气体释放(例如,Co $ _2 $,甲烷),最终是大气,是一个具有挑战性的任务。虽然船舶的回声探测器允许在水中检测水中的自由气,但是即使从较大的距离中,精确量化需要诸如未获得的升高速度和气泡尺寸分布的参数。光学方法的意义上是互补的,即它们可以提供从近距离的单个气泡或气泡流的高时和空间分辨率。在这一贡献中,我们介绍了一种完整的仪器和评估方法,用于光学气泡流特征。专用仪器采用高速深海立体声摄像机系统,可在部署在渗透网站以进行以后的自动分析时录制泡泡图像的Tbleabytes。对于几分钟的短序列可以获得泡特性,然后将仪器迁移到其他位置,或者以自主间隔模式迁移到几天内,以捕获由于电流和压力变化和潮汐循环引起的变化。除了报告泡沫特征的步骤旁边,我们仔细评估了可达准确性并提出了一种新颖的校准程序,因为由于缺乏点对应,仅使用气泡的剪影。该系统已成功运营,在太平洋高达1000万水深,以评估甲烷通量。除了样品结果外,我们还会报告在开发期间汲取的故障案例和经验教训。
translated by 谷歌翻译
我们为级别集方法提出了一个数据驱动的均值曲线求解器。这项工作是我们在[arxiv:2201.12342] [1]和[doi:10.1016/j.jcp.2022.1111291] [arxiv:2201.12342] [1]中的二维策略的$ \ mathbb {r}^3 $的自然扩展。 ]。但是,与[1,2]建立了依赖分辨率的神经网络词典相比,在这里,我们在$ \ mathbb {r}^3 $中开发了两对模型,而不管网格大小如何。我们的前馈网络摄入的水平集,梯度和曲率数据转换为固定接口节点的数值均值曲率近似值。为了降低问题的复杂性,我们使用高斯曲率对模板进行了分类,并将模型分别适合于非堆肥和鞍模式。非插图模板更容易处理,因为它们表现出以单调性和对称性为特征的曲率误差分布。尽管后者允许我们仅在平均曲面频谱的一半上进行训练,但前者帮助我们将数据驱动的融合并在平坦区域附近无缝地融合了基线估计。另一方面,鞍形图案误差结构不太清楚。因此,我们没有利用超出已知信息的潜在信息。在这方面,我们不仅在球形和正弦和双曲线抛物面斑块上训练了我们的模型。我们构建他们的数据集的方法是系统的,但是随机收集样品,同时确保均衡度。我们还诉诸于标准化和降低尺寸,作为预处理步骤和集成正则化以最大程度地减少异常值。此外,我们利用曲率旋转/反射不变性在推理时提高精度。几项实验证实,与现代粒子的界面重建和水平设定方案相比,我们提出的系统可以产生更准确的均值曲线估计。
translated by 谷歌翻译
本文为工程产品的计算模型或仅返回分类信息的过程提供了一种新的高效和健壮方法,用于罕见事件概率估计,例如成功或失败。对于此类模型,大多数用于估计故障概率的方法,这些方法使用结果的数值来计算梯度或估计与故障表面的接近度。即使性能函数不仅提供了二进制输出,系统的状态也可能是连续输入变量域中定义的不平滑函数,甚至是不连续的函数。在这些情况下,基于经典的梯度方法通常会失败。我们提出了一种简单而有效的算法,该算法可以从随机变量的输入域进行顺序自适应选择点,以扩展和完善简单的基于距离的替代模型。可以在连续采样的任何阶段完成两个不同的任务:(i)估计失败概率,以及(ii)如果需要进一步改进,则选择最佳的候选者进行后续模型评估。选择用于模型评估的下一个点的建议标准最大化了使用候选者分类的预期概率。因此,全球探索与本地剥削之间的完美平衡是自动维持的。该方法可以估计多种故障类型的概率。此外,当可以使用模型评估的数值来构建平滑的替代物时,该算法可以容纳此信息以提高估计概率的准确性。最后,我们定义了一种新的简单但一般的几何测量,这些测量是对稀有事实概率对单个变量的全局敏感性的定义,该度量是作为所提出算法的副产品获得的。
translated by 谷歌翻译
提出了一种算法,用于构建与计算机断层扫描成像的两相材料构建高阶签名距离场。符号距离字段是高阶的,因为它没有与采样信号的距离变换相关联的量化伪像。使用最接近的点算法来解决窄带,该算法扩展到不是符号距离字段的隐式嵌入式。高阶快速扫描算法用于将窄带扩展到域的其余部分。在理想的隐式表面上验证了窄带和扩展方法的准确性顺序。该方法适用于10个精馏牛小梁骨的切除立方体。用这些受试者验证表面,相密度估计和局部形态学的定位。由于嵌入是高阶,梯度,因此可以在图像数据中本地局部地精确地估计曲线。
translated by 谷歌翻译
我们提出了一种基于体积的基于网格的算法,用于参数化胎盘到扁平模板,以实现局部解剖结构和功能的有效可视化。 MRI显示潜在作为研究工具,因为它提供与胎盘功能直接相关的信号。然而,由于胎盘体内形状的弯曲和高度变化,解释和可视化这些图像是困难的。我们通过绘制胎盘来解决解释挑战,以便它类似于熟悉的离体形状。我们将参数化作为优化问题,用于将体积网格表示的胎盘形状映射到扁平模板。我们采用对称的Dirichlet Energy来控制整个体积的局部变形。在梯度下降优化期间,映射中的局部注射是由约束的线路搜索强制执行的。我们使用从大胆的MRI图像中提取的111个胎盘形状的研究研究验证了我们的方法。我们的映射在匹配模板时实现了子体素准确性,同时保持整个音量的低失真。我们展示了胎盘的扁平化程度如何改善解剖学和功能的可视化。我们的代码在https://github.com/mabulnaga/plentaa-flatteny自由提供。
translated by 谷歌翻译