制造业已广泛采用机器零件的再利用作为降低成本的方法和可持续的制造实践。从设计的设计中识别可重复使用的功能并从数据库中查找它们的类似功能是此过程的重要组成部分。在这个项目中,在完全卷积的几何特征的帮助下,我们能够通过感应转移学习从CAD模型中提取和学习高级语义特征。然后将提取的特征与使用Frobenius规范的数据库中的其他CAD模型进行比较,并且检索相同的特征。后来我们将提取的特征通过了具有空间金字塔池层的深卷积神经网络,并且特征检索的性能显着增加。从结果中显而易见,该模型可以有效地从加工特征捕获几何元素。
translated by 谷歌翻译
在本文中,我们提出了一种机器学习方法来识别CAD网格模型中的孔,插槽等的工程形状特征。随着数字归档的出现,较新的制造技术,如3D打印,扫描组件和逆向工程,CAD数据以网格模型表示的形式增殖。由于网格模型的节点和边缘的数量变得更大以及存在噪声的存在,因此基于图形的方法的直接应用不仅是昂贵的,而且难以调整噪声数据。因此,这呼吁更新的方法为以网格形式表示的CAD模型的功能识别。在这里,我们表明,可分立版本的高斯地图可以用作特征学习的签名。我们表明这种方法不仅需要更少的内存要求,而且还需要训练时间更少。由于没有涉及网络架构,超级参数的数量很大,并且可以在更快的时间内调整。识别精度也非常类似于使用3D卷积神经网络(CNN)获得的精度,但在更小的运行时间和存储要求中。已经使用其他非网络的机器学习方法进行了比较,以表明我们的方法具有最高的精度。我们还显示了具有多个功能的CAD模型的识别结果以及从公共基准获得的复杂/交互功能。还证明了处理嘈杂数据的能力。
translated by 谷歌翻译
在这项工作中,我们介绍了一种方法,并提出了一种改进的神经工作,以执行产品重新识别,这是全自动产品缺陷检测系统的必要核心功能。我们的方法基于特征距离。它是特征提取神经网络的组合,如vgg16,alexnet,带图像搜索引擎 - vearch。我们用于开发产品重新识别系统的数据集是一个水瓶数据集,由400种液体瓶装组成。这是一个小型数据集,这是我们工作的最大挑战。然而,与vearch的神经网络的组合显示了解决产品重新识别问题的可能性。特别是,我们的新神经网络 - 基于AlexNet改进的神经网络的AlphaalexNet可以通过四个百分点提高生产识别准确性。这表明当可以引入和重新设计的高效特征提取方法时,可以实现理想的生产识别精度,以用于几乎相同产品的图像特征提取。为了解决由数据集的小尺寸造成的最大挑战以及识别彼此几乎没有差异的产品的困难性质。在我们未来的工作中,我们提出了一种新的路线图来解决几乎 - 相同的生产标识:介绍或开发需要很少的图像以训练自己的新算法。
translated by 谷歌翻译
手写数字识别(HDR)是光学特征识别(OCR)领域中最具挑战性的任务之一。不管语言如何,HDR都存在一些固有的挑战,这主要是由于个人跨个人的写作风格的变化,编写媒介和环境的变化,无法在反复编写任何数字等时保持相同的笔触。除此之外,特定语言数字的结构复杂性可能会导致HDR的模棱两可。多年来,研究人员开发了许多离线和在线HDR管道,其中不同的图像处理技术与传统的机器学习(ML)基于基于的和/或基于深度学习(DL)的体系结构相结合。尽管文献中存在有关HDR的广泛审查研究的证据,例如:英语,阿拉伯语,印度,法尔西,中文等,但几乎没有对孟加拉人HDR(BHDR)的调查,这缺乏对孟加拉语HDR(BHDR)的研究,而这些调查缺乏对孟加拉语HDR(BHDR)的研究。挑战,基础识别过程以及可能的未来方向。在本文中,已经分析了孟加拉语手写数字的特征和固有的歧义,以及二十年来最先进的数据集的全面见解和离线BHDR的方法。此外,还详细讨论了一些涉及BHDR的现实应用特定研究。本文还将作为对离线BHDR背后科学感兴趣的研究人员的汇编,煽动了对相关研究的新途径的探索,这可能会进一步导致在不同应用领域对孟加拉语手写数字进行更好的离线认识。
translated by 谷歌翻译
3D重建问题中的一个关键问题是如何训练机器人或机器人以模型3D对象。在实时系统(例如自动驾驶汽车)中导航等许多任务直接取决于此问题。这些系统通常具有有限的计算能力。尽管近年来3D重建系统在3D重建系统中取得了长足的进展,但由于现有方法的高复杂性和计算需求,将它们应用于自动驾驶汽车中的导航系统等实时系统仍然具有挑战性。这项研究解决了以更快(实时)方式重建单视图像中显示的对象的当前问题。为此,开发了一个简单而强大的深度神经框架。提出的框架由两个组件组成:特征提取器模块和3D发电机模块。我们将点云表示为我们的重建模块的输出。将Shapenet数据集用于将方法与计算时间和准确性方面的现有结果进行比较。模拟证明了所提出的方法的出色性能。索引术语现实时间3D重建,单视图重建,监督学习,深神经网络
translated by 谷歌翻译
基于草图的3D形状检索(SBSR)是一项重要但艰巨的任务,近年来引起了越来越多的关注。现有方法在限制设置中解决了该问题,而无需适当模拟真实的应用程序方案。为了模仿现实的设置,在此曲目中,我们采用了不同级别的绘图技能的业余爱好者以及各种3D形状的大规模草图,不仅包括CAD型号,而且还可以从真实对象扫描的模型。我们定义了两个SBSR任务,并构建了两个基准,包括46,000多个CAD型号,1,700个现实型号和145,000个草图。四个团队参加了这一轨道,并为这两个任务提交了15次跑步,由7个常用指标评估。我们希望,基准,比较结果和开源评估法会在3D对象检索社区中促进未来的研究。
translated by 谷歌翻译
卷积神经网络已在图像分类方面取得了成功的结果,从而实现了超过人类水平的实时结果。但是,纹理图像仍然对这些模型构成一些挑战,例如,在出现这些图像,高层间相似性,没有代表对象的全局观点的几个问题中,培训的数据可用性有限,并且其他。在这种情况下,本文的重点是提高纹理分类中卷积神经网络的准确性。这是通过从验证的神经网络的多个卷积层中提取特征并使用Fisher载体聚集此类特征来完成的。使用较早卷积层的特征的原因是获得了较少域的信息。我们验证方法对基准数据集的纹理分类以及巴西植物物种识别的实际任务的有效性。在这两种情况下,在多层上计算出的Fisher矢量都优于制作方法,证实早期卷积层提供了有关分类纹理图像的重要信息。
translated by 谷歌翻译
变压器一直是自然语言处理(NLP)和计算机视觉(CV)革命的核心。 NLP和CV的显着成功启发了探索变压器在点云处理中的使用。但是,变压器如何应对点云的不规则性和无序性质?变压器对于不同的3D表示(例如,基于点或体素)的合适性如何?各种3D处理任务的变压器有多大的能力?截至目前,仍然没有对这些问题的研究进行系统的调查。我们第一次为3D点云分析提供了越来越受欢迎的变压器的全面概述。我们首先介绍变压器体系结构的理论,并在2D/3D字段中审查其应用程序。然后,我们提出三种不同的分类法(即实现 - 数据表示和基于任务),它们可以从多个角度对当前的基于变压器的方法进行分类。此外,我们介绍了研究3D中自我注意机制的变异和改进的结果。为了证明变压器在点云分析中的优势,我们提供了基于各种变压器的分类,分割和对象检测方法的全面比较。最后,我们建议三个潜在的研究方向,为3D变压器的开发提供福利参考。
translated by 谷歌翻译
3D点云的卷积经过广泛研究,但在几何深度学习中却远非完美。卷积的传统智慧在3D点之间表现出特征对应关系,这是对差的独特特征学习的内在限制。在本文中,我们提出了自适应图卷积(AGCONV),以供点云分析的广泛应用。 AGCONV根据其动态学习的功能生成自适应核。与使用固定/各向同性核的解决方案相比,AGCONV提高了点云卷积的灵活性,有效,精确地捕获了不同语义部位的点之间的不同关系。与流行的注意力体重方案不同,AGCONV实现了卷积操作内部的适应性,而不是简单地将不同的权重分配给相邻点。广泛的评估清楚地表明,我们的方法优于各种基准数据集中的点云分类和分割的最新方法。同时,AGCONV可以灵活地采用更多的点云分析方法来提高其性能。为了验证其灵活性和有效性,我们探索了基于AGCONV的完成,DeNoing,Upsmpling,注册和圆圈提取的范式,它们与竞争对手相当甚至优越。我们的代码可在https://github.com/hrzhou2/adaptconv-master上找到。
translated by 谷歌翻译
船舶重新识别技术是智能运输系统的重要组成部分,也是海洋监视所需的视觉感知任务的重要组成部分。但是,与陆地上的情况不同,海上环境是复杂且可变的,样品较少,并且在海上进行船舶重新识别更加困难。因此,本文提出了一种转移动态对准算法,并模拟海上船只的摇摆状况,使用良好的和类似的军舰作为测试目标,以改善识别困难,从而应对复杂的海洋条件和复杂的海洋条件和影响的影响。讨论不同类型的血管作为转移对象的影响。实验结果表明,改进的算法将平均平均准确性(MAP)提高了10.2%,第一个命中率(RANK1)平均提高了4.9%。
translated by 谷歌翻译
同时对象识别和姿势估计是机器人安全与人类和环境安全相互作用的两个关键功能。尽管对象识别和姿势估计都使用视觉输入,但大多数最先进的问题将它们作为两个独立的问题解决,因为前者需要视图不变的表示,而对象姿势估计需要一个与观点有关的描述。如今,多视图卷积神经网络(MVCNN)方法显示出最新的分类性能。尽管已广泛探索了MVCNN对象识别,但对多视图对象构成估计方法的研究很少,而同时解决这两个问题的研究更少。 MVCNN方法中虚拟摄像机的姿势通常是预先定义的,从而绑定了这种方法的应用。在本文中,我们提出了一种能够同时处理对象识别和姿势估计的方法。特别是,我们开发了一个深度的对象不合时宜的熵估计模型,能够预测给定3D对象的最佳观点。然后将对象的视图馈送到网络中,以同时预测目标对象的姿势和类别标签。实验结果表明,从此类位置获得的观点足以达到良好的精度得分。此外,我们设计了现实生活中的饮料场景,以证明拟议方法在真正的机器人任务中的运作效果如何。代码可在线获得:github.com/subhadityamukherjee/more_mvcnn
translated by 谷歌翻译
The International Workshop on Reading Music Systems (WoRMS) is a workshop that tries to connect researchers who develop systems for reading music, such as in the field of Optical Music Recognition, with other researchers and practitioners that could benefit from such systems, like librarians or musicologists. The relevant topics of interest for the workshop include, but are not limited to: Music reading systems; Optical music recognition; Datasets and performance evaluation; Image processing on music scores; Writer identification; Authoring, editing, storing and presentation systems for music scores; Multi-modal systems; Novel input-methods for music to produce written music; Web-based Music Information Retrieval services; Applications and projects; Use-cases related to written music. These are the proceedings of the 3rd International Workshop on Reading Music Systems, held in Alicante on the 23rd of July 2021.
translated by 谷歌翻译
Interoperability issue is a significant problem in Building Information Modeling (BIM). Object type, as a kind of critical semantic information needed in multiple BIM applications like scan-to-BIM and code compliance checking, also suffers when exchanging BIM data or creating models using software of other domains. It can be supplemented using deep learning. Current deep learning methods mainly learn from the shape information of BIM objects for classification, leaving relational information inherent in the BIM context unused. To address this issue, we introduce a two-branch geometric-relational deep learning framework. It boosts previous geometric classification methods with relational information. We also present a BIM object dataset IFCNet++, which contains both geometric and relational information about the objects. Experiments show that our framework can be flexibly adapted to different geometric methods. And relational features do act as a bonus to general geometric learning methods, obviously improving their classification performance, thus reducing the manual labor of checking models and improving the practical value of enriched BIM models.
translated by 谷歌翻译
We present a data-driven framework to automate the vectorization and machine interpretation of 2D engineering part drawings. In industrial settings, most manufacturing engineers still rely on manual reads to identify the topological and manufacturing requirements from drawings submitted by designers. The interpretation process is laborious and time-consuming, which severely inhibits the efficiency of part quotation and manufacturing tasks. While recent advances in image-based computer vision methods have demonstrated great potential in interpreting natural images through semantic segmentation approaches, the application of such methods in parsing engineering technical drawings into semantically accurate components remains a significant challenge. The severe pixel sparsity in engineering drawings also restricts the effective featurization of image-based data-driven methods. To overcome these challenges, we propose a deep learning based framework that predicts the semantic type of each vectorized component. Taking a raster image as input, we vectorize all components through thinning, stroke tracing, and cubic bezier fitting. Then a graph of such components is generated based on the connectivity between the components. Finally, a graph convolutional neural network is trained on this graph data to identify the semantic type of each component. We test our framework in the context of semantic segmentation of text, dimension and, contour components in engineering drawings. Results show that our method yields the best performance compared to recent image, and graph-based segmentation methods.
translated by 谷歌翻译
本文提出了一种深度学习方法,用于在历史文档的数字收集中进行图像检索和图案斑点。首先,区域建议算法检测文档页面图像中的对象候选。接下来,考虑了两个不同的变体,这些模型用于特征提取,这些变体提供了实用值或二进制代码表示。最后,通过计算给定输入查询的特征相似性来对候选图像进行排名。一项强大的实验协议评估了DOCEXPLORE图像数据库上的每个表示方案(实用值和二进制代码)的建议方法。实验结果表明,所提出的深层模型与历史文档图像的最新图像检索方法相比,使用相同的技术用于模式斑点,优于2.56个百分点。此外,与基于实价表示的相关作品相比,提议的方法还将搜索时间缩短了200倍,并且存储的成本高达6,000倍。
translated by 谷歌翻译
准确的轨道位置是铁路支持驱动系统的重要组成部分,用于安全监控。激光雷达可以获得携带铁路环境的3D信息的点云,特别是在黑暗和可怕的天气条件下。在本文中,提出了一种基于3D点云的实时轨识别方法来解决挑战,如无序,不均匀的密度和大量点云的挑战。首先呈现Voxel Down-采样方法,用于铁路点云的密度平衡,并且金字塔分区旨在将3D扫描区域划分为具有不同卷的体素。然后,开发了一个特征编码模块以找到最近的邻点并聚合它们的局部几何特征。最后,提出了一种多尺度神经网络以产生每个体素和轨道位置的预测结果。该实验是在铁路的3D点云数据的9个序列下进行的。结果表明,该方法在检测直,弯曲和其他复杂的拓扑轨道方面具有良好的性能。
translated by 谷歌翻译
我们为从大规模数据库中清洁CAD模型的细粒度检索提供了一种新解决方案,以恢复RGBD扫描的详细对象形状几何形状。与以前的工作不同,只需使用对象形状描述符并接受顶部检索结果,将其索引到中等小的数据库中,我们认为在大规模数据库的情况下,可以在描述符的邻域中找到更准确的模型。更重要的是,我们建议,可以通过基于几何形状的重新排列其在实例级别上的形状描述符的独特性缺陷。我们的方法首先利用了学习表示的判别能力来区分不同类别的模型,然后使用一种新颖的稳健点设置距离度量度量来重新置于CAD邻域,从而在大型数据库中实现了细粒度的检索。对现实世界数据集的评估表明,我们基于几何的重新排列是一种概念上简单但高效的方法,与最先进的方法相比,检索准确性可以显着提高。
translated by 谷歌翻译
With the improvement of arithmetic power and algorithm accuracy of personal devices, biological features are increasingly widely used in personal identification, and palm vein recognition has rich extractable features and has been widely studied in recent years. However, traditional recognition methods are poorly robust and susceptible to environmental influences such as reflections and noise. In this paper, a convolutional neural network based on VGG-16 transfer learning fused attention mechanism is used as the feature extraction network on the infrared palm vein dataset. The palm vein classification task is first trained using palmprint classification methods, followed by matching using a similarity function, in which we propose the multi-task loss function to improve the accuracy of the matching task. In order to verify the robustness of the model, some experiments were carried out on datasets from different sources. Then, we used K-means clustering to determine the adaptive matching threshold and finally achieved an accuracy rate of 98.89% on prediction set. At the same time, the matching is with high efficiency which takes an average of 0.13 seconds per palm vein pair, and that means our method can be adopted in practice.
translated by 谷歌翻译
近年来,已经产生了大量的视觉内容,并从许多领域共享,例如社交媒体平台,医学成像和机器人。这种丰富的内容创建和共享引入了新的挑战,特别是在寻找类似内容内容的图像检索(CBIR)-A的数据库中,即长期建立的研究区域,其中需要改进的效率和准确性来实时检索。人工智能在CBIR中取得了进展,并大大促进了实例搜索过程。在本调查中,我们审查了最近基于深度学习算法和技术开发的实例检索工作,通过深网络架构类型,深度功能,功能嵌入方法以及网络微调策略组织了调查。我们的调查考虑了各种各样的最新方法,在那里,我们识别里程碑工作,揭示各种方法之间的联系,并呈现常用的基准,评估结果,共同挑战,并提出未来的未来方向。
translated by 谷歌翻译