计算机愿景一直在蓬勃发展,因为AI开发正在增加推力。使用深度学习技术是计算机科学家认为解决方案的最受欢迎的方式。然而,深度学习技术倾向于显示出比手动处理的性能较低。使用深度学习并不总是与计算机视觉相关的问题的答案。
translated by 谷歌翻译
MINSU(移动库存和扫描单元)算法使用计算视觉分析方法记录机柜的剩余数量/填充度。为此,它通过了五步方法:对象检测,前景减法,K-均值聚类,百分比估计和计数。输入图像通过对象检测方法,以分析机柜在坐标方面的特定位置。这样做之后,它会通过前景减法方法来使图像通过删除背景更加焦点到机柜本身(某些手动工作可能必须完成,例如选择不被算法切割的零件) 。在K-均值聚类方法中,多色图像变成了3彩色单调图像,以更快,更准确的分析。最后,图像经过百分比估计和计数。在这两种方法中,发现机柜内部的材料的比例以百分比为百分比,然后用来近似内部的材料数量。如果该项目成功,剩余数量管理可以解决简介早期解决的问题。
translated by 谷歌翻译
截至2017年,鱼类产品约占全球人类饮食的16%。计数作用是生产和生产这些产品的重要组成部分。种植者必须准确计算鱼类,以便这样做技术解决方案。开发了两个计算机视觉系统,以自动计算在工业池塘中生长的甲壳类幼虫。第一个系统包括带有3024x4032分辨率的iPhone 11摄像头,该摄像头在室内条件下从工业池塘中获取图像。使用该系统进行了两次实验,第一部实验包括在一天的增长阶段,在9,10的一天中使用iPhone 11相机在特定照明条件下获得的200张图像。在第二个实验中,用两个设备iPhone 11和索尼DSCHX90V摄像机拍摄了一个幼虫工业池。使用第一个设备(iPhone 11)测试了两个照明条件。在每种情况下,都获得了110张图像。该系统的准确性为88.4%的图像检测。第二个系统包括DSLR Nikon D510相机,具有2000x2000分辨率,在工业池塘外进行了七次实验。在幼虫生长阶段的第1天获取图像,从而获得了总共700张图像。该系统的密度为50的精度为86%。一种基于Yolov5 CNN模型开发的算法,该算法自动计算两种情况的幼虫数量。此外,在这项研究中,开发了幼虫生长函数。每天,从工业池塘手动取几个幼虫,并在显微镜下进行分析。确定生长阶段后,就获得了幼虫的图像。每个幼虫的长度都是通过图像手动测量的。最合适的模型是Gompertz模型,其拟合指数的良好性r平方为0.983。
translated by 谷歌翻译
这是一门专门针对STEM学生开发的介绍性机器学习课程。我们的目标是为有兴趣的读者提供基础知识,以在自己的项目中使用机器学习,并将自己熟悉术语作为进一步阅读相关文献的基础。在这些讲义中,我们讨论受监督,无监督和强化学习。注释从没有神经网络的机器学习方法的说明开始,例如原理分析,T-SNE,聚类以及线性回归和线性分类器。我们继续介绍基本和先进的神经网络结构,例如密集的进料和常规神经网络,经常性的神经网络,受限的玻尔兹曼机器,(变性)自动编码器,生成的对抗性网络。讨论了潜在空间表示的解释性问题,并使用梦和对抗性攻击的例子。最后一部分致力于加强学习,我们在其中介绍了价值功能和政策学习的基本概念。
translated by 谷歌翻译
培训和测试监督对象检测模型需要大量带有地面真相标签的图像。标签定义图像中的对象类及其位置,形状以及可能的其他信息,例如姿势。即使存在人力,标签过程也非常耗时。我们引入了一个新的标签工具,用于2D图像以及3D三角网格:3D标记工具(3DLT)。这是一个独立的,功能丰富和跨平台软件,不需要安装,并且可以在Windows,MacOS和基于Linux的发行版上运行。我们不再像当前工具那样在每个图像上分别标记相同的对象,而是使用深度信息从上述图像重建三角形网格,并仅在上述网格上标记一次对象。我们使用注册来简化3D标记,离群值检测来改进2D边界框的计算和表面重建,以将标记可能性扩展到大点云。我们的工具经过最先进的方法测试,并且在保持准确性和易用性的同时,它极大地超过了它们。
translated by 谷歌翻译
这本数字本书包含在物理模拟的背景下与深度学习相关的一切实际和全面的一切。尽可能多,所有主题都带有Jupyter笔记本的形式的动手代码示例,以便快速入门。除了标准的受监督学习的数据中,我们将看看物理丢失约束,更紧密耦合的学习算法,具有可微分的模拟,以及加强学习和不确定性建模。我们生活在令人兴奋的时期:这些方法具有从根本上改变计算机模拟可以实现的巨大潜力。
translated by 谷歌翻译
该项目附带了OCR(光学字符识别)的技术,包括计算机科学的各种研究侧面。该项目是拍摄一个字符的图片并处理它以识别像人类大脑一样的那样的角色识别各个数字。该项目包含图像处理技术的深刻思想和机器学习的大研究领域以及机器学习的建筑块,称为神经网络。该项目有两种不同的部分。培训部分通过提供各种类似的角色来训练孩子的想法,但不是完全相同,并说明它们的输出就是这样。就像这个想法一样,人们必须用这么多角色训练新建的神经网络。此部分包含一些新的算法,它是自我创建和升级的作为项目需要。测试部分包含一个新数据集的测试。这部分始终在培训部分之后。第一个必须教孩子如何认识到这个角色。然后一个人必须参加测试是否给予了正确的答案或者不是。如果没有,如果给出新的数据集和新条目,必须培训他更加努力。就像那个必须也要测试算法。有许多部分统计建模和优化技术,该技术进入了需要大量建模的统计数据概念,如优化器技术和过滤过程,其中过滤或算法后面的数学和预测是如何之一或其实际需要的最终对预测模型创造的预测。机器学习算法由预测和编程概念构建。
translated by 谷歌翻译
自动化驾驶系统(广告)开辟了汽车行业的新领域,为未来的运输提供了更高的效率和舒适体验的新可能性。然而,在恶劣天气条件下的自主驾驶已经存在,使自动车辆(AVS)长时间保持自主车辆(AVS)或更高的自主权。本文评估了天气在分析和统计方式中为广告传感器带来的影响和挑战,并对恶劣天气条件进行了解决方案。彻底报道了关于对每种天气的感知增强的最先进技术。外部辅助解决方案如V2X技术,当前可用的数据集,模拟器和天气腔室的实验设施中的天气条件覆盖范围明显。通过指出各种主要天气问题,自主驾驶场目前正在面临,近年来审查硬件和计算机科学解决方案,这项调查概述了在不利的天气驾驶条件方面的障碍和方向的障碍和方向。
translated by 谷歌翻译
讨论了与科学,工程,建筑和人为因素相关的月球表面上的运输设施问题。未来十年制造的后勤决策可能对财务成功至关重要。除了概述一些问题及其与数学和计算的关系外,本文还为决策者,科学家和工程师提供了有用的资源。
translated by 谷歌翻译
Alphazero,Leela Chess Zero和Stockfish Nnue革新了计算机国际象棋。本书对此类引擎的技术内部工作进行了完整的介绍。该书分为四个主要章节 - 不包括第1章(简介)和第6章(结论):第2章引入神经网络,涵盖了所有用于构建深层网络的基本构建块,例如Alphazero使用的网络。内容包括感知器,后传播和梯度下降,分类,回归,多层感知器,矢量化技术,卷积网络,挤压网络,挤压和激发网络,完全连接的网络,批处理归一化和横向归一化和跨性线性单位,残留层,剩余层,过度效果和底漆。第3章介绍了用于国际象棋发动机以及Alphazero使用的经典搜索技术。内容包括minimax,alpha-beta搜索和蒙特卡洛树搜索。第4章展示了现代国际象棋发动机的设计。除了开创性的Alphago,Alphago Zero和Alphazero我们涵盖Leela Chess Zero,Fat Fritz,Fat Fritz 2以及有效更新的神经网络(NNUE)以及MAIA。第5章是关于实施微型α。 Shexapawn是国际象棋的简约版本,被用作为此的示例。 Minimax搜索可以解决六ap峰,并产生了监督学习的培训位置。然后,作为比较,实施了类似Alphazero的训练回路,其中通过自我游戏进行训练与强化学习结合在一起。最后,比较了类似α的培训和监督培训。
translated by 谷歌翻译
面部检测和识别是人工智能系统中最困难,经常使用的任务。这项研究的目的是介绍和比较系统中使用的几种面部检测和识别算法的结果。该系统始于人类的训练图像,然后继续进行测试图像,识别面部,将其与受过训练的面部进行比较,最后使用OPENCV分类器对其进行分类。这项研究将讨论系统中使用的最有效,最成功的策略,这些策略是使用Python,OpenCV和Matplotlib实施的。它也可以用于CCTV的位置,例如公共场所,购物中心和ATM摊位。
translated by 谷歌翻译
我们存在从单个图像预测材料,液体和物体的3D结构,掩模和物体的3D结构,掩模和物体的方法,而无需先验地了解图像源和相机参数。透明容器中的操纵材料在许多领域是必不可少的,并且依赖视力。这项工作提供了一种新的程序生成的数据集,由透明容器内的液体和固体物体的50k图像组成。图像注释包括3D模型,材料属性(颜色/透明度/粗糙度......)以及船舶的分段掩模及其内容。使用13K不同的物体,500种不同的环境(HDRI)和1450种材料纹理(PBR)与模拟液体和程序生成的容器组合的合成(CGI)部分。此外,我们还提供104个现实世界的物体图像,内部透明船只与船舶的深度图及其内容。我们提出了一种相机不可知论方法,其从图像中预测3D模型作为XYZ地图。这允许训练的网络将3D模型预测为每个像素的XYZ坐标的地图,而无需先验到图像源。为了计算训练损失,我们使用3D模型内的点对之间的距离而不是绝对XYZ坐标。这使得损失函数翻译不变。我们使用它来预测从单个图像预测血管的3D模型及其内容。最后,我们展示了一种使用单个图像来预测血管含量和表面的材料特性的网络。
translated by 谷歌翻译
由于需求受到各种原因的影响,因此有必要将解释变量分解为不同的层次,有效地提取其关系,并在预测中反映它们。特别是,这种上下文信息在需求预测中可能非常有用,并且需求波动或间歇性需求模式。卷积神经网络(CNN)已成功地用于图像中重要信息的许多领域。 CNN之所以强大,是因为它们接受样品作为图像,并使用相邻的体素集以整合多维重要信息并学习重要功能。另一方面,尽管需求重新销售模型已得到改进,但输入数据仍以其表格形式有限,不适合CNN建模。在这项研究中,我们提出了一个TAB2VOX神经体系结构搜索(NAS)模型,作为一种将高维表的SAM-PLA转换为形式良好的3D Voxel图像并将其用于3D CNN网络中的方法。对于每个图像代表句号,与现有的时间序列和使用表格数据以及最新图像转换研究的现有时间序列和机器学习技术相比,从TAB2VOX框架提出的3D CNN预测模型显示出Supe-Rior的性能。
translated by 谷歌翻译
自治机器人目前是最受欢迎的人工智能问题之一,在过去十年中,从自动驾驶汽车和人形系统到交付机器人和无人机,这是一项最受欢迎的智能问题。部分问题是获得一个机器人,以模仿人类的感知,我们的视觉感,用诸如神经网络等数学模型用相机和大脑的眼睛替换眼睛。开发一个能够在没有人为干预的情况下驾驶汽车的AI和一个小型机器人在城市中递送包裹可能看起来像不同的问题,因此来自感知和视觉的观点来看,这两个问题都有几种相似之处。我们目前的主要解决方案通过使用计算机视觉技术,机器学习和各种算法来实现对环境感知的关注,使机器人理解环境或场景,移动,调整其轨迹并执行其任务(维护,探索,等。)无需人为干预。在这项工作中,我们从头开始开发一个小型自动车辆,能够仅使用视觉信息理解场景,通过工业环境导航,检测人员和障碍,或执行简单的维护任务。我们审查了基本问题的最先进问题,并证明了小规模采用的许多方法类似于来自特斯拉或Lyft等公司的真正自动驾驶汽车中使用的方法。最后,我们讨论了当前的机器人和自主驾驶状态以及我们在这一领域找到的技术和道德限制。
translated by 谷歌翻译
紧固件在确保机械的各个部位方面起着至关重要的作用。紧固件表面的凹痕,裂缝和划痕等变形是由材料特性和生产过程中设备的错误处理引起的。结果,需要质量控制以确保安全可靠的操作。现有的缺陷检查方法依赖于手动检查,该检查消耗了大量时间,金钱和其他资源;同样,由于人为错误,无法保证准确性。自动缺陷检测系统已证明对缺陷分析的手动检查技术有影响。但是,诸如卷积神经网络(CNN)和基于深度学习的方法之类的计算技术是进化方法。通过仔细选择设计参数值,可以实现CNN的全部电势。使用基于Taguchi的实验和分析设计,已经尝试在本研究中开发强大的自动系统。用于训练系统的数据集是为具有两个标记类别的M14尺寸螺母手动创建的:有缺陷且无缺陷。数据集中共有264张图像。所提出的顺序CNN的验证精度为96.3%,在0.001学习率下的验证损失为0.277。
translated by 谷歌翻译
The cyber-physical convergence is opening up new business opportunities for industrial operators. The need for deep integration of the cyber and the physical worlds establishes a rich business agenda towards consolidating new system and network engineering approaches. This revolution would not be possible without the rich and heterogeneous sources of data, as well as the ability of their intelligent exploitation, mainly due to the fact that data will serve as a fundamental resource to promote Industry 4.0. One of the most fruitful research and practice areas emerging from this data-rich, cyber-physical, smart factory environment is the data-driven process monitoring field, which applies machine learning methodologies to enable predictive maintenance applications. In this paper, we examine popular time series forecasting techniques as well as supervised machine learning algorithms in the applied context of Industry 4.0, by transforming and preprocessing the historical industrial dataset of a packing machine's operational state recordings (real data coming from the production line of a manufacturing plant from the food and beverage domain). In our methodology, we use only a single signal concerning the machine's operational status to make our predictions, without considering other operational variables or fault and warning signals, hence its characterization as ``agnostic''. In this respect, the results demonstrate that the adopted methods achieve a quite promising performance on three targeted use cases.
translated by 谷歌翻译
海洋生态系统及其鱼类栖息地越来越重要,因为它们在提供有价值的食物来源和保护效果方面的重要作用。由于它们的偏僻且难以接近自然,因此通常使用水下摄像头对海洋环境和鱼类栖息地进行监测。这些相机产生了大量数字数据,这些数据无法通过当前的手动处理方法有效地分析,这些方法涉及人类观察者。 DL是一种尖端的AI技术,在分析视觉数据时表现出了前所未有的性能。尽管它应用于无数领域,但仍在探索其在水下鱼类栖息地监测中的使用。在本文中,我们提供了一个涵盖DL的关键概念的教程,该教程可帮助读者了解对DL的工作原理的高级理解。该教程还解释了一个逐步的程序,讲述了如何为诸如水下鱼类监测等挑战性应用开发DL算法。此外,我们还提供了针对鱼类栖息地监测的关键深度学习技术的全面调查,包括分类,计数,定位和细分。此外,我们对水下鱼类数据集进行了公开调查,并比较水下鱼类监测域中的各种DL技术。我们还讨论了鱼类栖息地加工深度学习的新兴领域的一些挑战和机遇。本文是为了作为希望掌握对DL的高级了解,通过遵循我们的分步教程而为其应用开发的海洋科学家的教程,并了解如何发展其研究,以促进他们的研究。努力。同时,它适用于希望调查基于DL的最先进方法的计算机科学家,以进行鱼类栖息地监测。
translated by 谷歌翻译
As of 2022, greenhouse gases (GHG) emissions reporting and auditing are not yet compulsory for all companies and methodologies of measurement and estimation are not unified. We propose a machine learning-based model to estimate scope 1 and scope 2 GHG emissions of companies not reporting them yet. Our model, specifically designed to be transparent and completely adapted to this use case, is able to estimate emissions for a large universe of companies. It shows good out-of-sample global performances as well as good out-of-sample granular performances when evaluating it by sectors, by countries or by revenues buckets. We also compare our results to those of other providers and find our estimates to be more accurate. Thanks to the proposed explainability tools using Shapley values, our model is fully interpretable, the user being able to understand which factors split explain the GHG emissions for each particular company.
translated by 谷歌翻译
Identity authentication is the process of verifying one's identity. There are several identity authentication methods, among which biometric authentication is of utmost importance. Facial recognition is a sort of biometric authentication with various applications, such as unlocking mobile phones and accessing bank accounts. However, presentation attacks pose the greatest threat to facial recognition. A presentation attack is an attempt to present a non-live face, such as a photo, video, mask, and makeup, to the camera. Presentation attack detection is a countermeasure that attempts to identify between a genuine user and a presentation attack. Several industries, such as financial services, healthcare, and education, use biometric authentication services on various devices. This illustrates the significance of presentation attack detection as the verification step. In this paper, we study state-of-the-art to cover the challenges and solutions related to presentation attack detection in a single place. We identify and classify different presentation attack types and identify the state-of-the-art methods that could be used to detect each of them. We compare the state-of-the-art literature regarding attack types, evaluation metrics, accuracy, and datasets and discuss research and industry challenges of presentation attack detection. Most presentation attack detection approaches rely on extensive data training and quality, making them difficult to implement. We introduce an efficient active presentation attack detection approach that overcomes weaknesses in the existing literature. The proposed approach does not require training data, is CPU-light, can process low-quality images, has been tested with users of various ages and is shown to be user-friendly and highly robust to 2-dimensional presentation attacks.
translated by 谷歌翻译
机器人武器广泛用于自动行业。但是,随着在机器人臂中深入学习的广泛应用,存在新的挑战,例如分配掌握计算能力和对安全性的需求不断增长。在这项工作中,我们提出了一种基于深度学习和边缘云协作的机器人手臂抓握方法。这种方法意识到了机器人组的任意掌握计划,并考虑了掌握效率和信息安全性。此外,由GAN训练的编码器和解码器使图像在压缩时可以加密,从而确保隐私的安全性。该模型在OCID数据集上达到92%的精度,图像压缩比达到0.03%,结构差值高于0.91。
translated by 谷歌翻译