我们提出了一种新的抽样策略,称为Smart Active Sapling,以在生产线之外进行质量检查。根据主动学习的原则,机器学习模型决定将哪些样品发送到质量检查。一方面,由于较早发现质量违规行为,这可以最大程度地减少废料零件的产生。另一方面,质量检查成本降低了,以进行平稳运行。
translated by 谷歌翻译
机器学习(ML)为生物处理工程的发展做出了重大贡献,但其应用仍然有限,阻碍了生物过程自动化的巨大潜力。用于模型构建自动化的ML可以看作是引入另一种抽象水平的一种方式,将专家的人类集中在生物过程开发的最认知任务中。首先,概率编程用于预测模型的自动构建。其次,机器学习会通过计划实验来测试假设并进行调查以收集信息性数据来自动评估替代决策,以收集基于模型预测不确定性的模型选择的信息数据。这篇评论提供了有关生物处理开发中基于ML的自动化的全面概述。一方面,生物技术和生物工程社区应意识到现有ML解决方案在生物技术和生物制药中的应用的限制。另一方面,必须确定缺失的链接,以使ML和人工智能(AI)解决方案轻松实施在有价值的生物社区解决方案中。我们总结了几个重要的生物处理系统的ML实施,并提出了两个至关重要的挑战,这些挑战仍然是生物技术自动化的瓶颈,并减少了生物技术开发的不确定性。没有一个合适的程序;但是,这项综述应有助于确定结合生物技术和ML领域的潜在自动化。
translated by 谷歌翻译
Recent developments in in-situ monitoring and process control in Additive Manufacturing (AM), also known as 3D-printing, allows the collection of large amounts of emission data during the build process of the parts being manufactured. This data can be used as input into 3D and 2D representations of the 3D-printed parts. However the analysis and use, as well as the characterization of this data still remains a manual process. The aim of this paper is to propose an adaptive human-in-the-loop approach using Machine Learning techniques that automatically inspect and annotate the emissions data generated during the AM process. More specifically, this paper will look at two scenarios: firstly, using convolutional neural networks (CNNs) to automatically inspect and classify emission data collected by in-situ monitoring and secondly, applying Active Learning techniques to the developed classification model to construct a human-in-the-loop mechanism in order to accelerate the labeling process of the emission data. The CNN-based approach relies on transfer learning and fine-tuning, which makes the approach applicable to other industrial image patterns. The adaptive nature of the approach is enabled by uncertainty sampling strategy to automatic selection of samples to be presented to human experts for annotation.
translated by 谷歌翻译
As an important data selection schema, active learning emerges as the essential component when iterating an Artificial Intelligence (AI) model. It becomes even more critical given the dominance of deep neural network based models, which are composed of a large number of parameters and data hungry, in application. Despite its indispensable role for developing AI models, research on active learning is not as intensive as other research directions. In this paper, we present a review of active learning through deep active learning approaches from the following perspectives: 1) technical advancements in active learning, 2) applications of active learning in computer vision, 3) industrial systems leveraging or with potential to leverage active learning for data iteration, 4) current limitations and future research directions. We expect this paper to clarify the significance of active learning in a modern AI model manufacturing process and to bring additional research attention to active learning. By addressing data automation challenges and coping with automated machine learning systems, active learning will facilitate democratization of AI technologies by boosting model production at scale.
translated by 谷歌翻译
质量控制是制造业企业进行的至关重要的活动,以确保其产品符合质量标准并避免对品牌声誉的潜在损害。传感器成本下降和连接性使制造业数字化增加。此外,人工智能可实现更高的自动化程度,减少缺陷检查所需的总体成本和时间。这项研究将三种活跃的学习方法(与单一和多个牙齿)与视觉检查进行了比较。我们提出了一种新颖的方法,用于对分类模型的概率校准和两个新的指标,以评估校准的性能而无需地面真相。我们对飞利浦消费者生活方式BV提供的现实数据进行了实验。我们的结果表明,考虑到p = 0.95的阈值,探索的主动学习设置可以将数据标签的工作减少3%至4%,而不会损害总体质量目标。此外,我们表明所提出的指标成功捕获了相关信息,否则仅通过地面真实数据最适合使用的指标可用。因此,所提出的指标可用于估计模型概率校准的质量,而无需进行标签努力以获取地面真相数据。
translated by 谷歌翻译
机器学习(ML)系统的开发和部署可以用现代工具轻松执行,但该过程通常是匆忙和意思是结束的。缺乏勤奋会导致技术债务,范围蠕变和未对准的目标,模型滥用和失败,以及昂贵的后果。另一方面,工程系统遵循明确定义的流程和测试标准,以简化高质量,可靠的结果的开发。极端是航天器系统,其中关键任务措施和鲁棒性在开发过程中根深蒂固。借鉴航天器工程和ML的经验(通过域名通过产品的研究),我们开发了一种经过验证的机器学习开发和部署的系统工程方法。我们的“机器学习技术准备水平”(MLTRL)框架定义了一个原则的过程,以确保强大,可靠和负责的系统,同时为ML工作流程流线型,包括来自传统软件工程的关键区别。 MLTRL甚至更多,MLTRL为跨团队和组织的人们定义了一个人工智能和机器学习技术的人员。在这里,我们描述了通过生产化和部署在医学诊断,消费者计算机视觉,卫星图像和粒子物理学等领域,以通过生产和部署在基本研究中开发ML方法的几个现实世界使用情况的框架和阐明。
translated by 谷歌翻译
机器学习(ML)代表了当前和未来信息系统的关键技术,许多域已经利用了ML的功能。但是,网络安全中ML的部署仍处于早期阶段,揭示了研究和实践之间的显着差异。这种差异在当前的最新目的中具有其根本原因,该原因不允许识别ML在网络安全中的作用。除非广泛的受众理解其利弊,否则ML的全部潜力将永远不会释放。本文是对ML在整个网络安全领域中的作用的首次尝试 - 对任何对此主题感兴趣的潜在读者。我们强调了ML在人类驱动的检测方法方面的优势,以及ML在网络安全方面可以解决的其他任务。此外,我们阐明了影响网络安全部署实际ML部署的各种固有问题。最后,我们介绍了各种利益相关者如何为网络安全中ML的未来发展做出贡献,这对于该领域的进一步进步至关重要。我们的贡献补充了两项实际案例研究,这些案例研究描述了ML作为对网络威胁的辩护的工业应用。
translated by 谷歌翻译
质量控制是制造公司进行的关键活动,以验证产品一致性的要求和规范。标准化质量控制可确保所有产品在相同的标准下进行评估。传感器和连接成本降低,使得制造的数字化增加,提供了更大的数据可用性。这些数据可用性促使人工智能模型的开发,允许在检查产品时更高的自动化程度和减少偏差。此外,增加的检查速度降低了缺陷检查所需的总成本和时间。在这项研究中,我们比较五个流式机器学习算法,应用于利用飞利浦消费者生活方式BV提供的真实数据的视觉缺陷检查。此外,我们将它们与流在流动的主动学习背景中进行比较,这减少了真实环境中的数据标签工作。我们的研究结果表明,对于最坏情况,主动学习将数据标签努力降低了近15%,同时保持可接受的分类性能。使用机器学习模型进行自动化视野预计将加快高达40%的质量检验。
translated by 谷歌翻译
如今,跨行业的挑战包括减少温室气体排放和实现循环经济。但是,废纸生产纸仍然是一项高度资源密集的任务,尤其是在能源消耗方面。虽然纸机产生了大量数据,但我们已经确定了缺乏利用率,并使用操作员辅助系统和最先进的机器学习技术实施了一个概念,例如分类,预测和警报洪水处理算法,支持日常操作员任务。我们的主要目的是为使用可用数据的机器运营商提供特定情况知识。我们预计这将导致更好的调整参数,因此造纸机的足迹较低。
translated by 谷歌翻译
自动数据收集方案的扩散和传感器的进步正在增加我们能够实时监控的数据量。但是,鉴于高注册成本和质量检查所需的时间,数据通常以未标记的形式获得。这正在促进使用主动学习来开发软传感器和预测模型。在生产中,通过评估未标记数据的信息内容来收集标签,而不是进行随机检查以获取产品信息。文献中已经提出了一些有关回归的查询策略框架,但大多数重点都专门用于基于静态池的场景。在这项工作中,我们为基于流的方案提出了一种新的策略,在该方案中,将实例顺序提供给学习者,该实例必须立即决定是否执行质量检查以获取标签或丢弃实例。该方法受到最佳实验设计理论的启发,决策过程的迭代方面是通过对未标记数据点的信息设定阈值来解决的。使用数值模拟和田纳西州伊士曼工艺模拟器评估所提出的方法。结果证实,选择提出的算法建议的示例可以更快地减少预测误差。
translated by 谷歌翻译
如今,由于最近在人工智能(AI)和机器学习(ML)中的近期突破,因此,智能系统和服务越来越受欢迎。然而,机器学习不仅满足软件工程,不仅具有有希望的潜力,而且还具有一些固有的挑战。尽管最近的一些研究努力,但我们仍然没有明确了解开发基于ML的申请和当前行业实践的挑战。此外,目前尚不清楚软件工程研究人员应将其努力集中起来,以更好地支持ML应用程序开发人员。在本文中,我们报告了一个旨在了解ML应用程序开发的挑战和最佳实践的调查。我们合成从80名从业者(以不同的技能,经验和应用领域)获得的结果为17个调查结果;概述ML应用程序开发的挑战和最佳实践。参与基于ML的软件系统发展的从业者可以利用总结最佳实践来提高其系统的质量。我们希望报告的挑战将通知研究界有关需要调查的主题,以改善工程过程和基于ML的申请的质量。
translated by 谷歌翻译
本文解决了在水模型部署民主化中采用了机器学习的一些挑战。第一个挑战是减少了在主动学习的帮助下减少了标签努力(因此关注数据质量),模型推断与Oracle之间的反馈循环:如在保险中,未标记的数据通常丰富,主动学习可能会成为一个重要的资产减少标签成本。为此目的,本文在研究其对合成和真实数据集的实证影响之前,阐述了各种古典主动学习方法。保险中的另一个关键挑战是模型推论中的公平问题。我们将在此主动学习框架中介绍和整合一个用于多级任务的后处理公平,以解决这两个问题。最后对不公平数据集的数值实验突出显示所提出的设置在模型精度和公平性之间存在良好的折衷。
translated by 谷歌翻译
通过整合人类的知识和经验,人在循环旨在以最低成本培训准确的预测模型。人类可以为机器学习应用提供培训数据,并直接完成在基于机器的方法中对管道中计算机中的难以实现的任务。在本文中,我们从数据的角度调查了人类循环的现有工作,并将它们分为三类具有渐进关系:(1)从数据处理中提高模型性能的工作,(2)通过介入模型培训提高模型性能,(3)系统的设计独立于循环的设计。使用上述分类,我们总结了该领域的主要方法;随着他们的技术优势/弱点以及自然语言处理,计算机愿景等的简单分类和讨论。此外,我们提供了一些开放的挑战和机遇。本调查打算为人类循环提供高级别的摘要,并激励有兴趣的读者,以考虑设计有效的循环解决方案的方法。
translated by 谷歌翻译
Concept drift primarily refers to an online supervised learning scenario when the relation between the input data and the target variable changes over time. Assuming a general knowledge of supervised learning in this paper we characterize adaptive learning process, categorize existing strategies for handling concept drift, overview the most representative, distinct and popular techniques and algorithms, discuss evaluation methodology of adaptive algorithms, and present a set of illustrative applications. The survey covers the different facets of concept drift in an integrated way to reflect on the existing scattered state-of-the-art. Thus, it aims at providing a comprehensive introduction to the concept drift adaptation for researchers, industry analysts and practitioners.
translated by 谷歌翻译
挖掘数据流姿势存在许多挑战,包括数据的连续和非静止性质,待处理的大量信息和限制计算资源。虽然在文献中提出了一些针对这个问题的监督解决方案,但大多数人都假定访问地面真理(以类标签的形式)是无限的,并且在更新学习系统时可以立即使用此类信息。这远非现实,因为必须考虑获取标签的基本成本。因此,需要解决流方案中实际真相要求的解决方案。在本文中,通过组合来自主动学习和自我标签的信息,提出了一种用于预算的挖水数据流的新框架。我们介绍了几种策略,可以利用智能实例选择和半监督程序,同时考虑到概念漂移的潜在存在。这种混合方法允许有效的探索和利用在现实标记预算中的流数据结构。由于我们的框架工作为包装器,因此它可以应用于不同的学习算法。实验研究,在具有各种类型的概念漂移的多样化现实数据流中进行的实验研究,证明了在处理对类标签的高度限制时拟议的策略的有用性。当一个人不能增加标签或更换低效分类器的预算时,呈现的混合方法尤其可行。我们为我们的战略提供了一套关于适用性领域的建议。
translated by 谷歌翻译
我们提出了一种整体方法,用于构建一个可实现的自然语言分类系统,以实现现实世界中的内容适度。这样一个系统的成功依赖于一系列精心设计和执行的步骤,包括内容分类法和标签说明的设计,数据质量控制,主动学习管道以捕获罕见事件以及使模型可靠的各种方法并避免过度拟合。我们的审核系统经过培训,可以检测一系列不希望的内容,包括性内容,可恨的内容,暴力,自我伤害和骚扰。这种方法概括为各种不同的内容分类法,可用于创建优于现成模型的高质量内容分类器。
translated by 谷歌翻译
在过去的十年中,数字双胞胎的概念在受欢迎程度上爆发了,但围绕其多个定义,其新颖性作为新技术的新颖性以及其实际适用性仍然存在,尽管进行了许多评论,调查和新闻稿,但其实际适用性仍然存在。探索了数字双胞胎一词的历史,以及其在产品生命周期管理,资产维护和设备车队管理,运营和计划领域的初始背景。还基于七个基本要素提供了一个最小可行的框架来利用数字双胞胎的定义。还概述了采用DT方法的DT应用程序和行业的简短旅行。预测维护领域突出了数字双胞胎框架的应用,并使用基于机器学习和基于物理的建模的扩展。采用机器学习和基于物理的建模的组合形成混合数字双胞胎框架,可以协同减轻隔离使用时每种方法的缺点。还讨论了实践实施数字双胞胎模型的关键挑战。随着数字双技术的快速增长及其成熟,预计将实现实质性增强工具和解决方案的巨大希望,以实现智能设备的智能维护。
translated by 谷歌翻译
主动学习(al)试图通过标记最少的样本来最大限度地提高模型的性能增益。深度学习(DL)是贪婪的数据,需要大量的数据电源来优化大量参数,因此模型了解如何提取高质量功能。近年来,由于互联网技术的快速发展,我们处于信息种类的时代,我们有大量的数据。通过这种方式,DL引起了研究人员的强烈兴趣,并已迅速发展。与DL相比,研究人员对Al的兴趣相对较低。这主要是因为在DL的崛起之前,传统的机器学习需要相对较少的标记样品。因此,早期的Al很难反映其应得的价值。虽然DL在各个领域取得了突破,但大多数这一成功都是由于大量现有注释数据集的宣传。然而,收购大量高质量的注释数据集消耗了很多人力,这在某些领域不允许在需要高专业知识,特别是在语音识别,信息提取,医学图像等领域中, al逐渐受到适当的关注。自然理念是AL是否可用于降低样本注释的成本,同时保留DL的强大学习能力。因此,已经出现了深度主动学习(DAL)。虽然相关的研究非常丰富,但它缺乏对DAL的综合调查。本文要填补这一差距,我们为现有工作提供了正式的分类方法,以及全面和系统的概述。此外,我们还通过申请的角度分析并总结了DAL的发展。最后,我们讨论了DAL中的混乱和问题,为DAL提供了一些可能的发展方向。
translated by 谷歌翻译
非侵入性负载监控(NILM)是将总功率消耗分为单个子组件的任务。多年来,已经合并了信号处理和机器学习算法以实现这一目标。关于最先进的方法,进行了许多出版物和广泛的研究工作,以涉及最先进的方法。科学界最初使用机器学习工具的尼尔姆问题制定和描述的最初兴趣已经转变为更实用的尼尔姆。如今,我们正处于成熟的尼尔姆时期,在现实生活中的应用程序方案中尝试使用尼尔姆。因此,算法的复杂性,可转移性,可靠性,实用性和普遍的信任度是主要的关注问题。这篇评论缩小了早期未成熟的尼尔姆时代与成熟的差距。特别是,本文仅对住宅电器的尼尔姆方法提供了全面的文献综述。本文分析,总结并介绍了大量最近发表的学术文章的结果。此外,本文讨论了这些方法的亮点,并介绍了研究人员应考虑的研究困境,以应用尼尔姆方法。最后,我们表明需要将传统分类模型转移到一个实用且值得信赖的框架中。
translated by 谷歌翻译
Time-series anomaly detection is an important task and has been widely applied in the industry. Since manual data annotation is expensive and inefficient, most applications adopt unsupervised anomaly detection methods, but the results are usually sub-optimal and unsatisfactory to end customers. Weak supervision is a promising paradigm for obtaining considerable labels in a low-cost way, which enables the customers to label data by writing heuristic rules rather than annotating each instance individually. However, in the time-series domain, it is hard for people to write reasonable labeling functions as the time-series data is numerically continuous and difficult to be understood. In this paper, we propose a Label-Efficient Interactive Time-Series Anomaly Detection (LEIAD) system, which enables a user to improve the results of unsupervised anomaly detection by performing only a small amount of interactions with the system. To achieve this goal, the system integrates weak supervision and active learning collaboratively while generating labeling functions automatically using only a few labeled data. All of these techniques are complementary and can promote each other in a reinforced manner. We conduct experiments on three time-series anomaly detection datasets, demonstrating that the proposed system is superior to existing solutions in both weak supervision and active learning areas. Also, the system has been tested in a real scenario in industry to show its practicality.
translated by 谷歌翻译