以数据为中心的AI是AI社区的一个新的和令人兴奋的研究主题,但许多组织已经构建并维护了各种“以数据为中心的”应用程序,其目标是产生高质量数据。这些范围从传统的业务数据处理应用程序(例如,我们本月每个客户收费多少份数?“)向生产发动机等生产ML系统。近年来,数据和ML工程的领域是为了管理这些应用程序,而且都包括许多有趣的新颖工具和流程。在本文中,我们根据我们的体验数据和ML平台讨论了可能有趣的数据和ML工程,这些课程可以很有趣地应用于数据中心为中心的AI。
translated by 谷歌翻译
如今,由于最近在人工智能(AI)和机器学习(ML)中的近期突破,因此,智能系统和服务越来越受欢迎。然而,机器学习不仅满足软件工程,不仅具有有希望的潜力,而且还具有一些固有的挑战。尽管最近的一些研究努力,但我们仍然没有明确了解开发基于ML的申请和当前行业实践的挑战。此外,目前尚不清楚软件工程研究人员应将其努力集中起来,以更好地支持ML应用程序开发人员。在本文中,我们报告了一个旨在了解ML应用程序开发的挑战和最佳实践的调查。我们合成从80名从业者(以不同的技能,经验和应用领域)获得的结果为17个调查结果;概述ML应用程序开发的挑战和最佳实践。参与基于ML的软件系统发展的从业者可以利用总结最佳实践来提高其系统的质量。我们希望报告的挑战将通知研究界有关需要调查的主题,以改善工程过程和基于ML的申请的质量。
translated by 谷歌翻译
软件2.0是软件工程的根本班次,机器学习成为新软件,由大数据和计算基础设施供电。因此,需要重新考虑软件工程,其中数据成为与代码相提并论的一流公民。一个引人注目的观察是,80-90%的机器学习过程都花在数据准备上。没有良好的数据,即使是最好的机器学习算法也不能表现良好。结果,以数据为中心的AI实践现在成为主流。不幸的是,现实世界中的许多数据集是小,肮脏,偏见,甚至中毒。在本调查中,我们研究了数据收集和数据质量的研究景观,主要用于深度学习应用。数据收集很重要,因为对于最近的深度学习方法,功能工程较小,而且需要大量数据。对于数据质量,我们研究数据验证和数据清洁技术。即使数据无法完全清洁,我们仍然可以应对模型培训期间的不完美数据,其中使用鲁棒模型培训技术。此外,虽然在传统数据管理研究中较少研究偏见和公平性,但这些问题成为现代机器学习应用中的重要主题。因此,我们研究了可以在模型培训之前,期间或之后应用的公平措施和不公平的缓解技术。我们相信数据管理界很好地解决了这些方向上的问题。
translated by 谷歌翻译
机器学习(ML)系统的开发和部署可以用现代工具轻松执行,但该过程通常是匆忙和意思是结束的。缺乏勤奋会导致技术债务,范围蠕变和未对准的目标,模型滥用和失败,以及昂贵的后果。另一方面,工程系统遵循明确定义的流程和测试标准,以简化高质量,可靠的结果的开发。极端是航天器系统,其中关键任务措施和鲁棒性在开发过程中根深蒂固。借鉴航天器工程和ML的经验(通过域名通过产品的研究),我们开发了一种经过验证的机器学习开发和部署的系统工程方法。我们的“机器学习技术准备水平”(MLTRL)框架定义了一个原则的过程,以确保强大,可靠和负责的系统,同时为ML工作流程流线型,包括来自传统软件工程的关键区别。 MLTRL甚至更多,MLTRL为跨团队和组织的人们定义了一个人工智能和机器学习技术的人员。在这里,我们描述了通过生产化和部署在医学诊断,消费者计算机视觉,卫星图像和粒子物理学等领域,以通过生产和部署在基本研究中开发ML方法的几个现实世界使用情况的框架和阐明。
translated by 谷歌翻译
尽管与专家标签相比,众包平台通常用于收集用于培训机器学习模型的数据集,尽管标签不正确。有两种常见的策略来管理这种噪音的影响。第一个涉及汇总冗余注释,但以较少的例子为代价。其次,先前的作品还考虑使用整个注释预算来标记尽可能多的示例,然后应用Denoising算法来隐式清洁数据集。我们找到了一个中间立场,并提出了一种方法,该方法保留了一小部分注释,以明确清理高度可能的错误样本以优化注释过程。特别是,我们分配了标签预算的很大一部分,以形成用于训练模型的初始数据集。然后,该模型用于确定最有可能是不正确的特定示例,我们将剩余预算用于重新标记。在三个模型变化和四个自然语言处理任务上进行的实验表明,当分配相同的有限注释预算时,旨在处理嘈杂标签的标签聚合和高级denoising方法均优于标签聚合或匹配。
translated by 谷歌翻译
基于机器学习(ML)的系统的制作需要在其生命周期中进行统计控制。仔细量化业务需求和识别影响业务需求的关键因素降低了项目故障的风险。业务需求的量化导致随机变量的定义,表示通过统计实验需要分析的系统关键性能指标。此外,可提供的培训和实验结果产生影响系统的设计。开发系统后,测试并不断监控,以确保其符合其业务需求。这是通过持续应用统计实验来分析和控制关键绩效指标来完成的。本书教授制作和开发基于ML的系统的艺术。它倡导“首先”方法,强调从项目生命周期开始定义统计实验的需要。它还详细讨论了如何在整个生命周期中对基于ML的系统进行统计控制。
translated by 谷歌翻译
以数据为中心的AI最近被证明更有效和高性能,而传统的以模式为中心的AI提供更少且更少的福利。它强调提高数据集的质量,以实现更好的模型性能。由于其巨大的实用性和越来越多,这一领域具有重要潜力。然而,我们在这一领域没有看到显着的研究进展,特别是在NLP中。我们提出DatacLue,它是第一个在NLP字段中应用的数据中心基准。我们还提供三个简单但有效的基线,以促进该领域的研究(改善宏F1高达5.7%的点)。此外,我们与人类注释者进行全面的实验,并显示了Dataclue的硬度。我们还尝试高级方法:忘记通知的引导标签校正方法。与Datacleue相关的所有资源,包括DataSet,Toolkit,排行榜和Baselines,可在Https://github.com/cluebenchmark/dataclue在线提供
translated by 谷歌翻译
在过去的十年中,计算机愿景,旨在了解视觉世界的人工智能分支,从简单地识别图像中的物体来描述图片,回答有关图像的问题,以及围绕物理空间的机器人操纵甚至产生新的视觉内容。随着这些任务和应用程序的现代化,因此依赖更多数据,用于模型培训或评估。在本章中,我们展示了新颖的互动策略可以为计算机愿景提供新的数据收集和评估。首先,我们提出了一种众群界面,以通过数量级加速付费数据收集,喂养现代视觉模型的数据饥饿性质。其次,我们探索使用自动社交干预措施增加志愿者贡献的方法。第三,我们开发一个系统,以确保人类对生成视觉模型的评估是可靠的,实惠和接地在心理物理学理论中。我们结束了人机互动的未来机会,以帮助计算机愿景。
translated by 谷歌翻译
随着AI系统表现出越来越强烈的预测性能,它们的采用已经在许多域中种植。然而,在刑事司法和医疗保健等高赌场域中,由于安全,道德和法律问题,往往是完全自动化的,但是完全手工方法可能是不准确和耗时的。因此,对研究界的兴趣日益增长,以增加人力决策。除了为此目的开发AI技术之外,人民AI决策的新兴领域必须采用实证方法,以形成对人类如何互动和与AI合作做出决定的基础知识。为了邀请和帮助结构研究努力了解理解和改善人为 - AI决策的研究,我们近期对本课题的实证人体研究的文献。我们总结了在三个重要方面的100多篇论文中的研究设计选择:(1)决定任务,(2)AI模型和AI援助要素,以及(3)评估指标。对于每个方面,我们总结了当前的趋势,讨论了现场当前做法中的差距,并列出了未来研究的建议。我们的调查强调了开发共同框架的需要考虑人类 - AI决策的设计和研究空间,因此研究人员可以在研究设计中进行严格的选择,研究界可以互相构建并产生更广泛的科学知识。我们还希望这项调查将成为HCI和AI社区的桥梁,共同努力,相互塑造人类决策的经验科学和计算技术。
translated by 谷歌翻译
随着机器学习(ML)模型和系统在不同行业的高赌注环境中的增加,保证了部署后的模型的性能变得至关重要。生产中的监测模型是确保其持续性能和可靠性的关键方面。我们展示了Amazon Sagemaker Model Monitor,这是一个完全托管的服务,不断监控亚马逊Sagemaker上托管的机器学习模型的质量。我们的系统实时地自动检测模型中的数据,概念,偏置和特征归因漂移,并提供警报,以便模型所有者可以采取纠正措施,从而保持高质量模型。我们描述了从客户,系统设计和架构获得的关键要求以及用于检测不同类型漂移的方法。此外,我们提供量化评估,然后使用案例,见解和从超过1.5年的生产部署中汲取的经验教训。
translated by 谷歌翻译
随着全球人口越来越多的人口驱动世界各地的快速城市化,有很大的需要蓄意审议值得生活的未来。特别是,随着现代智能城市拥抱越来越多的数据驱动的人工智能服务,值得记住技术可以促进繁荣,福祉,城市居住能力或社会正义,而是只有当它具有正确的模拟补充时(例如竭尽全力,成熟机构,负责任治理);这些智能城市的最终目标是促进和提高人类福利和社会繁荣。研究人员表明,各种技术商业模式和特征实际上可以有助于极端主义,极化,错误信息和互联网成瘾等社会问题。鉴于这些观察,解决了确保了诸如未来城市技术基岩的安全,安全和可解释性的哲学和道德问题,以为未来城市的技术基岩具有至关重要的。在全球范围内,有能够更加人性化和以人为本的技术。在本文中,我们分析和探索了在人以人为本的应用中成功部署AI的安全,鲁棒性,可解释性和道德(数据和算法)挑战的关键挑战,特别强调这些概念/挑战的融合。我们对这些关键挑战提供了对现有文献的详细审查,并分析了这些挑战中的一个可能导致他人的挑战方式或帮助解决其他挑战。本文还建议了这些域的当前限制,陷阱和未来研究方向,以及如何填补当前的空白并导致更好的解决方案。我们认为,这种严谨的分析将为域名的未来研究提供基准。
translated by 谷歌翻译
机器学习(ML)不仅仅是培训模型,必须考虑整个工作流程。部署一旦部署,需要观察ML模型,并不断监督和调试,以确保其有效性和稳健性在意外情况下。在ML中调试旨在识别(和地址)模型弱点而不是微不足道的背景。已经提出了几种技术来识别不同类型的模型弱点,例如分类,模型衰减,对抗攻击等偏差,但没有允许它们以协作,模块化,便携式的迭代方式工作的通用框架更重要的是,足够灵活,以允许人类和机器驱动的技术。在本文中,我们提出了一种新颖的集装箱定向图框架,以支持和加速端到端ML工作流管理,监督和调试。该框架允许在容器中定义和部署ML工作流程,跟踪它们的元数据,检查其在生产中的行为,并通过使用学习和人类提供的知识来改进模型。我们通过在框架中集成在两个混合系统中来检测数据漂移分布来展示这些功能,以检测识别远离原始分布的潜在空间的样本,询问人为干预,以及是否用滤波器重新编制模型或将其包裹出来在推理时间下取消损坏数据的噪声。我们在MNIST-C,CIFAR-10-C和FashionMnist-C数据集上测试这些系统,从人类参与的帮助下获得有希望的准确性结果。
translated by 谷歌翻译
人工智能(AI)治理调节行使权威和控制AI的管理。它旨在通过有效利用数据并最大程度地减少与AI相关的成本和风险来利用AI。尽管AI治理和AI伦理等主题在理论,哲学,社会和监管层面上进行了详尽的讨论,但针对公司和公司的AI治理工作有限。这项工作将AI产品视为系统,在该系统中,通过机器学习(ML)模型(培训)数据传递关键功能。我们通过在AI和相关领域(例如ML)合成文献来得出一个概念框架。我们的框架将AI治理分解为数据的治理,(ML)模型和(AI)系统沿着四个维度。它与现有的IT和数据治理框架和实践有关。它可以由从业者和学者都采用。对于从业者来说,主要是研究论文的综合,但从业者的出版物和监管机构的出版物也为实施AI治理提供了宝贵的起点,而对于学者来说,该论文强调了许多AI治理领域,值得更多关注。
translated by 谷歌翻译
机器学习(ML)代表了当前和未来信息系统的关键技术,许多域已经利用了ML的功能。但是,网络安全中ML的部署仍处于早期阶段,揭示了研究和实践之间的显着差异。这种差异在当前的最新目的中具有其根本原因,该原因不允许识别ML在网络安全中的作用。除非广泛的受众理解其利弊,否则ML的全部潜力将永远不会释放。本文是对ML在整个网络安全领域中的作用的首次尝试 - 对任何对此主题感兴趣的潜在读者。我们强调了ML在人类驱动的检测方法方面的优势,以及ML在网络安全方面可以解决的其他任务。此外,我们阐明了影响网络安全部署实际ML部署的各种固有问题。最后,我们介绍了各种利益相关者如何为网络安全中ML的未来发展做出贡献,这对于该领域的进一步进步至关重要。我们的贡献补充了两项实际案例研究,这些案例研究描述了ML作为对网络威胁的辩护的工业应用。
translated by 谷歌翻译
我们在最常用的计算机视觉,自然语言和音频数据集中的10个测试集中识别标签错误,随后研究这些标签错误的可能性影响基准结果。测试集中的错误是众多和广泛的:我们估计10个数据集的至少3.3%的误差,例如标签错误包括至少6%的想象验证集。使用自信的学习算法识别推定的标签错误,然后通过众包(51%的算法上标记的候选者的51%确实错误地标记了数据集)。传统上,机器学习从业者选择基于测试准确性部署哪种模型 - 我们的调查结果在此提出谨慎行事,提出在正确标记的测试集上判断模型可能更有用,特别是对于嘈杂的现实世界数据集。令人惊讶的是,我们发现较低的容量模型可能与现实世界数据集中的更高容量模型几乎更有用,具有高比例的错误标记数据。例如,在具有校正标签的ImageNet上:Reset-18优于Reset-50,如果最初错误标记的测试示例的普及仅增加6%。在具有校正标签的CiFar-10上:VGG-11优于VGG-19,如果最初错误标记的测试示例的患病率达到5%。在HTTPS://labelerrors.com上查看10个数据集中的测试集错误,HTTPS://github.com/cleanlab/labelors可以再现所有标签错误。
translated by 谷歌翻译
理解和解释训练有素的模型对许多机器学习目标至关重要,例如改善鲁棒性,解决概念漂移和减轻偏见。但是,这通常是一个临时过程,涉及手动查看许多测试样本上的模型的错误,并猜测这些错误的预测的根本原因。在本文中,我们提出了一种系统的方法,概念性的反事实解释(CCE),解释了为什么分类器在人类理解的概念方面在特定的测试样本上犯了一个错误(例如,此斑马被错误地分类为狗,因为因为是因为是因为是狗的。微弱的条纹)。我们基于两个先前的想法:反事实解释和概念激活向量,并在众所周知的预读模型上验证我们的方法,表明它有意义地解释了模型的错误。此外,对于接受具有虚假相关性数据的数据训练的新模型,CCE准确地将虚假相关性确定为单个错误分类测试样本中模型错误的原因。在两个具有挑战性的医学应用程序中,CCE产生了有用的见解,并由临床医生确认,涉及该模型在现实世界中犯的偏见和错误。
translated by 谷歌翻译
主动学习(AL)算法旨在识别注释的最佳数据子集,使得深神经网络(DNN)在此标记子集上培训时可以实现更好的性能。 AL特别有影响的工业规模设置,其中数据标签成本高,从业者使用各种工具来处理,以提高模型性能。最近自我监督预测(SSP)的成功突出了利用丰富的未标记数据促进模型性能的重要性。通过将AL与SSP结合起来,我们可以使用未标记的数据,同时标记和培训特别是信息样本。在这项工作中,我们研究了Imagenet上的AL和SSP的组合。我们发现小型玩具数据集上的性能 - 文献中的典型基准设置 - 由于活动学习者选择的类不平衡样本,而不是想象中的性能。在我们测试的现有基线中,各种小型和大规​​模设置的流行AL算法未能以随机抽样优于差异。为了解决类别不平衡问题,我们提出了平衡选择(基础),这是一种简单,可伸缩的AL算法,通过选择比现有方法更加平衡样本来始终如一地始终采样。我们的代码可用于:https://github.com/zeyademam/active_learning。
translated by 谷歌翻译
数据质量的系统量化对于一致的模型性能至关重要。先前的工作集中在分发数据上。取而代之的是,我们解决了一个研究了一个研究的且同样重要的问题,即表征不协调的区域(ID)数据,这可能是由特征空间异质性引起的。为此,我们提出了使用数据套件的范式转移:一个以数据为中心的AI框架来识别这些区域,而与特定于任务的模型无关。数据套件利用Copula建模,表示学习和共形预测,以基于一组培训实例来构建功能置信区间估计器。这些估计器可用于评估有关培训集的测试实例的一致性,以回答两个实际有用的问题:(1)通过培训培训实例培训的模型可以可靠地预测哪些测试实例? (2)我们可以确定功能空间的不协调区域,以便数据所有者了解数据的局限性还是指导未来数据收集?我们从经验上验证了数据套件的性能和覆盖范围保证,并在跨站点的医疗数据,有偏见的数据以及具有概念漂移的数据上证明,数据套件最能确定下游模型可能是可靠的ID区域(与所述模型无关)。我们还说明了这些确定的区域如何为数据集提供见解并突出其局限性。
translated by 谷歌翻译
主动学习(al)试图通过标记最少的样本来最大限度地提高模型的性能增益。深度学习(DL)是贪婪的数据,需要大量的数据电源来优化大量参数,因此模型了解如何提取高质量功能。近年来,由于互联网技术的快速发展,我们处于信息种类的时代,我们有大量的数据。通过这种方式,DL引起了研究人员的强烈兴趣,并已迅速发展。与DL相比,研究人员对Al的兴趣相对较低。这主要是因为在DL的崛起之前,传统的机器学习需要相对较少的标记样品。因此,早期的Al很难反映其应得的价值。虽然DL在各个领域取得了突破,但大多数这一成功都是由于大量现有注释数据集的宣传。然而,收购大量高质量的注释数据集消耗了很多人力,这在某些领域不允许在需要高专业知识,特别是在语音识别,信息提取,医学图像等领域中, al逐渐受到适当的关注。自然理念是AL是否可用于降低样本注释的成本,同时保留DL的强大学习能力。因此,已经出现了深度主动学习(DAL)。虽然相关的研究非常丰富,但它缺乏对DAL的综合调查。本文要填补这一差距,我们为现有工作提供了正式的分类方法,以及全面和系统的概述。此外,我们还通过申请的角度分析并总结了DAL的发展。最后,我们讨论了DAL中的混乱和问题,为DAL提供了一些可能的发展方向。
translated by 谷歌翻译
背景信息:在过去几年中,机器学习(ML)一直是许多创新的核心。然而,包括在所谓的“安全关键”系统中,例如汽车或航空的系统已经被证明是非常具有挑战性的,因为ML的范式转变为ML带来完全改变传统认证方法。目的:本文旨在阐明与ML为基础的安全关键系统认证有关的挑战,以及文献中提出的解决方案,以解决它们,回答问题的问题如何证明基于机器学习的安全关键系统?'方法:我们开展2015年至2020年至2020年之间发布的研究论文的系统文献综述(SLR),涵盖了与ML系统认证有关的主题。总共确定了217篇论文涵盖了主题,被认为是ML认证的主要支柱:鲁棒性,不确定性,解释性,验证,安全强化学习和直接认证。我们分析了每个子场的主要趋势和问题,并提取了提取的论文的总结。结果:单反结果突出了社区对该主题的热情,以及在数据集和模型类型方面缺乏多样性。它还强调需要进一步发展学术界和行业之间的联系,以加深域名研究。最后,它还说明了必须在上面提到的主要支柱之间建立连接的必要性,这些主要柱主要主要研究。结论:我们强调了目前部署的努力,以实现ML基于ML的软件系统,并讨论了一些未来的研究方向。
translated by 谷歌翻译