如今,由机器学习算法驱动的人工智能系统可以对我们的日常生活做出重要的,有时甚至具有法律约束力的决定。但是,在许多情况下,这些系统及其行动既不受到监管也不经过认证。为了应对这种算法可能导致的潜在危害,我们开发了一个开源工具箱,该工具箱可以分析机器学习过程的选定公平性,问责制和透明性方面:数据(及其功能),模型和预测,允许自动和客观地报告他们与相关的利益相关者。在本文中,我们描述了此Python软件包的设计,范围,用法和影响,该软件包于第3条规定BSD开源许可下发布。
translated by 谷歌翻译
预测系统,特别是机器学习算法,可以对我们的日常生活做出重要的,有时甚至具有法律约束力的决定。但是,在大多数情况下,这些系统和决策既没有受到监管也不经过认证。鉴于这些算法可能造成的潜在伤害,因此公平,问责制和透明度(FAT)等质量至关重要。为了确保高质量,公平,透明和可靠的预测系统,我们开发了一个名为Fat Forensics的开源Python软件包。它可以检查预测算法的重要公平,问责制和透明度方面,以自动并客观地将其报告给此类系统的工程师和用户。我们的工具箱可以评估预测管道的所有元素:数据(及其功能),模型和预测。根据BSD 3范围的开源许可发布,Fat Forensics供个人和商业用法开放。
translated by 谷歌翻译
可解释的人工智能和可解释的机器学习是重要性越来越重要的研究领域。然而,潜在的概念仍然难以捉摸,并且缺乏普遍商定的定义。虽然社会科学最近的灵感已经重新分为人类受助人的需求和期望的工作,但该领域仍然错过了具体的概念化。通过审查人类解释性的哲学和社会基础,我们采取措施来解决这一挑战,然后我们转化为技术领域。特别是,我们仔细审查了算法黑匣子的概念,并通过解释过程确定的理解频谱并扩展了背景知识。这种方法允许我们将可解释性(逻辑)推理定义为在某些背景知识下解释的透明洞察(进入黑匣子)的解释 - 这是一个从事在Admoleis中理解的过程。然后,我们采用这种概念化来重新审视透明度和预测权力之间的争议权差异,以及对安特 - 人穴和后宫后解释者的影响,以及可解释性发挥的公平和问责制。我们还讨论机器学习工作流程的组件,可能需要可解释性,从以人为本的可解释性建立一系列思想,重点介绍声明,对比陈述和解释过程。我们的讨论调整并补充目前的研究,以帮助更好地导航开放问题 - 而不是试图解决任何个人问题 - 从而为实现的地面讨论和解释的人工智能和可解释的机器学习的未来进展奠定了坚实的基础。我们结束了我们的研究结果,重新审视了实现所需的算法透明度水平所需的人以人为本的解释过程。
translated by 谷歌翻译
基于人工智能和机器学习算法的数据驱动的预测模型的解释性技术使我们能够更好地了解此类系统的运行,并有助于使它们负责。新的透明度方法以惊人的速度开发,使我们能够在这些黑匣子内窥视并解释他们的决策。这些技术中的许多被引入了整体工具,给人以有限的可自定义性的一定程度和端到端算法的印象。然而,这种方法通常由多个可互换的模块组成,这些模块需要调整到手头的问题以产生有意义的解释。本文介绍了动手培训材料的集合 - 幻灯片,视频录制和jupyter笔记本 - 通过构建和评估定制的模块化替代解释器的过程为表格数据提供指导。这些资源涵盖了该技术的三个核心构建基础:可解释的表示组成,数据采样和解释生成。
translated by 谷歌翻译
While data-driven predictive models are a strictly technological construct, they may operate within a social context in which benign engineering choices entail implicit, indirect and unexpected real-life consequences. Fairness of such systems -- pertaining both to individuals and groups -- is one relevant consideration in this space; it surfaces when data capture protected characteristics upon which people may be discriminated. To date, this notion has predominantly been studied for a fixed predictive model, often under different classification thresholds, striving to identify and eradicate undesirable, and possibly unlawful, aspects of its operation. Here, we backtrack on this assumption to propose and explore a novel definition of fairness where individuals can be harmed when one predictor is chosen ad hoc from a group of equally-well performing models, i.e., in view of utility-based model multiplicity. Since a person may be classified differently across models that are otherwise considered equivalent, this individual could argue for a predictor with the most favourable outcome, employing which may have adverse effects on others. We introduce this scenario with a two-dimensional example based on linear classification; then, we investigate its analytical properties in a broader context; and, finally, we present experimental results on data sets that are popular in fairness studies. Our findings suggest that such unfairness can be found in real-life situations and may be difficult to mitigate by technical means alone, as doing so degrades certain metrics of predictive performance.
translated by 谷歌翻译
在每日新兴科学调查和发现的世界中,跨行业的机器学习的多产推出对于熟悉ML潜力的人来说令人惊讶。这种伦理集中研究的一致性既不是对源于同一申请的偏见和不公平问题的回应而产生的。对抗算法偏差的技术的公平研究现在比以往任何时候都更加支持。大部分公平研究已经开始生产工具,即机器学习从业者可以在设计其算法时审核偏差。尽管如此,在实践中缺乏应用这些公平解决方案。该系统审查提供了已经定义的算法偏置问题的深入摘要,并提出了公平解决空间。此外,本综述提供了对溶液空间的深入崩溃,自释放以来出现的溶液空间以及机器学习从业者,公平研究人员和机构利益攸关方提出的需求的分类。这些需求已经组织并向各方组织并解决了其实施,包括公平研究人员,产生ML算法的组织以及机器学习从业者自己。这些发现可以在未来使用,以弥合从业者和公平专家之间的差距,并告知创建可用的展示展示率工具包。
translated by 谷歌翻译
过去十年已经看到人工智能(AI)的显着进展,这导致了用于解决各种问题的算法。然而,通过增加模型复杂性并采用缺乏透明度的黑匣子AI模型来满足这种成功。为了响应这种需求,已经提出了说明的AI(Xai)以使AI更透明,从而提高关键结构域中的AI。虽然有几个关于Xai主题的Xai主题的评论,但在Xai中发现了挑战和潜在的研究方向,这些挑战和研究方向被分散。因此,本研究为Xai组织的挑战和未来的研究方向提出了系统的挑战和未来研究方向:(1)基于机器学习生命周期的Xai挑战和研究方向,基于机器的挑战和研究方向阶段:设计,开发和部署。我们认为,我们的META调查通过为XAI地区的未来探索指导提供了XAI文学。
translated by 谷歌翻译
近年来,关于机器学习,AI伦理和算法审核的公平性的讨论增加了。许多实体已经开发了框架指南,以建立公平和问责制的基线标题。但是,尽管讨论增加了,但在实践中仍然很难执行算法和数据审核。许多开源审核工具都可以使用,但是用户并不总是知道这些工具,它们对它们有用或如何访问它们。模型审核和评估并不经常强调机器学习的技能。也有法律原因积极采用这些工具,这些工具超出了对机器学习中更公平的渴望。在我们高度联系的全球社会中,有积极的公众感知和善意问题。对这些工具的更高认识以及积极利用它们的原因可能对AI和机器学习产品的程序员,数据科学家,工程师,研究人员,用户和消费者的整个连续性有所帮助。对于每个人来说,重要的是要更好地了解输入和输出差异,它们的发生方式以及可以在机器和深度学习中促进命运(公平,问责制,透明和道德)的能力。自由访问开源审计工具的能力消除了在机器学习的最基本水平上公平评估的障碍。本文旨在强化迫切需要实际使用这些工具,并为此提供动力。本文突出显示的示例性工具是带有软件或代码碱存储库的开源工具,可立即在全球任何人使用。
translated by 谷歌翻译
如今,由于最近在人工智能(AI)和机器学习(ML)中的近期突破,因此,智能系统和服务越来越受欢迎。然而,机器学习不仅满足软件工程,不仅具有有希望的潜力,而且还具有一些固有的挑战。尽管最近的一些研究努力,但我们仍然没有明确了解开发基于ML的申请和当前行业实践的挑战。此外,目前尚不清楚软件工程研究人员应将其努力集中起来,以更好地支持ML应用程序开发人员。在本文中,我们报告了一个旨在了解ML应用程序开发的挑战和最佳实践的调查。我们合成从80名从业者(以不同的技能,经验和应用领域)获得的结果为17个调查结果;概述ML应用程序开发的挑战和最佳实践。参与基于ML的软件系统发展的从业者可以利用总结最佳实践来提高其系统的质量。我们希望报告的挑战将通知研究界有关需要调查的主题,以改善工程过程和基于ML的申请的质量。
translated by 谷歌翻译
Motivated by mitigating potentially harmful impacts of technologies, the AI community has formulated and accepted mathematical definitions for certain pillars of accountability: e.g. privacy, fairness, and model transparency. Yet, we argue this is fundamentally misguided because these definitions are imperfect, siloed constructions of the human values they hope to proxy, while giving the guise that those values are sufficiently embedded in our technologies. Under popularized methods, tensions arise when practitioners attempt to achieve each pillar of fairness, privacy, and transparency in isolation or simultaneously. In this position paper, we push for redirection. We argue that the AI community needs to consider all the consequences of choosing certain formulations of these pillars -- not just the technical incompatibilities, but also the effects within the context of deployment. We point towards sociotechnical research for frameworks for the latter, but push for broader efforts into implementing these in practice.
translated by 谷歌翻译
机器学习(ML)系统的开发和部署可以用现代工具轻松执行,但该过程通常是匆忙和意思是结束的。缺乏勤奋会导致技术债务,范围蠕变和未对准的目标,模型滥用和失败,以及昂贵的后果。另一方面,工程系统遵循明确定义的流程和测试标准,以简化高质量,可靠的结果的开发。极端是航天器系统,其中关键任务措施和鲁棒性在开发过程中根深蒂固。借鉴航天器工程和ML的经验(通过域名通过产品的研究),我们开发了一种经过验证的机器学习开发和部署的系统工程方法。我们的“机器学习技术准备水平”(MLTRL)框架定义了一个原则的过程,以确保强大,可靠和负责的系统,同时为ML工作流程流线型,包括来自传统软件工程的关键区别。 MLTRL甚至更多,MLTRL为跨团队和组织的人们定义了一个人工智能和机器学习技术的人员。在这里,我们描述了通过生产化和部署在医学诊断,消费者计算机视觉,卫星图像和粒子物理学等领域,以通过生产和部署在基本研究中开发ML方法的几个现实世界使用情况的框架和阐明。
translated by 谷歌翻译
为了调节机器学习驱动的系统(ML)系统,当前的审核过程主要集中于检测有害算法偏见。尽管这些策略已被证明具有影响力,但在审计过程中涉及ML驱动系统中伦理的文档中概述的一些价值仍然不足。这种未解决的值主要处理无法轻易量化的上下文因素。在本文中,我们开发了一个基于价值的评估框架,该框架不限于偏见审计,并涵盖了算法系统的重要道德原则。我们的框架提出了值的圆形布置,并具有两个双极尺寸,这些二极管尺寸使共同的动机和潜在的紧张局势明确。为了实现这些高级原则,然后将价值分解为特定的标准及其表现形式。但是,其中一些特定于价值的标准是相互排斥的,需要协商。与仅依靠ML研究人员和从业者的意见的其他一些其他审计框架相反,我们认为有必要包括利益相关者,这些利益相关者表现出各种观点,以系统地谈判和巩固价值和标准紧张局势。为此,我们将利益相关者绘制有不同的见解需求,并为将价值表现传达给他们的量身定制手段。因此,我们通过评估框架为当前的ML审计实践做出了贡献,该实践可视化价值之间的亲密关系和紧张局势,并给出了如何对其进行操作的准则,同时向广泛的利益相关者开放评估和审议过程。
translated by 谷歌翻译
随着各种公开的AI伦理原则的共识,差距仍然可以随时采用设计和开发负责任的AI系统。我们研究了来自澳大利亚国家科学研究机构(CSIRO)的研究人员和工程师的实践和经验,他们参与设计和开发AI系统的一系列目的。半结构化访谈用于检查参与者的做法如何与澳大利亚政府提出的一套高级AI伦理原则涉及并对齐。原则包括:隐私保护和安全,可靠性和安全性,透明度和解释性,公平性,竞争性,责任,人以人为本的价值观和人类,社会与环境福祉。研究了研究人员和工程师的见解以及在原则的实际应用中为它们提供的挑战。最后,提供了一系列组织响应,以支持实施高级AI道德原则。
translated by 谷歌翻译
负责任的AI被广泛认为是我们时代最大的科学挑战之一,也是释放AI市场并增加采用率的关键。为了应对负责任的AI挑战,最近已经发布了许多AI伦理原则框架,AI系统应该符合这些框架。但是,没有进一步的最佳实践指导,从业者除了真实性之外没有什么。同样,在算法级别而不是系统级的算法上进行了重大努力,主要集中于数学无关的道德原则(例如隐私和公平)的一部分。然而,道德问题在开发生命周期的任何步骤中都可能发生,从而超过AI算法和模型以外的系统的许多AI,非AI和数据组件。为了从系统的角度操作负责任的AI,在本文中,我们采用了一种面向模式的方法,并根据系统的多媒体文献综述(MLR)的结果提出了负责任的AI模式目录。与其呆在道德原则层面或算法层面上,我们专注于AI系统利益相关者可以在实践中采取的模式,以确保开发的AI系统在整个治理和工程生命周期中负责。负责的AI模式编目将模式分为三组:多层次治理模式,可信赖的过程模式和负责任的逐设计产品模式。这些模式为利益相关者实施负责任的AI提供了系统性和可行的指导。
translated by 谷歌翻译
由于算法预测对人类的影响增加,模型解释性已成为机器学习(ML)的重要问题。解释不仅可以帮助用户了解为什么ML模型做出某些预测,还可以帮助用户了解这些预测如何更改。在本论文中,我们研究了从三个有利位置的ML模型的解释性:算法,用户和教学法,并为解释性问题贡献了一些新颖的解决方案。
translated by 谷歌翻译
如今,人工智能(AI)已成为临床和远程医疗保健应用程序的基本组成部分,但是最佳性能的AI系统通常太复杂了,无法自我解释。可解释的AI(XAI)技术被定义为揭示系统的预测和决策背后的推理,并且在处理敏感和个人健康数据时,它们变得更加至关重要。值得注意的是,XAI并未在不同的研究领域和数据类型中引起相同的关注,尤其是在医疗保健领域。特别是,许多临床和远程健康应用程序分别基于表格和时间序列数据,而XAI并未在这些数据类型上进行分析,而计算机视觉和自然语言处理(NLP)是参考应用程序。为了提供最适合医疗领域表格和时间序列数据的XAI方法的概述,本文提供了过去5年中文献的审查,说明了生成的解释的类型以及为评估其相关性所提供的努力和质量。具体而言,我们确定临床验证,一致性评估,客观和标准化质量评估以及以人为本的质量评估作为确保最终用户有效解释的关键特征。最后,我们强调了该领域的主要研究挑战以及现有XAI方法的局限性。
translated by 谷歌翻译
Despite being responsible for state-of-the-art results in several computer vision and natural language processing tasks, neural networks have faced harsh criticism due to some of their current shortcomings. One of them is that neural networks are correlation machines prone to model biases within the data instead of focusing on actual useful causal relationships. This problem is particularly serious in application domains affected by aspects such as race, gender, and age. To prevent models from incurring on unfair decision-making, the AI community has concentrated efforts in correcting algorithmic biases, giving rise to the research area now widely known as fairness in AI. In this survey paper, we provide an in-depth overview of the main debiasing methods for fairness-aware neural networks in the context of vision and language research. We propose a novel taxonomy to better organize the literature on debiasing methods for fairness, and we discuss the current challenges, trends, and important future work directions for the interested researcher and practitioner.
translated by 谷歌翻译
比较不同的汽车框架是具有挑战性的,并且经常做错了。我们引入了一个开放且可扩展的基准测试,该基准遵循最佳实践,并在比较自动框架时避免常见错误。我们对71个分类和33项回归任务进行了9个著名的自动框架进行了详尽的比较。通过多面分析,评估模型的准确性,与推理时间的权衡以及框架失败,探索了自动框架之间的差异。我们还使用Bradley-terry树来发现相对自动框架排名不同的任务子集。基准配备了一个开源工具,该工具与许多自动框架集成并自动化经验评估过程端到端:从框架安装和资源分配到深入评估。基准测试使用公共数据集,可以轻松地使用其他Automl框架和任务扩展,并且具有最新结果的网站。
translated by 谷歌翻译
在过去的几年中,涉及AI驱动警察工作的歧视性做法一直引起了很多争议,Compas,Predpol和Shotspotter等算法被指控不公平地影响少数群体。同时,机器学习中的公平性,尤其是计算机视觉的问题,已经成为越来越多的学术工作的主题。在本文中,我们研究了这些区域如何相交。我们提供有关这些实践如何存在的信息以及减轻它们的困难。然后,我们检查目前正在开发的三个应用程序,以了解它们对公平性构成的风险以及如何减轻这些风险。
translated by 谷歌翻译
背景信息:在过去几年中,机器学习(ML)一直是许多创新的核心。然而,包括在所谓的“安全关键”系统中,例如汽车或航空的系统已经被证明是非常具有挑战性的,因为ML的范式转变为ML带来完全改变传统认证方法。目的:本文旨在阐明与ML为基础的安全关键系统认证有关的挑战,以及文献中提出的解决方案,以解决它们,回答问题的问题如何证明基于机器学习的安全关键系统?'方法:我们开展2015年至2020年至2020年之间发布的研究论文的系统文献综述(SLR),涵盖了与ML系统认证有关的主题。总共确定了217篇论文涵盖了主题,被认为是ML认证的主要支柱:鲁棒性,不确定性,解释性,验证,安全强化学习和直接认证。我们分析了每个子场的主要趋势和问题,并提取了提取的论文的总结。结果:单反结果突出了社区对该主题的热情,以及在数据集和模型类型方面缺乏多样性。它还强调需要进一步发展学术界和行业之间的联系,以加深域名研究。最后,它还说明了必须在上面提到的主要支柱之间建立连接的必要性,这些主要柱主要主要研究。结论:我们强调了目前部署的努力,以实现ML基于ML的软件系统,并讨论了一些未来的研究方向。
translated by 谷歌翻译