个人种族和种族的预测在种族差异研究中起着重要作用。贝叶斯改进的姓氏地理编码(BISG)依赖于详细的人口普查信息,已成为该预测任务的主要方法。不幸的是,BISG遭受了两个数据问题。首先,人口普查通常在这些组成员居住的位置的少数群体中含量为零。其次,人口普查数据中缺少许多姓氏 - 尤其是少数民族的姓氏。我们引入了完全贝叶斯改进的姓氏地理编码(FBISG)方法,该方法可以通过扩展BISG方法的天真贝叶斯推断来解决人口普查测量误差。我们还使用了从六个有自我报告的种族的南部州的选民文件中获取的最后,第一个和中间名的其他数据。我们的经验验证表明,FBISG方法论和名称补充剂可显着提高种族归纳的准确性,尤其是对于少数民族而言。
translated by 谷歌翻译
我们提供了最大的公开词典,其中包括贝叶斯改进的姓氏地理编码(BISG),以归纳种族和种族的目的。词典基于六个南部州的选民档案,这些档案是在选民注册后收集自我报告的种族数据的。我们的数据涵盖了比任何可比数据集更大的名称范围,其中包含大约100万个名字,110万个中间名和140万个姓氏。个人被归类为五个相互排斥的种族和种族 - 白人,黑人,西班牙裔,亚洲和其他种族 - 每个词典中的每个名称都为种族/种族计数提供了名称。然后可以按列表或列的标准化计数,以获取给定名称或名称的种族的条件概率。然后可以将这些条件概率部署在数据分析任务中,以实现真相和种族数据的基础分析任务。
translated by 谷歌翻译
贝叶斯改进的姓氏地理编码(BISG)是在不包含它的选民注册文件中代表种族/民族的最流行方法。本文使用来自加利福尼亚州,佛罗里达州,北卡罗来纳州和佐治亚州的自我报告的种族/民族的选民档案,对一系列未经测试的机器学习替代方案进行了基准测试。该分析得出三个关键发现。首先,当给出完全相同的输入时,BISG和机器学习在估计种族/种族组成方面的表现相似。其次,机器学习在种族/种族分类方面的表现优于BISG。第三,所有方法的性能在各州之间有很大的变化。这些结果表明,预训练的机器学习模型比BISG更可取,以进行单个分类。此外,在区域层面和各州之间的混合结果强调了研究人员在凭经验中验证其感兴趣人群中所选择的种族/种族代理的需求。
translated by 谷歌翻译
目的:我们研究使用机器学习(ML)模型的可解释的累入预测,并在预测能力,稀疏性和公平性方面分析性能。与以前的作品不同,本研究列举了输出概率而不是二进制预测的可解释模型,并使用定量公平定义来评估模型。本研究还研究了模型是否可以横跨地理位置概括。方法:我们在佛罗里达州和肯塔基州的两个不同的刑事核查数据集上生成了黑盒和可解释的ML模型。我们将这些模型的预测性能和公平与目前用于司法系统中使用的两种方法进行了比较,以预测审前常规率:Arnold PSA和Compas。我们评估了所有模型的预测性能,可以在两次跨越两次预测六种不同类型犯罪的模型。结果:几种可解释的ML模型可以预测常规和黑盒ML模型,比Compas或Arnold PSA更准确。这些模型在实践中可能有用。类似于Arnold PSA,这些可解释模型中的一些可以作为一个简单的表格写入。其他可以使用一组可视化显示。我们的地理分析表明ML模型应分开培训,以便单独的位置并随时间更新。我们还为可​​解释模型提供了公平分析。结论:可解释的机器学习模型可以在预测准确性和公平性方面表现,也可以表现,也可以表现,也可以执行不可解释的方法和目前使用的风险评估尺度。机器学习模型对于单独培训,可以更准确地进行不同的位置,并保持最新。
translated by 谷歌翻译
Objectives: Discussions of fairness in criminal justice risk assessments typically lack conceptual precision. Rhetoric too often substitutes for careful analysis. In this paper, we seek to clarify the tradeoffs between different kinds of fairness and between fairness and accuracy.Methods: We draw on the existing literatures in criminology, computer science and statistics to provide an integrated examination of fairness and accuracy in criminal justice risk assessments. We also provide an empirical illustration using data from arraignments.Results: We show that there are at least six kinds of fairness, some of which are incompatible with one another and with accuracy.Conclusions: Except in trivial cases, it is impossible to maximize accuracy and fairness at the same time, and impossible simultaneously to satisfy all kinds of fairness. In practice, a major complication is different base rates across different legally protected groups. There is a need to consider challenging tradeoffs.
translated by 谷歌翻译
公平性是确保机器学习(ML)预测系统不会歧视特定个人或整个子人群(尤其是少数族裔)的重要要求。鉴于观察公平概念的固有主观性,文献中已经引入了几种公平概念。本文是一项调查,说明了通过大量示例和场景之间的公平概念之间的微妙之处。此外,与文献中的其他调查不同,它解决了以下问题:哪种公平概念最适合给定的现实世界情景,为什么?我们试图回答这个问题的尝试包括(1)确定手头现实世界情景的一组与公平相关的特征,(2)分析每个公平概念的行为,然后(3)适合这两个元素以推荐每个特定设置中最合适的公平概念。结果总结在决策图中可以由从业者和政策制定者使用,以导航相对较大的ML目录。
translated by 谷歌翻译
测量黑匣子预测算法中变量重要性的最流行方法是利用合成输入,这些输入结合了来自多个受试者的预测变量。这些输入可能是不可能的,身体上不可能的,甚至在逻辑上是不可能的。结果,对这种情况的预测可以基于数据,这与对黑匣子的训练非常不同。我们认为,当解释使用此类值时,用户不能相信预测算法的决定的解释。取而代之的是,我们主张一种称为同类沙普利的方法,该方法基于经济游戏理论,与大多数其他游戏理论方法不同,它仅使用实际观察到的数据来量化可变重要性。莎普利队的同伙通过缩小判断的主题的缩小,被认为与一个或多个功能上的目标主题相似。如果使用它来缩小队列对队列平均值有很大的不同,则功能很重要。我们在算法公平问题上进行了说明,其中必须将重要性归因于未经训练模型的保护变量。对于每个主题和每个预测变量,我们可以计算该预测因子对受试者的预测响应或对其实际响应的重要性。这些值可以汇总,例如在所有黑色受试者上,我们提出了一个贝叶斯引导程序来量化个人和骨料莎普利值的不确定性。
translated by 谷歌翻译
Algorithms are now regularly used to decide whether defendants awaiting trial are too dangerous to be released back into the community. In some cases, black defendants are substantially more likely than white defendants to be incorrectly classi ed as high risk. To mitigate such disparities, several techniques have recently been proposed to achieve algorithmic fairness. Here we reformulate algorithmic fairness as constrained optimization: the objective is to maximize public safety while satisfying formal fairness constraints designed to reduce racial disparities. We show that for several past de nitions of fairness, the optimal algorithms that result require detaining defendants above race-speci c risk thresholds. We further show that the optimal unconstrained algorithm requires applying a single, uniform threshold to all defendants. e unconstrained algorithm thus maximizes public safety while also satisfying one important understanding of equality: that all individuals are held to the same standard, irrespective of race. Because the optimal constrained and unconstrained algorithms generally di er, there is tension between improving public safety and satisfying prevailing notions of algorithmic fairness. By examining data from Broward County, Florida, we show that this trade-o can be large in practice. We focus on algorithms for pretrial release decisions, but the principles we discuss apply to other domains, and also to human decision makers carrying out structured decision rules.
translated by 谷歌翻译
A reconstruction attack on a private dataset $D$ takes as input some publicly accessible information about the dataset and produces a list of candidate elements of $D$. We introduce a new class of data reconstruction attacks based on randomized methods for non-convex optimization. We empirically demonstrate that our attacks can not only reconstruct full rows of $D$ from aggregate query statistics $Q(D)\in \mathbb{R}^m$, but can do so in a way that reliably ranks reconstructed rows by their odds of appearing in the private data, providing a signature that could be used for prioritizing reconstructed rows for further actions such as identify theft or hate crime. We also design a sequence of baselines for evaluating reconstruction attacks. Our attacks significantly outperform those that are based only on access to a public distribution or population from which the private dataset $D$ was sampled, demonstrating that they are exploiting information in the aggregate statistics $Q(D)$, and not simply the overall structure of the distribution. In other words, the queries $Q(D)$ are permitting reconstruction of elements of this dataset, not the distribution from which $D$ was drawn. These findings are established both on 2010 U.S. decennial Census data and queries and Census-derived American Community Survey datasets. Taken together, our methods and experiments illustrate the risks in releasing numerically precise aggregate statistics of a large dataset, and provide further motivation for the careful application of provably private techniques such as differential privacy.
translated by 谷歌翻译
业务分析(BA)的广泛采用带来了财务收益和提高效率。但是,当BA以公正的影响为决定时,这些进步同时引起了人们对法律和道德挑战的不断增加。作为对这些关注的回应,对算法公平性的新兴研究涉及算法输出,这些算法可能会导致不同的结果或其他形式的对人群亚组的不公正现象,尤其是那些在历史上被边缘化的人。公平性是根据法律合规,社会责任和效用是相关的;如果不充分和系统地解决,不公平的BA系统可能会导致社会危害,也可能威胁到组织自己的生存,其竞争力和整体绩效。本文提供了有关算法公平的前瞻性,注重BA的评论。我们首先回顾有关偏见来源和措施的最新研究以及偏见缓解算法。然后,我们对公用事业关系的详细讨论进行了详细的讨论,强调经常假设这两种构造之间经常是错误的或短视的。最后,我们通过确定企业学者解决有效和负责任的BA的关键的有影响力的公开挑战的机会来绘制前进的道路。
translated by 谷歌翻译
这项研究研究了在美国国税局(IRS)为税收审计选择的系统中,算法公平性问题。尽管算法公平的领域主要围绕着像个人一样对待的概念发展,但我们却探索了垂直平等的概念 - 适当地考虑到个人之间的相关差异 - 这在许多公共政策环境中都是公平性的核心组成部分。应用于美国个人所得税体系的设计,垂直权益与不同收入水平的纳税人之间的税收和执法负担的公平分配有关。通过与财政部和国税局的独特合作,我们使用匿名个人纳税人微型数据,风险选择的审计以及2010 - 14年度的随机审计来研究税务管理的垂直平等。特别是,我们评估了现代机器学习方法选择审核的使用如何影响垂直权益。首先,我们展示了更灵活的机器学习(分类)方法(而不是简单的模型)如何将审计负担从高收入纳税人转移到中等收入纳税人。其次,我们表明,尽管现有的算法公平技术可以减轻跨收入的某些差异,但它们可能会造成巨大的绩效成本。第三,我们表明,是否将低报告的风险视为分类或回归问题的选择是高度的。从分类转变为回归模型,以预测不足的审计转变会大大向高收入个人转移,同时增加收入。最后,我们探讨了差异审计成本在塑造审计分配中的作用。我们表明,对回报的狭窄关注会破坏垂直权益。我们的结果对整个公共部门的算法工具的设计具有影响。
translated by 谷歌翻译
尽管自动图像分析的重要性不断增加,但最近的元研究揭示了有关算法验证的主要缺陷。性能指标对于使用的自动算法的有意义,客观和透明的性能评估和验证尤其是关键,但是在使用特定的指标进行给定的图像分析任务时,对实际陷阱的关注相对较少。这些通常与(1)无视固有的度量属性,例如在存在类不平衡或小目标结构的情况下的行为,(2)无视固有的数据集属性,例如测试的非独立性案例和(3)无视指标应反映的实际生物医学领域的兴趣。该动态文档的目的是说明图像分析领域通常应用的性能指标的重要局限性。在这种情况下,它重点介绍了可以用作图像级分类,语义分割,实例分割或对象检测任务的生物医学图像分析问题。当前版本是基于由全球60多家机构的国际图像分析专家进行的关于指标的Delphi流程。
translated by 谷歌翻译
The machine learning community has become increasingly concerned with the potential for bias and discrimination in predictive models. This has motivated a growing line of work on what it means for a classification procedure to be "fair." In this paper, we investigate the tension between minimizing error disparity across different population groups while maintaining calibrated probability estimates. We show that calibration is compatible only with a single error constraint (i.e. equal false-negatives rates across groups), and show that any algorithm that satisfies this relaxation is no better than randomizing a percentage of predictions for an existing classifier. These unsettling findings, which extend and generalize existing results, are empirically confirmed on several datasets. * Equal contribution, alphebetical order. 1 For the remainder of the paper, we will use Equalized Odds to refer to this notion of non-discrimination.
translated by 谷歌翻译
Health systems rely on commercial prediction algorithms to identify and help patients with complex health needs. We show that a widely used algorithm, typical of this industry-wide approach and affecting millions of patients, exhibits significant racial bias: At a given risk score, Black patients are considerably sicker than White patients, as evidenced by signs of uncontrolled illnesses. Remedying this disparity would increase the percentage of Black patients receiving additional help from 17.7 to 46.5%. The bias arises because the algorithm predicts health care costs rather than illness, but unequal access to care means that we spend less money caring for Black patients than for White patients. Thus, despite health care cost appearing to be an effective proxy for health by some measures of predictive accuracy, large racial biases arise. We suggest that the choice of convenient, seemingly effective proxies for ground truth can be an important source of algorithmic bias in many contexts.
translated by 谷歌翻译
我们建议并探讨可以将语言模型作为社会科学研究中特定人类亚人群的有效代理进行研究的可能性。人工智能工具的实践和研究应用有时受到有问题的偏见(例如种族主义或性别歧视)的限制,这些偏见通常被视为模型的统一特性。我们表明,一个这样的工具中的“算法偏见”(GPT-3语言模型)既是细粒度又是人口统计相关的,这意味着适当的条件会导致其准确地仿真来自各种人类的响应分布亚组。我们将此属性称为“算法忠诚度”,并在GPT-3中探索其范围。我们通过将模型调节在美国进行的多项大型调查中的数千个社会人口统计背景故事中调节,从而创建“硅样本”。然后,我们比较硅和人类样品,以证明GPT-3中包含的信息远远超出了表面相似性。它是细微的,多方面的,并反映了特征人类态度的思想,态度和社会文化背景之间的复杂相互作用。我们建议,具有足够算法的忠诚度的语言模型构成了一种新颖而有力的工具,可以促进各种学科的人类和社会的理解。
translated by 谷歌翻译
本文介绍了分类器校准原理和实践的简介和详细概述。校准的分类器正确地量化了与其实例明智的预测相关的不确定性或信心水平。这对于关键应用,最佳决策,成本敏感的分类以及某些类型的上下文变化至关重要。校准研究具有丰富的历史,其中几十年来预测机器学习作为学术领域的诞生。然而,校准兴趣的最近增加导致了新的方法和从二进制到多种子体设置的扩展。需要考虑的选项和问题的空间很大,并导航它需要正确的概念和工具集。我们提供了主要概念和方法的介绍性材料和最新的技术细节,包括适当的评分规则和其他评估指标,可视化方法,全面陈述二进制和多字数分类的HOC校准方法,以及几个先进的话题。
translated by 谷歌翻译
专利数据提供有关技术发明的丰富信息,但没有披露发明人的族裔血统。在本文中,我使用监督学习技术来推断出这些信息。为此,我构建了95'202标记名称的数据集,并用长短期记忆(LSTM)培训一个人工复发性神经网络,以基于名称预测种族起源。训练有素的网络在17种族起源中实现了91%的整体性能。我使用此模型来分类和调查群体的群体,并提供关于其种族原产地组成的新型描述性证据,以及各种国家和技术领域。在过去的几十年中,全球民族原产地组成变得更加多样化,这主要是由于亚洲原产人的相对增加。此外,美国外国发明人的流行率在美国特别高,但在其他高收入经济体中也增加。这一增长主要是由非西方发明人流入美国的新兴高科技领域,但不是其他高收入国家。
translated by 谷歌翻译
我们在分类的背景下研究公平,其中在接收器的曲线下的区域(AUC)下的区域测量的性能。当I型(误报)和II型(假阴性)错误都很重要时,通常使用AUC。然而,相同的分类器可以针对不同的保护组具有显着变化的AUC,并且在现实世界中,通常希望减少这种交叉组差异。我们解决如何选择其他功能,以便最大地改善弱势群体的AUC。我们的结果表明,功能的无条件方差不会通知我们关于AUC公平,而是类条件方差。使用此连接,我们基于功能增强(添加功能)来开发一种新颖的方法Fairauc,以减轻可识别组之间的偏差。我们评估综合性和现实世界(Compas)数据集的Fairauc,并发现它对于相对于基准,最大限度地提高了总体AUC并最大限度地减少了组之间的偏见的基准,它显着改善了弱势群体的AUC。
translated by 谷歌翻译
多核电是一个理想的公平标准,该标准限制了数据中灵活定义的组之间的校准误差,同时保持整体校准。但是,当结果概率与群体成员资格相关时,基本速率较低的组的校准误差比基本速率较高的组显示出更高的校准误差。结果,决策者仍然有可能学习对特定群体的信任或不信任模型预测。为了减轻这一点,我们提出了比例的数字净化,该标准限制了组之间和预测箱之间的校准误差百分比。我们证明,满足比例的多中心范围界定了模型的数字以及它的差异校准,这是一个受充分性的公平概念启发的更强的公平标准。我们为后处理风险预测模型提供了有效的算法,以进行比例的多核电并进行经验评估。我们进行仿真研究,并研究PMC-POSTPROCESSSPOCESS在急诊科患者入院预测中的现实应用。我们观察到,比例的数字启动是控制模型在分类性能方面几乎没有成本的校准公平度的同时衡量量标准的有希望的标准。
translated by 谷歌翻译
越来越多地部署算法和模型来为人们提供决定,不可避免地会影响他们的生活。结果,负责开发这些模型的人必须仔细评估他们对不同人群的影响并偏爱群体公平,也就是说,确保由敏感人口属性(例如种族或性别)确定的群体不会受到不公正的对待。为了实现这一目标,这些人口统计学属性的可用性(意识)是评估这些模型影响的人的基本基础。不幸的是,收集和存储这些属性通常与行业实践以及有关数据最小化和隐私的立法冲突。因此,即使是从开发它们的公司内部,也很难衡量训练有素的模型的群体公平性。在这项工作中,我们通过使用量化技术来解决在敏感属性不认识的情况下衡量群体公平性的问题,这是一项与直接提供群体级别的患病率估算(而不是个人级别的类标签)有关的监督学习任务。我们表明,量化方法特别适合解决未通行问题的公平性,因为它们是可行的不可避免的分配变化,同时将(理想的)目标取消了(不可避免的)允许(不良)的副作用的(理想的)目标个人敏感属性的推断。更详细地说,我们表明,在不认识下的公平性可以作为量化问题,并通过量化文献中的可靠方法解决。我们表明,这些方法在五个实验方案中测量人口统计学的先前方法都优于以前的方法,这对应于使分类器公平性估计不认识的重要挑战。
translated by 谷歌翻译