媒体报道指责人们对“偏见”',“”性别歧视“和”种族主义“的人士指责。研究文献中有共识,面部识别准确性为女性较低,妇女通常具有更高的假匹配率和更高的假非匹配率。然而,几乎没有出版的研究,旨在识别女性准确性较低的原因。例如,2019年的面部识别供应商测试将在广泛的算法和数据集中记录较低的女性准确性,并且数据集也列出了“分析原因和效果”在“我们没有做的东西”下''。我们介绍了第一个实验分析,以确定在去以前研究的数据集上对女性的较低人脸识别准确性的主要原因。在测试图像中控制相等的可见面部可见面积减轻了女性的表观更高的假非匹配率。其他分析表明,化妆平衡数据集进一步改善了女性以实现较低的虚假非匹配率。最后,聚类实验表明,两种不同女性的图像本质上比两种不同的男性更相似,潜在地占错误匹配速率的差异。
translated by 谷歌翻译
广泛认为,面部识别准确性存在“性别差距”,女性具有较高的错误匹配和错误的非匹配率。但是,关于这种性别差距的原因,相对较少了解。甚至最近有关人口影响的NIST报告也列出了“我们没有做的事情”下的“分析因果”。我们首先证明女性和男性发型具有影响面部识别准确性的重要差异。特别是,与女性相比,男性面部毛发有助于在不同男性面孔之间产生更大的外观平均差异。然后,我们证明,当用来估计识别精度的数据在性别之间保持平衡,以使发型如何阻塞面部时,最初观察到的性别差距在准确性上大大消失。我们为两个不同的匹配者展示了这一结果,并分析了白种人和非裔美国人的图像。这些结果表明,对准确性的人口统计学差异的未来研究应包括检查测试数据的平衡质量,作为问题制定的一部分。为了促进可重复的研究,将公开使用此研究中使用的匹配项,属性分类器和数据集。
translated by 谷歌翻译
Recent studies demonstrate that machine learning algorithms can discriminate based on classes like race and gender. In this work, we present an approach to evaluate bias present in automated facial analysis algorithms and datasets with respect to phenotypic subgroups. Using the dermatologist approved Fitzpatrick Skin Type classification system, we characterize the gender and skin type distribution of two facial analysis benchmarks, IJB-A and Adience. We find that these datasets are overwhelmingly composed of lighter-skinned subjects (79.6% for IJB-A and 86.2% for Adience) and introduce a new facial analysis dataset which is balanced by gender and skin type. We evaluate 3 commercial gender classification systems using our dataset and show that darker-skinned females are the most misclassified group (with error rates of up to 34.7%). The maximum error rate for lighter-skinned males is 0.8%. The substantial disparities in the accuracy of classifying darker females, lighter females, darker males, and lighter males in gender classification systems require urgent attention if commercial companies are to build genuinely fair, transparent and accountable facial analysis algorithms.
translated by 谷歌翻译
数据和算法中固有的偏见使得基于广泛的机器学习(ML)的决策系统的公平性不如最佳。为了提高此类ML决策系统的信任性,至关重要的是要意识到这些解决方案中的固有偏见并使它们对公众和开发商更加透明。在这项工作中,我们旨在提供一组解释性工具,以分析处理不同人口组时面部识别模型行为的差异。我们通过利用基于激活图的高阶统计信息来构建解释性工具来做到这一点,以将FR模型的行为差异与某些面部区域联系起来。与参考组相比,在两个数据集和两个面部识别模型上的实验结果指出了FR模型对某些人口组的反应不同。这些分析的结果有趣地与分析人体测量学差异和人类判断差异的研究结果非常相吻合。因此,这是第一项专门解释不同人口组上FR模型的偏见行为并将其直接链接到空间面部特征的研究。该代码在这里公开可用。
translated by 谷歌翻译
已显示现有的面部分析系统对某些人口统计亚组产生偏见的结果。由于其对社会的影响,因此必须确保这些系统不会根据个人的性别,身份或肤色歧视。这导致了在AI系统中识别和减轻偏差的研究。在本文中,我们封装了面部分析的偏置检测/估计和缓解算法。我们的主要贡献包括对拟议理解偏见的算法的系统审查,以及分类和广泛概述现有的偏置缓解算法。我们还讨论了偏见面部分析领域的开放挑战。
translated by 谷歌翻译
本文介绍了一个新颖的数据集,以帮助研究人员评估他们的计算机视觉和音频模型,以便在各种年龄,性别,表观肤色和环境照明条件下进行准确性。我们的数据集由3,011名受试者组成,并包含超过45,000个视频,平均每人15个视频。这些视频被录制在多个美国国家,各种成年人在各种年龄,性别和明显的肤色群体中。一个关键特征是每个主题同意参与他们使用的相似之处。此外,我们的年龄和性别诠释由受试者自己提供。一组训练有素的注释器使用FitzPatrick皮肤型刻度标记了受试者的表观肤色。此外,还提供了在低环境照明中记录的视频的注释。作为衡量某些属性的预测稳健性的申请,我们对DeepFake检测挑战(DFDC)的前五名获胜者提供了全面的研究。实验评估表明,获胜模型对某些特定人群的表现较小,例如肤色较深的肤色,因此可能对所有人都不概括。此外,我们还评估了最先进的明显年龄和性别分类方法。我们的实验在各种背景的人们的公平待遇方面对这些模型进行了彻底的分析。
translated by 谷歌翻译
在过去的几十年里,机器和深度学习界在挑战性的任务中庆祝了巨大成就,如图像分类。人工神经网络的深度建筑与可用数据的宽度一起使得可以描述高度复杂的关系。然而,仍然不可能完全捕捉深度学习模型已经了解到的深度学习模型并验证它公平,而不会产生偏见,特别是在临界任务中,例如在医学领域产生的问题。这样的任务的一个示例是检测面部图像中的不同面部表情,称为动作单位。考虑到这项特定任务,我们的研究旨在为偏见提供透明度,具体与性别和肤色有关。我们训练一个神经网络进行动作单位分类,并根据其准确性和基于热量的定性分析其性能。对我们的结果的结构化审查表明我们能够检测到偏见。尽管我们不能从我们的结果得出结论,但较低的分类表现完全来自性别和肤色偏差,这些偏差必须得到解决,这就是为什么我们通过提出关于如何避免检测到的偏差的建议。
translated by 谷歌翻译
由于隐私,透明度,问责制和缺少程序保障的担忧,印度的面部加工系统的增加越来越多。与此同时,我们也很少了解这些技术如何在印度13.4亿种群的不同特征,特征和肤色上表现出来。在本文中,我们在印度脸部的数据集中测试四个商用面部加工工具的面部检测和面部分析功能。该工具在面部检测和性别和年龄分类功能中显示不同的错误率。与男性相比,印度女性面的性别分类错误率始终如一,最高的女性错误率为14.68%。在某些情况下,这种错误率远高于其他国籍的女性之前的研究表明。年龄分类错误也很高。尽管从一个人的实际年龄从一个人的实际年龄到10年来考虑到可接受的误差率,但年龄预测失败的速度为14.3%至42.2%。这些发现指向面部加工工具的准确性有限,特别是某些人口组,在采用此类系统之前需要更关键的思维。
translated by 谷歌翻译
面部表现攻击检测(PAD)对于保护面部识别(FR)应用程序至关重要。 FR性能已被证明对某些人口统计学和非人口统计学组是不公平的。但是,面部垫的公平性是一个研究的问题,这主要是由于缺乏适当的注释数据。为了解决此问题,这项工作首先通过组合几个知名的PAD数据集,在其中提供了七个人类宣传的属性标签,从而提出了一个组合的注释数据集(CAAD-PAD)。然后,这项工作通过研究我们的CAAD-Pad上的四个面部垫方法,全面分析了一组面垫的公平及其与培训数据的性质和操作决策阈值分配(ODTA)的关系。同时代表垫子的公平性和绝对垫性能,我们引入了一种新颖的指标,即准确性平衡公平(ABF)。关于CAAD-PAD的广泛实验表明,训练数据和ODTA会引起性别,遮挡和其他属性组的不公平性。基于这些分析,我们提出了一种数据增强方法Fairswap,该方法旨在破坏身份/语义信息和指南模型以挖掘攻击线索而不是与属性相关的信息。详细的实验结果表明,Fairswap通常可以提高垫子性能和面部垫的公平性。
translated by 谷歌翻译
The presence of bias in deep models leads to unfair outcomes for certain demographic subgroups. Research in bias focuses primarily on facial recognition and attribute prediction with scarce emphasis on face detection. Existing studies consider face detection as binary classification into 'face' and 'non-face' classes. In this work, we investigate possible bias in the domain of face detection through facial region localization which is currently unexplored. Since facial region localization is an essential task for all face recognition pipelines, it is imperative to analyze the presence of such bias in popular deep models. Most existing face detection datasets lack suitable annotation for such analysis. Therefore, we web-curate the Fair Face Localization with Attributes (F2LA) dataset and manually annotate more than 10 attributes per face, including facial localization information. Utilizing the extensive annotations from F2LA, an experimental setup is designed to study the performance of four pre-trained face detectors. We observe (i) a high disparity in detection accuracies across gender and skin-tone, and (ii) interplay of confounding factors beyond demography. The F2LA data and associated annotations can be accessed at http://iab-rubric.org/index.php/F2LA.
translated by 谷歌翻译
Facial analysis systems have been deployed by large companies and critiqued by scholars and activists for the past decade. Many existing algorithmic audits examine the performance of these systems on later stage elements of facial analysis systems like facial recognition and age, emotion, or perceived gender prediction; however, a core component to these systems has been vastly understudied from a fairness perspective: face detection, sometimes called face localization. Since face detection is a pre-requisite step in facial analysis systems, the bias we observe in face detection will flow downstream to the other components like facial recognition and emotion prediction. Additionally, no prior work has focused on the robustness of these systems under various perturbations and corruptions, which leaves open the question of how various people are impacted by these phenomena. We present the first of its kind detailed benchmark of face detection systems, specifically examining the robustness to noise of commercial and academic models. We use both standard and recently released academic facial datasets to quantitatively analyze trends in face detection robustness. Across all the datasets and systems, we generally find that photos of individuals who are $\textit{masculine presenting}$, $\textit{older}$, of $\textit{darker skin type}$, or have $\textit{dim lighting}$ are more susceptible to errors than their counterparts in other identities.
translated by 谷歌翻译
当前用于面部识别的模型(FR)中存在人口偏见。我们在野外(BFW)数据集中平衡的面孔是衡量种族和性别亚组偏见的代理,使一个人可以表征每个亚组的FR表现。当单个分数阈值确定样本对是真实还是冒名顶替者时,我们显示的结果是非最佳选择的。在亚组中,性能通常与全球平均水平有很大差异。因此,仅适用于与验证数据相匹配的人群的特定错误率。我们使用新的域适应性学习方案来减轻性能不平衡,以使用最先进的神经网络提取的面部特征。该技术平衡了性能,但也可以提高整体性能。该建议的好处是在面部特征中保留身份信息,同时减少其所包含的人口统计信息。人口统计学知识的去除阻止了潜在的未来偏见被注入决策。由于对个人的可用信息或推断,因此此删除可改善隐私。我们定性地探索这一点;我们还定量地表明,亚组分类器不再从提出的域适应方案的特征中学习。有关源代码和数据描述,请参见https://github.com/visionjo/facerec-bias-bfw。
translated by 谷歌翻译
在本文中,我们提出了一个新颖的解释性框架,旨在更好地理解面部识别模型作为基本数据特征的表现(受保护的属性:性别,种族,年龄;非保护属性:面部毛发,化妆品,配件,脸部,面部,面部,面部,面部,面部,它们被测试的变化的方向和阻塞,图像失真,情绪)。通过我们的框架,我们评估了十种最先进的面部识别模型,并在两个数据集上的安全性和可用性方面进行了比较,涉及基于性别和种族的六个小组。然后,我们分析图像特征对模型性能的影响。我们的结果表明,当考虑多归因组时,单属分析中出现的趋势消失或逆转,并且性能差异也与非保护属性有关。源代码:https://cutt.ly/2xwrlia。
translated by 谷歌翻译
很少有研究重点是研究人们如何识别变形攻击,即使有一些出版物已经检查了自动化FRS的敏感性并提供了变形攻击检测(MAD)方法。 MAD接近他们的决策要么基于单个图像,因此没有参考以比较(S-MAD)或使用参考图像(D-MAD)。一个普遍的误解是,审查员或观察者的面部变体检测能力取决于他们的主题专业知识,经验和对这个问题的熟悉程度,并且没有任何作品报告了定期验证身份(ID)文档的观察者的具体结果。当人类观察者参与检查具有面部图像的ID文件时,其能力的失误可能会面临重大的社会挑战。为了评估观察者的熟练程度,这项工作首先构建了来自48位不同受试者的现实变形攻击的新基准数据库,从而产生了400个变形图像。我们还捕获了从自动边界控制(ABC)门的图像,以模仿D-MAD设置中现实的边界横断场景,并使用400个探针图像研究人类观察者检测变形图像的能力。还生产了一个新的180个变形图像的数据集,以研究S-MAD环境中的人类能力。除了创建一个新的评估平台来进行S-MAD和D-MAD分析外,该研究还雇用了469位D-MAD的观察员,S-MAD的410位观察员和410位观察员,他们主要是来自40多个国家 /地区的政府雇员,以及103个科目谁不是考官。该分析提供了有趣的见解,并突出了缺乏专业知识和未能认识到专家大量变形攻击的缺乏。这项研究的结果旨在帮助制定培训计划,以防止安全失败,同时确定图像是真正的还是改变了图像。
translated by 谷歌翻译
是的 - 这项研究研究了普通位置的损失图像压缩对受试者的种族特征的面部识别算法的影响。我们采用了最近提出的基于种族表型的偏见分析方法,以衡量种族表型类别中不同损失压缩水平的影响。此外,我们确定了色度补充采样和与种族相关的表型之间的关系,以识别表现。先前的工作调查了损失的JPEG压缩算法对当代面部识别性能的影响。但是,这种影响与不同种族相关的截面组以及这种影响的原因存在差距。通过广泛的实验设置,我们证明了常见的损失图像压缩方法对特定种族表型类别(例如较深的肤色(最高34.55 \%))的面部识别性能具有更明显的负面影响。此外,在压缩过程中除去色度补充采样可提高所有受压缩影响的表型类别的错误匹配率(高达15.95 \%),包括较深的肤色,宽阔的鼻子,大嘴唇,大嘴唇和单层眼类别。此外,我们概述了可能归因于这种现象的基本原因的特征,例如JPEG等有损压缩算法。
translated by 谷歌翻译
自动面部识别是一个知名的研究领域。在该领域的最后三十年的深入研究中,已经提出了许多不同的面部识别算法。随着深度学习的普及及其解决各种不同问题的能力,面部识别研究人员集中精力在此范式下创建更好的模型。从2015年开始,最先进的面部识别就植根于深度学习模型。尽管有大规模和多样化的数据集可用于评估面部识别算法的性能,但许多现代数据集仅结合了影响面部识别的不同因素,例如面部姿势,遮挡,照明,面部表情和图像质量。当算法在这些数据集上产生错误时,尚不清楚哪些因素导致了此错误,因此,没有指导需要多个方向进行更多的研究。这项工作是我们以前在2014年开发的作品的后续作品,最终于2016年发表,显示了各种面部方面对面部识别算法的影响。通过将当前的最新技术与过去的最佳系统进行比较,我们证明了在强烈的遮挡下,某些类型的照明和强烈表达的面孔是深入学习算法所掌握的问题,而具有低分辨率图像的识别,极端的姿势变化和开放式识别仍然是一个开放的问题。为了证明这一点,我们使用六个不同的数据集和五种不同的面部识别算法以开源和可重现的方式运行一系列实验。我们提供了运行所有实验的源代码,这很容易扩展,因此在我们的评估中利用自己的深网只有几分钟的路程。
translated by 谷歌翻译
在本文中,我们分析了面部图像中基本身份的基本3D形状如何扭曲其整体外观,尤其是从深面识别的角度来看。正如在流行的训练数据增强方案中所做的那样,我们以随机选择或最合适的3D面部模型的形式渲染真实和合成的面部图像,以产生基本身份的新视图。我们比较了这些图像产生的深度特征,以评估这些渲染引入原始身份的扰动。我们以各种程度的面部偏航进行了这种分析,基本身份的性别和种族各不相同。此外,我们调查在这些渲染图像中添加某种形式的上下文和背景像素,当用作训练数据时,进一步改善了面部识别模型的下游性能。我们的实验证明了面部形状在准确的面部匹配中的重要性,并基于上下文数据对网络训练的重要性。
translated by 谷歌翻译
面部检测是计算机愿景领域的长期挑战,最终目标是准确地将人类面临着不受约束的环境。由于与姿势,图像分辨率,照明,闭塞和观点相关的混淆因素,使这些系统具有重要的技术障碍。据说,随着最近的机器学习的发展,面部检测系统实现了非凡的准确性,主要是基于数据驱动的深度学习模型[70]。虽然鼓励,限制了部署系统的面部检测性能和社会责任的关键方面是人类外观的固有多样性。每个人类的外表都反映了一个人的东西,包括他们的遗产,身份,经验和自我表达的可见表现。但是,有关面部检测系统如何在面对不同的面部尺寸和形状,肤色,身体修改和身体装饰方面进行良好的表现问题。为了实现这一目标,我们收集了独特的人类外观数据集,这是一种图像集,表示具有低频率的外观,并且往往是面部数据集的缺点。然后,我们评估了当前最先进的脸部检测模型,其能够检测这些图像中的面部。评估结果表明,面部检测算法对这些不同的外观没有概括。评估和表征当前的面部检测模型的状态将加速研究和开发,以创造更公平和更准确的面部检测系统。
translated by 谷歌翻译
随着面部生物识别技术的广泛采用,在自动面部识别(FR)应用中区分相同的双胞胎和非双胞胎外观相似的问题变得越来越重要。由于同卵双胞胎和外观相似的面部相似性很高,因此这些面对对面部识别工具表示最困难的病例。这项工作介绍了迄今为止汇编的最大的双胞胎数据集之一,以应对两个挑战:1)确定相同双胞胎和2)的面部相似性的基线度量和2)应用此相似性措施来确定多ppelgangers的影响或外观 - Alikes,关于大面部数据集的FR性能。面部相似性度量是通过深度卷积神经网络确定的。该网络经过量身定制的验证任务进行培训,旨在鼓励网络在嵌入空间中将高度相似的面对对组合在一起,并达到0.9799的测试AUC。所提出的网络为任何两个给定的面提供了定量相似性评分,并已应用于大规模面部数据集以识别相似的面对对。还执行了一个附加分析,该分析还将面部识别工具返回的比较分数以及提议网络返回的相似性分数。
translated by 谷歌翻译
The emergence of COVID-19 has had a global and profound impact, not only on society as a whole, but also on the lives of individuals. Various prevention measures were introduced around the world to limit the transmission of the disease, including face masks, mandates for social distancing and regular disinfection in public spaces, and the use of screening applications. These developments also triggered the need for novel and improved computer vision techniques capable of (i) providing support to the prevention measures through an automated analysis of visual data, on the one hand, and (ii) facilitating normal operation of existing vision-based services, such as biometric authentication schemes, on the other. Especially important here, are computer vision techniques that focus on the analysis of people and faces in visual data and have been affected the most by the partial occlusions introduced by the mandates for facial masks. Such computer vision based human analysis techniques include face and face-mask detection approaches, face recognition techniques, crowd counting solutions, age and expression estimation procedures, models for detecting face-hand interactions and many others, and have seen considerable attention over recent years. The goal of this survey is to provide an introduction to the problems induced by COVID-19 into such research and to present a comprehensive review of the work done in the computer vision based human analysis field. Particular attention is paid to the impact of facial masks on the performance of various methods and recent solutions to mitigate this problem. Additionally, a detailed review of existing datasets useful for the development and evaluation of methods for COVID-19 related applications is also provided. Finally, to help advance the field further, a discussion on the main open challenges and future research direction is given.
translated by 谷歌翻译