智能论文笔记

Fair Ranking with Noisy Protected Attributes

Anay Mehrotra , Nisheeth K. Vishnoi

分类：机器学习 | (统计)机器学习

2022-11-30

The fair-ranking problem, which asks to rank a given set of items to maximize utility subject to group fairness constraints, has received attention in the fairness, information retrieval, and machine learning literature. Recent works, however, observe that errors in socially-salient (including protected) attributes of items can significantly undermine fairness guarantees of existing fair-ranking algorithms and raise the problem of mitigating the effect of such errors. We study the fair-ranking problem under a model where socially-salient attributes of items are randomly and independently perturbed. We present a fair-ranking framework that incorporates group fairness requirements along with probabilistic information about perturbations in socially-salient attributes. We provide provable guarantees on the fairness and utility attainable by our framework and show that it is information-theoretically impossible to significantly beat these guarantees. Our framework works for multiple non-disjoint attributes and a general class of fairness constraints that includes proportional and equal representation. Empirically, we observe that, compared to baselines, our algorithm outputs rankings with higher fairness, and has a similar or better fairness-utility trade-off compared to baselines.

translated by 谷歌翻译

Selection in the Presence of Implicit Bias: The Advantage of Intersectional Constraints

Anay Mehrotra , Bary S. R. Pradelski , Nisheeth K. Vishnoi

分类：人工智能 | 机器学习 | (统计)机器学习

2022-02-03

在招聘，晋升和大学录取等选择过程中，众所周知，候选人的种族，性别或性取向等社会质量属性的隐性偏见会造成持久的不平等，并减少决策者的总效用。已经提出了诸如鲁尼规则及其概括之类的干预措施，这些干预措施要求决策者至少选择每个受影响组的指定数量的个体，以减轻隐性偏见在选择中的不利影响。最近的工作已经确定，在每个人最多属于一个受影响的群体的情况下，这种较低的约束对于改善总效用可能非常有效。但是，在某些情况下，个人可能属于多个受影响的群体，因此，由于这种交叉性，面临更大的隐含偏见。我们考虑独立绘制的实用程序，并表明在相交的情况下，上述非交流约束只能在没有隐性偏见的情况下恢复可实现的总效用的一部分。另一方面，我们表明，如果一个人在交叉点上包含适当的下限约束，那么在没有隐式偏见的情况下，几乎所有实用程序都可以恢复。因此，相交的约束可以比减少尺寸的非相互作用方法可提供显着优势，以减少不平等。

translated by 谷歌翻译

Fairness for AUC via Feature Augmentation

Hortense Fong , Vineet Kumar , Anay Mehrotra , Nisheeth K. Vishnoi

分类：机器学习 | 人工智能 | (统计)机器学习

2021-11-24

我们在分类的背景下研究公平，其中在接收器的曲线下的区域（AUC）下的区域测量的性能。当I型（误报）和II型（假阴性）错误都很重要时，通常使用AUC。然而，相同的分类器可以针对不同的保护组具有显着变化的AUC，并且在现实世界中，通常希望减少这种交叉组差异。我们解决如何选择其他功能，以便最大地改善弱势群体的AUC。我们的结果表明，功能的无条件方差不会通知我们关于AUC公平，而是类条件方差。使用此连接，我们基于功能增强（添加功能）来开发一种新颖的方法Fairauc，以减轻可识别组之间的偏差。我们评估综合性和现实世界（Compas）数据集的Fairauc，并发现它对于相对于基准，最大限度地提高了总体AUC并最大限度地减少了组之间的偏见的基准，它显着改善了弱势群体的AUC。

translated by 谷歌翻译

Fair Classification with Adversarial Perturbations

L. Elisa Celis , Anay Mehrotra , Nisheeth K. Vishnoi

分类：机器学习 | 人工智能 | (统计)机器学习

2021-06-10

我们在禁用的对手存在下研究公平分类，允许获得$ \ eta $，选择培训样本的任意$ \ eta $ -flaction，并任意扰乱受保护的属性。由于战略误报，恶意演员或归责的错误，受保护属性可能不正确的设定。和现有的方法，使随机或独立假设对错误可能不满足其在这种对抗环境中的保证。我们的主要贡献是在这种对抗的环境中学习公平分类器的优化框架，这些普遍存在的准确性和公平性提供了可证明的保证。我们的框架适用于多个和非二进制保护属性，专为大类线性分数公平度量设计，并且还可以处理除了受保护的属性之外的扰动。我们证明了我们框架的近密性，对自然假设类别的保证：没有算法可以具有明显更好的准确性，并且任何具有更好公平性的算法必须具有较低的准确性。凭经验，我们评估了我们对统计率的统计税务统计税率为一个对手的统计税率产生的分类机。

translated by 谷歌翻译

Task Preferences across Languages on Community Question Answering Platforms

Sebastin Santy , Prasanta Bhattacharya , Rishabh Mehrotra

分类：自然语言处理

2022-12-18

With the steady emergence of community question answering (CQA) platforms like Quora, StackExchange, and WikiHow, users now have an unprecedented access to information on various kind of queries and tasks. Moreover, the rapid proliferation and localization of these platforms spanning geographic and linguistic boundaries offer a unique opportunity to study the task requirements and preferences of users in different socio-linguistic groups. In this study, we implement an entity-embedding model trained on a large longitudinal dataset of multi-lingual and task-oriented question-answer pairs to uncover and quantify the (i) prevalence and distribution of various online tasks across linguistic communities, and (ii) emerging and receding trends in task popularity over time in these communities. Our results show that there exists substantial variance in task preference as well as popularity trends across linguistic communities on the platform. Findings from this study will help Q&A platforms better curate and personalize content for non-English users, while also offering valuable insights to businesses looking to target non-English speaking communities online.

translated by 谷歌翻译

Federated Self-supervised Speech Representations: Are We There Yet?

Yan Gao , Javier Fernandez-Marques , Titouan Parcollet , Abhinav Mehrotra , Nicholas D. Lane

分类：机器学习

2022-04-06

支持麦克风的设备的无处不在导致在边缘生产大量未标记的音频数据。自我监督学习（SSL）和联合学习（FL）的整合到一个连贯的系统中，可以提供数据隐私保证，同时还可以提高语音表示的质量和稳健性。在本文中，从算法，硬件和系统限制的角度来看，我们对FL场景下的培训语音SSL模型的可行性和复杂性提供了首个系统研究。尽管它们的组合具有很高的潜力，但我们发现现有的系统限制和算法行为使SSL和FL系统几乎无法构建。然而，至关重要的是，我们的结果表明了特定的绩效瓶颈和研究机会，这将使这种情况得到逆转。尽管我们的分析表明，鉴于硬件的现有趋势，混合SSL和FL语音系统要等到2027年才能可行。我们认为，这项研究可以成为加速工作以提早达到这一里程碑的路线图。

translated by 谷歌翻译

A real-time spatiotemporal AI model analyzes skill in open surgical videos

Emmett D. Goodman , Krishna K. Patel , Yilun Zhang , William Locke , Chris J. Kennedy , Rohan Mehrotra , Stephen Ren , Melody Guan , Maren Downing , Hao Wei Chen

分类：计算机视觉 | 人工智能

2021-12-14

开放程序代表全球手术的主要形式。人工智能（AI）有可能优化手术实践并改善患者结果，但努力主要集中在微创技术上。我们的工作通过策划，从YouTube，从YouTube，Open Surgical视频的最大数据集克服了培训AI模型的现有数据限制：1997年从50个国家上传的23个外科手术的视频。使用此数据集，我们开发了一种能够实时了解外科行为，手和工具的多任务AI模型 - 程序流程和外科医生技能的构建块。我们表明我们的模型推广了各种外科类型和环境。说明这种普遍性，我们直接应用了YouTube培训的模型，分析了在学术医疗中心前瞻性收集的开放式手术，并确定了与手动效率相关的外科技能的运动学描述符。我们的开放外科（AVOS）数据集和培训模式的注释视频将可用于进一步发展外科艾。

translated by 谷歌翻译

Attention Guided Cosine Margin For Overcoming Class-Imbalance in Few-Shot Road Object Detection

Ashutosh Agarwal , Anay Majee , Anbumani Subramanian , Chetan Arora

分类：计算机视觉 | 人工智能

2021-11-12

几次拍摄对象检测（FSOD）仅定位并在图像中分类对象仅给出一些数据样本。最近的FSOD研究趋势显示了公制和元学习技术的采用，这易于灾难性的遗忘和课堂混乱。为了克服基于度量学习的FSOD技术的这些陷阱，我们介绍了引入引导的余弦余量（AGCM），这有助于在对象检测器的分类头中创建更严格和良好的分离类特征群集。我们的新型专注提案融合（APF）模块通过降低共同发生的课程中的阶级差异来最大限度地减少灾难性遗忘。与此同时，拟议的余弦保证金交叉熵损失增加了混淆课程之间的角度裕度，以克服已经学习（基地）和新添加（新）类的课堂混淆的挑战。我们对挑战印度驾驶数据集（IDD）进行了实验，这呈现了一个现实世界类别 - 不平衡的环境，与流行的FSOD基准Pascal-VOC相同。我们的方法优于最先进的（SOTA）在IDD-OS上最多可达6.4个地图点，并且在IDD-10上的2.0次映射点为10次拍摄设置。在Pascal-Voc数据集上，我们优先于现有的SOTA方法，最多可达4.9个地图点。

translated by 谷歌翻译

CAPITAL: Optimal Subgroup Identification via Constrained Policy Tree Search

Hengrui Cai , Wenbin Lu , Rachel Marceau West , Devan V. Mehrotra , Lingkang Huang

分类： (统计)机器学习 | 机器学习

2021-10-11

个性化医学是针对患者特征量身定制的医学范式，是医疗保健中越来越有吸引力的领域。个性化医学的一个重要目标是根据基线协变量鉴定患者的亚组，而与其他比较治疗相比，从目标治疗中受益更多。当前的大多数亚组识别方法仅着重于获得具有增强治疗效果的亚组，而无需注意亚组大小。但是，临床上有意义的亚组学习方法应确定可以从更好的治疗中受益的患者数量的最大数量。在本文中，我们提出了一项最佳的亚组选择规则（SSR），该规则最大化选定的患者的数量，同时，达到了预先指定的临床意义上有意义的平均结果，例如平均治疗效果。我们基于描述结果中的处理 - 果膜相互作用的对比函数，得出了最佳SSR的两种等效理论形式。我们进一步提出了一个受约束的策略树搜索算法（资本），以在可解释的决策树类中找到最佳SSR。所提出的方法是灵活的，可以处理多种限制因素，以惩罚具有负面治疗效果的患者，并使用受限的平均生存时间作为临床上有趣的平均结果来解决事件数据的时间。进行了广泛的模拟，比较研究和实际数据应用，以证明我们方法的有效性和实用性。

translated by 谷歌翻译