机器学习(ML)模型越来越多地被用于通常涉及与人类专家合作的应用领域。在这种情况下,当很难预测ML模型时,将某些实例推荐给单个人类专家可能是有利的。尽管以前的工作重点是与一位截然不同的人类专家的场景,但在许多现实情况下,可能会有一些具有不同功能的人类专家。在这项工作中,我们提出了一种培训分类模型以补充多名人类专家的能力的方法。通过共同培训分类器与分配系统,分类器学会学会准确预测那些对人类专家难以进行的实例,而分配系统学会将每个实例传递给最合适的团队成员 - 分类器或一员人类专家。我们在公共数据集的多个实验中评估了我们提出的方法,并使用“合成”专家和由多个放射科医生注释的现实世界医学数据集。我们的方法表现优于先前的工作,比最好的人类专家或分类器更准确。此外,它灵活适应各种大小和不同水平的专家多样性的团队。
translated by 谷歌翻译
多条证据表明预测模型可能受益于算法分类。在算法分类下,预测模型不会预测所有情况,而是将其中一些人迁移到人类专家。然而,在算法分类下模型的预测准确性与人类专家之间的相互作用并不充分理解。在这项工作中,我们首先正式表征在这种情况下,在这种情况下,预测模型可能受益于算法分类。在这样做时,我们还证明了用于完整自动化培训的模型可能是在分类下的次优。然后,给定任何模型和所需的分类级别,我们示出了最佳分类策略是确定性阈值规则,其中通过在每个实例级别上的模型和人为错误之间的差异来确定分类决策。建立这些结果,我们介绍了一种实用的基于梯度的算法,保证找到一系列分类策略和提高性能的预测模型。来自两个重要应用的合成和实际数据的各种监督学习任务的实验 - 内容调度和科学发现 - 说明了我们的理论结果,并表明我们的梯度基算法提供的模型和分类策略优于所提供的算法几个竞争的基线。
translated by 谷歌翻译
机器学习(ML)越来越多地用于支持高风险的决策,这是由于其相对于人类评估的优势预测能力的承诺而欠的趋势。但是,决策目标与观察到的作为训练ML模型的标签的结果中捕获的内容之间经常存在差距。结果,机器学习模型可能无法捕获决策标准的重要维度,从而阻碍了他们的决策支持。在这项工作中,我们探讨了历史专家决策作为组织信息系统中通常可用的丰富(但不完美)的信息来源,并表明它可以利用它来弥合决策目标与算法目标之间的差距。当数据中的每个案例都由单个专家评估并提出基于影响函数的方法作为解决此问题的解决方案时,我们会间接考虑估计专家一致性的问题。然后,我们将估计的专家一致性通过培训时间标签合并方法纳入预测模型。这种方法使ML模型可以在有推断的专家一致性和观察标签的情况下向专家学习。我们还提出了通过混合和延期模型来利用推断一致性的替代方法。在我们的经验评估中,专注于儿童虐待热线筛查的背景下,我们表明(1)有一些高风险案例,其风险是专家考虑的,但在目标标签中没有完全捕获用于培训已部署模型和培训的目标标签(2)提出的方法可显着提高这些情况的精度。
translated by 谷歌翻译
人类AI合作(HAIC)在决策中的合作旨在在人类决策者和AI系统之间建立协同团队。学会推迟(L2D)已作为一个有前途的框架,以确定人类中的谁和人工智能应采取哪些决定,以优化联合系统的性能和公平性。然而,L2D需要几个通常不可行的要求,例如,人类对每个实例的预测可用性,或独立于上述决策者的地面标签。此外,L2D和其他方法都没有解决在现实世界中部署HAIC的基本问题,例如能力管理或处理动态环境。在本文中,我们旨在识别和审查这些局限性和其他局限性,指出HAIC未来研究的机会可能会在哪里。
translated by 谷歌翻译
学习推迟(L2D)框架有可能使AI系统更安全。对于给定的输入,如果人类比模型更有可能采取正确的行动,则系统可以将决定推迟给人类。我们研究L2D系统的校准,研究它们输出的概率是否合理。我们发现Mozannar&Sontag(2020)多类框架没有针对专家正确性进行校准。此外,由于其参数化是为此目的而退化的,因此甚至不能保证产生有效的概率。我们提出了一个基于单VS-ALL分类器的L2D系统,该系统能够产生专家正确性的校准概率。此外,我们的损失功能也是多类L2D的一致替代,例如Mozannar&Sontag(2020)。我们的实验验证了我们的系统校准不仅是我们的系统校准,而且这种好处无需准确。我们的模型的准确性始终可与Mozannar&Sontag(2020)模型的模型相当(通常是优越),从仇恨言语检测到星系分类到诊断皮肤病变的任务。
translated by 谷歌翻译
Automated decision support systems promise to help human experts solve tasks more efficiently and accurately. However, existing systems typically require experts to understand when to cede agency to the system or when to exercise their own agency. Moreover, if the experts develop a misplaced trust in the system, their performance may worsen. In this work, we lift the above requirement and develop automated decision support systems that, by design, do not require experts to understand when each of their recommendations is accurate to improve their performance. To this end, we focus on multiclass classification tasks and consider an automated decision support system that, for each data sample, uses a classifier to recommend a subset of labels to a human expert. We first show that, by looking at the design of such a system from the perspective of conformal prediction, we can ensure that the probability that the recommended subset of labels contains the true label matches almost exactly a target probability value with high probability. Then, we develop an efficient and near-optimal search method to find the target probability value under which the expert benefits the most from using our system. Experiments on synthetic and real data demonstrate that our system can help the experts make more accurate predictions and is robust to the accuracy of the classifier it relies on.
translated by 谷歌翻译
专家决策者开始依靠数据驱动的自动化代理来帮助他们提供各种任务。对于此合作执行正确,人类决策者必须具有何时以及不依赖代理人的何时和何时具有智力模式。在这项工作中,我们的目标是确保人工决策者学习代理商的优势和劣势的有效心理模型。为了实现这一目标,我们提出了一个基于示例的教学策略,人类在代理人的帮助下解决任务并尝试制定一组何时和不推迟的指导方针。我们提出了一种新颖的AI的心理模型的参数化,其在教学示例周围的当地地区应用最近的邻居规则。使用此模型,我们推出了选择代表教学集的近最优策略。我们验证了我们在使用人群工人的多跳问题回答任务中对教学战略的好处,并发现当工人从教学阶段绘制正确的教训时,他们的任务性能提高了,我们还在一组合成实验上验证了我们的方法。
translated by 谷歌翻译
Concept bottleneck models (CBMs) (Koh et al. 2020) are interpretable neural networks that first predict labels for human-interpretable concepts relevant to the prediction task, and then predict the final label based on the concept label predictions.We extend CBMs to interactive prediction settings where the model can query a human collaborator for the label to some concepts. We develop an interaction policy that, at prediction time, chooses which concepts to request a label for so as to maximally improve the final prediction. We demonstrate thata simple policy combining concept prediction uncertainty and influence of the concept on the final prediction achieves strong performance and outperforms a static approach proposed in Koh et al. (2020) as well as active feature acquisition methods proposed in the literature. We show that the interactiveCBM can achieve accuracy gains of 5-10% with only 5 interactions over competitive baselines on the Caltech-UCSDBirds, CheXpert and OAI datasets.
translated by 谷歌翻译
人为决策的合作努力实现超出人类或人工智能表现的团队绩效。但是,许多因素都会影响人类团队的成功,包括用户的领域专业知识,AI系统的心理模型,对建议的信任等等。这项工作检查了用户与三种模拟算法模型的互动,所有这些模型都具有相似的精度,但对其真正的正面和真实负率进行了不同的调整。我们的研究检查了在非平凡的血管标签任务中的用户性能,参与者表明给定的血管是流动还是停滞。我们的结果表明,虽然AI-Assistant的建议可以帮助用户决策,但用户相对于AI的基线性能和AI错误类型的补充调整等因素会显着影响整体团队的整体绩效。新手用户有所改善,但不能达到AI的准确性。高度熟练的用户通常能够识别何时应遵循AI建议,并通常保持或提高其性能。与AI相似的准确性水平的表演者在AI建议方面是最大的变化。此外,我们发现用户对AI的性能亲戚的看法也对给出AI建议时的准确性是否有所提高产生重大影响。这项工作提供了有关与人类协作有关的因素的复杂性的见解,并提供了有关如何开发以人为中心的AI算法来补充用户在决策任务中的建议。
translated by 谷歌翻译
人工智能的最新趋势是将验证的模型用于语言和视觉任务,这些模型已经实现了非凡的表现,但也令人困惑。因此,以各种方式探索这些模型的能力对该领域至关重要。在本文中,我们探讨了模型的可靠性,在其中我们将可靠的模型定义为一个不仅可以实现强大的预测性能,而且在许多涉及不确定性(例如选择性预测,开放式设置识别)的决策任务上,在许多决策任务上表现出色,而且表现良好。强大的概括(例如,准确性和适当的评分规则,例如在分布数据集中和分发数据集上的对数可能性)和适应性(例如,主动学习,几乎没有射击不确定性)。我们设计了40个数据集的10种任务类型,以评估视觉和语言域上可靠性的不同方面。为了提高可靠性,我们分别开发了VIT-PLEX和T5-PLEX,分别针对视觉和语言方式扩展了大型模型。 PLEX极大地改善了跨可靠性任务的最先进,并简化了传统协议,因为它可以改善开箱即用的性能,并且不需要设计分数或为每个任务调整模型。我们演示了高达1B参数的模型尺寸的缩放效果,并预处理数据集大小最多4B示例。我们还展示了PLEX在具有挑战性的任务上的功能,包括零射门的开放式识别,主动学习和对话语言理解中的不确定性。
translated by 谷歌翻译
The ability to quickly and accurately identify covariate shift at test time is a critical and often overlooked component of safe machine learning systems deployed in high-risk domains. While methods exist for detecting when predictions should not be made on out-of-distribution test examples, identifying distributional level differences between training and test time can help determine when a model should be removed from the deployment setting and retrained. In this work, we define harmful covariate shift (HCS) as a change in distribution that may weaken the generalization of a predictive model. To detect HCS, we use the discordance between an ensemble of classifiers trained to agree on training data and disagree on test data. We derive a loss function for training this ensemble and show that the disagreement rate and entropy represent powerful discriminative statistics for HCS. Empirically, we demonstrate the ability of our method to detect harmful covariate shift with statistical certainty on a variety of high-dimensional datasets. Across numerous domains and modalities, we show state-of-the-art performance compared to existing methods, particularly when the number of observed test samples is small.
translated by 谷歌翻译
业务分析和机器学习已成为各个行业的基本成功因素 - 具有成本密集的收集和数据标签的缺点。很少有学习可以解决这一挑战,并通过学习新颖的课程的标记数据来减少数据收集和标记成本。在本文中,我们设计了一个人类的(HITL)系统,用于几次学习,并分析了广泛的机制,这些机制可用于获得不确定预测结果的实例的人类专家知识。我们表明,获得人类专家知识的获取可以显着加速鉴于可忽略的标签工作,这使得少量模型的表现。我们在计算机视觉和现实世界数据集中的基准数据集上的各种实验中验证了我们的发现。我们进一步证明了HITL系统的成本效益,用于几次学习。总体而言,我们的工作旨在支持研究人员和从业人员有效地将机器学习模型以降低的成本调整为新颖的课程。
translated by 谷歌翻译
Jitendra Malik once said, "Supervision is the opium of the AI researcher". Most deep learning techniques heavily rely on extreme amounts of human labels to work effectively. In today's world, the rate of data creation greatly surpasses the rate of data annotation. Full reliance on human annotations is just a temporary means to solve current closed problems in AI. In reality, only a tiny fraction of data is annotated. Annotation Efficient Learning (AEL) is a study of algorithms to train models effectively with fewer annotations. To thrive in AEL environments, we need deep learning techniques that rely less on manual annotations (e.g., image, bounding-box, and per-pixel labels), but learn useful information from unlabeled data. In this thesis, we explore five different techniques for handling AEL.
translated by 谷歌翻译
医疗保健提供者通常会记录给每位患者提供临床,研究和计费目的的临床护理的详细说明。由于这些叙述的非结构性性质,提供者使用专门的员工使用国际疾病(ICD)编码系统为患者的诊断分配诊断代码。此手动过程不仅耗时,而且昂贵且容易出错。先前的工作证明了机器学习(ML)方法在自动化此过程中的潜在效用,但它依靠大量手动标记数据来训练模型。此外,诊断编码系统随着时间的流逝而演变,这使得传统的监督学习策略无法推广到本地应用程序之外。在这项工作中,我们引入了一个普遍的弱监督文本分类框架,该框架仅从类标签描述中学习,而无需使用任何人类标记的文档。它利用预先训练的语言模型中存储的语言领域知识和数据编程框架将代码标签分配给单个文本。我们通过将方法与四个现实世界文本分类数据集中的最先进的弱文本分类器进行比较,除了将ICD代码分配给公开可用的模拟MIMIC-III数据库中的医疗注释外,我们证明了我们的方法的功效和灵活性。
translated by 谷歌翻译
最近的工作表明,当AI的预测不可靠时,可以学会推迟人类的选择性预测系统的潜在好处,特别是提高医疗保健等高赌注应用中AI系统的可靠性。然而,大多数事先工作假定当他们解决预测任务时,人类行为仍然保持不变,作为人类艾队团队的一部分而不是自己。我们表明,通过执行实验来规定在选择性预测的背景下量化人AI相互作用的实验并非如此。特别是,我们研究将不同类型信息传送给人类的影响,了解AI系统的决定推迟。使用现实世界的保护数据和选择性预测系统,可以在单独工作的人体或AI系统上提高预期准确性,我们表明,这种消息传递对人类判断的准确性产生了重大影响。我们的结果研究了消息传递策略的两个组成部分:1)人类是否被告知AI系统的预测和2)是否被告知选择性预测系统的决定推迟。通过操纵这些消息传递组件,我们表明,通过通知人类推迟的决定,可以显着提高人类的性能,但不透露对AI的预测。因此,我们表明,考虑在设计选择性预测系统时如何传送到人类的决定是至关重要的,并且必须使用循环框架仔细评估人类-AI团队的复合精度。
translated by 谷歌翻译
Models trained via empirical risk minimization (ERM) are known to rely on spurious correlations between labels and task-independent input features, resulting in poor generalization to distributional shifts. Group distributionally robust optimization (G-DRO) can alleviate this problem by minimizing the worst-case loss over a set of pre-defined groups over training data. G-DRO successfully improves performance of the worst-group, where the correlation does not hold. However, G-DRO assumes that the spurious correlations and associated worst groups are known in advance, making it challenging to apply it to new tasks with potentially multiple unknown spurious correlations. We propose AGRO -- Adversarial Group discovery for Distributionally Robust Optimization -- an end-to-end approach that jointly identifies error-prone groups and improves accuracy on them. AGRO equips G-DRO with an adversarial slicing model to find a group assignment for training examples which maximizes worst-case loss over the discovered groups. On the WILDS benchmark, AGRO results in 8% higher model performance on average on known worst-groups, compared to prior group discovery approaches used with G-DRO. AGRO also improves out-of-distribution performance on SST2, QQP, and MS-COCO -- datasets where potential spurious correlations are as yet uncharacterized. Human evaluation of ARGO groups shows that they contain well-defined, yet previously unstudied spurious correlations that lead to model errors.
translated by 谷歌翻译
我们介绍MedCod,一种医学准确,情感,多样化和可控的对话系统,具有独特的自然语言发生器模块的方法。 MedCod已经开发并专门为历史为任务进行了评估。它集成了传统模块化方法的优势,使(医学)域知识与现代深层学习技术结合起来,以产生灵活的人类自然语言表达。详细描述了Medcod的自然语言输出的两个关键方面。首先,生成的句子是情绪化的,同样地看着医生如何与患者沟通。其次,生成的句子结构和措辞是多样化的,同时保持与所需医学概念的医疗一致性(由Medcod的对话管理器模块提供)。实验结果表明了我们在创造人类医疗对话系统方面的有效性。相关代码在https://github.com/curai/curai-research/tree/main/medcod提供
translated by 谷歌翻译
深度学习模型正在应用于越来越多的成功案例中,但是他们在现实世界中的表现如何?为了测试模型,组装了特定的清洁数据集。但是,当部署在现实世界中时,该模型将面临意外的分布(OOD)数据。在这项工作中,我们表明所谓的“放射科医生级” Chexnet模型未能识别所有OOD图像,并将其归类为肺部疾病。为了解决这个问题,我们提出了分发投票,这是一种对多标签分类的分布图像进行分类的新方法。使用在ID和OOD数据上训练的独立课程分布(ID)预测指标,我们平均达到99%的ID分类特异性和98%的敏感性,与胸部上以前的作品相比,端到端的性能显着提高X射线14个数据集。即使仅用ImageNet作为OOD数据训练并使用X射线OOD图像进行测试,我们的方法即使仅用Imagenet进行训练,也超过了其他基于输出的OOD检测器。
translated by 谷歌翻译
超参数优化构成了典型的现代机器学习工作流程的很大一部分。这是由于这样一个事实,即机器学习方法和相应的预处理步骤通常只有在正确调整超参数时就会产生最佳性能。但是在许多应用中,我们不仅有兴趣仅仅为了预测精度而优化ML管道;确定最佳配置时,必须考虑其他指标或约束,从而导致多目标优化问题。由于缺乏知识和用于多目标超参数优化的知识和容易获得的软件实现,因此通常在实践中被忽略。在这项工作中,我们向读者介绍了多个客观超参数优化的基础知识,并激励其在应用ML中的实用性。此外,我们从进化算法和贝叶斯优化的领域提供了现有优化策略的广泛调查。我们说明了MOO在几个特定ML应用中的实用性,考虑了诸如操作条件,预测时间,稀疏,公平,可解释性和鲁棒性之类的目标。
translated by 谷歌翻译
主动学习(AL)算法旨在识别注释的最佳数据子集,使得深神经网络(DNN)在此标记子集上培训时可以实现更好的性能。 AL特别有影响的工业规模设置,其中数据标签成本高,从业者使用各种工具来处理,以提高模型性能。最近自我监督预测(SSP)的成功突出了利用丰富的未标记数据促进模型性能的重要性。通过将AL与SSP结合起来,我们可以使用未标记的数据,同时标记和培训特别是信息样本。在这项工作中,我们研究了Imagenet上的AL和SSP的组合。我们发现小型玩具数据集上的性能 - 文献中的典型基准设置 - 由于活动学习者选择的类不平衡样本,而不是想象中的性能。在我们测试的现有基线中,各种小型和大规​​模设置的流行AL算法未能以随机抽样优于差异。为了解决类别不平衡问题,我们提出了平衡选择(基础),这是一种简单,可伸缩的AL算法,通过选择比现有方法更加平衡样本来始终如一地始终采样。我们的代码可用于:https://github.com/zeyademam/active_learning。
translated by 谷歌翻译