智能论文笔记

Policy learning with asymmetric utilities

Eli Ben-Michael , Kosuke Imai , Zhichao Jiang

分类： (统计)机器学习 | 机器学习

2022-06-21

即使在医学和公共政策等高风险设置中，数据驱动的决策也起着重要作用。从观察到的数据中学习最佳策略需要仔细制定效用函数，该功能的期望值在人群中最大化。尽管研究人员通常使用仅依赖于观察到的结果的实用程序，但在许多情况下，决策者的效用函数的特征是所有动作下的潜在结果集合。例如，``不伤害''的希波克拉底原则意味着，在未经治疗的情况下生存的患者导致死亡的成本大于预防救生治疗的成本。我们考虑使用此形式的不对称效用功能的最佳政策学习。我们表明，不对称公用事业会导致无法识别的社会福利功能，因此我们首先部分识别它。利用统计决策理论，我们通过最大程度地减少相对于替代政策的最大遗憾来得出最小的决策规则。我们表明，可以通过解决中间分类问题从观察到的数据中学习最小值决策规则。我们还确定，此过程的有限样本遗憾是由这些中间分类器的错误分类率界定的。我们将此概念框架和方法应用于有关是否使用肺高血压患者是否使用正确的心脏导管插入术的决定。

translated by 谷歌翻译

Safe Policy Learning through Extrapolation: Application to Pre-trial Risk Assessment

Eli Ben-Michael , D. James Greiner , Kosuke Imai , Zhichao Jiang

分类： (统计)机器学习 | 机器学习

2021-09-22

在当今的社会中，算法建议和决策已经变得普遍存在。其中许多和其他数据驱动的政策，特别是在公共政策领域，基于已知的确定性规则，以确保其透明度和可解释性。例如，算法预审风险评估，即作为我们的激励申请，提供相对简单，确定性的分类分数和建议，以帮助法官发出释放决策。我们如何根据现有的确定性政策使用数据，并学习新的和更好的策略？不幸的是，策略学习的先前方法不适用，因为它们需要现有的政策是随机而非确定性的。我们开发了一种强大的优化方法，部分地识别策略的预期效用，然后通过最小化最坏情况后悔找到最佳策略。由此产生的政策是保守的，但具有统计安全保障，允许政策制定者限制产生比现有政策更糟糕的结果的可能性。我们将这种方法扩展到人类借助算法建议作出决策的共同和重要的环境。最后，我们将提议的方法应用于预审风险评估工具的独特现场实验。我们推出了新的分类和推荐规则，以保留现有仪器的透明度和可解释性，同时可能以较低的成本导致更好的整体结果。

translated by 谷歌翻译

Fair Policy Targeting

Davide Viviano , Jelena Bradic

分类： (统计)机器学习

2020-05-25

针对社会福利计划中个人的干预措施的主要问题之一是歧视：个性化治疗可能导致跨年龄，性别或种族等敏感属性的差异。本文解决了公平有效的治疗分配规则的设计问题。我们采用了第一次的非遗憾视角，没有危害：我们选择了帕累托边境中最公平的分配。我们将优化投入到混合构成线性程序公式中，可以使用现成的算法来解决。我们对估计的政策功能的不公平性和在帕累托前沿的不公平保证在一般公平概念下的不公平性范围内得出了遗憾。最后，我们使用教育经济学的应用来说明我们的方法。

translated by 谷歌翻译

Counterfactual Risk Assessments under Unmeasured Confounding

Ashesh Rambachan , Amanda Coston , Edward Kennedy

分类：机器学习

2022-12-19

Statistical risk assessments inform consequential decisions such as pretrial release in criminal justice, and loan approvals in consumer finance. Such risk assessments make counterfactual predictions, predicting the likelihood of an outcome under a proposed decision (e.g., what would happen if we approved this loan?). A central challenge, however, is that there may have been unmeasured confounders that jointly affected past decisions and outcomes in the historical data. This paper proposes a tractable mean outcome sensitivity model that bounds the extent to which unmeasured confounders could affect outcomes on average. The mean outcome sensitivity model partially identifies the conditional likelihood of the outcome under the proposed decision, popular predictive performance metrics (e.g., accuracy, calibration, TPR, FPR), and commonly-used predictive disparities. We derive their sharp identified sets, and we then solve three tasks that are essential to deploying statistical risk assessments in high-stakes settings. First, we propose a doubly-robust learning procedure for the bounds on the conditional likelihood of the outcome under the proposed decision. Second, we translate our estimated bounds on the conditional likelihood of the outcome under the proposed decision into a robust, plug-in decision-making policy. Third, we develop doubly-robust estimators of the bounds on the predictive performance of an existing risk assessment.

translated by 谷歌翻译

Generalizing Off-Policy Learning under Sample Selection Bias

Tobias Hatt , Daniel Tschernutter , Stefan Feuerriegel

分类： (统计)机器学习 | 机器学习

2021-12-02

学习概括目标人口的个性化决定政策具有很大的相关性。由于培训数据往往没有代表目标人群，因此标准政策学习方法可以产生不概括目标人群的政策。为了解决这一挑战，我们提出了一种新颖的框架，用于学习概括目标人口的政策。为此，我们将训练数据和目标群体之间的差异描述为使用选择变量的采样选择偏差。在此选择变量周围设置的不确定性，我们优化了策略的最低限度值，以实现目标人口的最佳案例策略值。为了解决Minimax问题，我们基于凸凹过程推出了一种高效的算法，并证明了对逻辑策略等策略的参数化空间的收敛性。我们证明，如果不确定性集被详细说明，我们的政策会推广到目标人口，因为它们不能比培训数据更糟糕。使用模拟数据和临床试验，我们证明，与标准政策学习方法相比，我们的框架大大提高了政策的普遍性。

translated by 谷歌翻译

Evaluating Treatment Prioritization Rules via Rank-Weighted Average Treatment Effects

Steve Yadlowsky , Scott Fleming , Nigam Shah , Emma Brunskill , Stefan Wager

分类： (统计)机器学习

2021-11-15

有许多可用于选择优先考虑治疗的可用方法，包括基于治疗效果估计，风险评分和手工制作规则的遵循申请。我们将秩加权平均治疗效应（RATY）指标作为一种简单常见的指标系列，用于比较水平竞争范围的治疗优先级规则。对于如何获得优先级规则，率是不可知的，并且仅根据他们在识别受益于治疗中受益的单位的方式进行评估。我们定义了一系列速率估算器，并证明了一个中央限位定理，可以在各种随机和观测研究环境中实现渐近精确的推断。我们为使用自主置信区间的使用提供了理由，以及用于测试关于治疗效果中的异质性的假设的框架，与优先级规则相关。我们对速率的定义嵌套了许多现有度量，包括QINI系数，以及我们的分析直接产生了这些指标的推论方法。我们展示了我们从个性化医学和营销的示例中的方法。在医疗环境中，使用来自Sprint和Accor-BP随机对照试验的数据，我们发现没有明显的证据证明异质治疗效果。另一方面，在大量的营销审判中，我们在一些数字广告活动的治疗效果中发现了具有的强大证据，并证明了如何使用率如何比较优先考虑估计风险的目标规则与估计治疗效益优先考虑的目标规则。

translated by 谷歌翻译

Policy design in experiments with unknown interference

Davide Viviano

分类：机器学习

2020-11-16

本文提出了一种估计溢出效应存在福利最大化政策的实验设计。我考虑一个设置在其中组织成一个有限数量的大型群集，并在每个群集中以不观察到的方式交互。作为第一种贡献，我介绍了一个单波实验，以估计治疗概率的变化的边际效应，以考虑到溢出率，并测试政策最优性。该设计在群集中独立地随机化处理，并诱导局部扰动到对簇成对的治疗概率。使用估计的边际效应，我构建了对定期治疗分配规则最大化福利的实际测试，并且我表征了其渐近性质。该想法是，研究人员应报告对福利最大化政策的边际效应和测试的估计：边际效应表明福利改善的方向，并提供了关于是否值得进行额外实验以估计估计福利改善的证据治疗分配。作为第二种贡献，我设计了多波实验来估计治疗分配规则并最大化福利。我获得了小型样本保证，最大可获得的福利和估计政策（遗憾）评估的福利之间的差异。这种保证的必要性是，遗憾在迭代和集群的数量中线性会聚到零。校准在信息扩散和现金转移方案上校准的模拟表明，该方法导致了显着的福利改进。

translated by 谷歌翻译

Beyond IID: data-driven decision-making in heterogeneous environments

Omar Besbes , Will Ma , Omar Mouchtaki

分类：机器学习 | (统计)机器学习

2022-06-20

在这项工作中，我们研究了数据驱动的决策，并偏离了经典的相同和独立分布（I.I.D.）假设。我们提出了一个新的框架，其中我们将历史样本从未知和不同的分布中产生，我们将其配置为异质环境。假定这些分布位于具有已知半径的异质球中，并围绕（也是）未知的未来（样本外）分布，将评估决策的表现。我们量化了中央数据驱动的策略（例如样本平均近似值，也可以通过速率优势）来量化的渐近性最坏案例遗憾，这是异质性球半径的函数。我们的工作表明，在问题类别和异质性概念的不同组合中，可实现的性能类型的变化很大。我们通过比较广泛研究的数据驱动问题（例如定价，滑雪租赁和新闻顾问）的异质版本来证明框架的多功能性。在途中，我们在数据驱动的决策和分配强大的优化之间建立了新的联系。

translated by 谷歌翻译

Binary Choice with Asymmetric Loss in a Data-Rich Environment: Theory and an Application to Racial Justice

Andrii Babii , Xi Chen , Eric Ghysels , Rohit Kumar

分类： (统计)机器学习

2020-10-16

我们在具有不对称损耗功能的数据丰富的环境中研究了二元选择问题。经济学学文献涵盖非参数二元选择问题，但在富含数据的环境中没有提供计算上有吸引力的解决方案。机器学习文献具有许多算法，但主要集中在独立于协变量的损耗功能上。我们表明，通过基于损失的损失的重量或最先进的机器学习技术，可以通过非常简单的损失的重量来实现关于与一般损失函数的二元成果的理论上有效决策。我们将我们的分析应用于审前拘留中的种族正义。

translated by 谷歌翻译

Falsification before Extrapolation in Causal Effect Estimation

Zeshan Hussain , Michael Oberst , Ming-Chieh Shih , David Sontag

分类：机器学习

2022-09-27

在制定政策指南时，随机对照试验（RCT）代表了黄金标准。但是，RCT通常是狭窄的，并且缺乏更广泛的感兴趣人群的数据。这些人群中的因果效应通常是使用观察数据集估算的，这可能会遭受未观察到的混杂和选择偏见。考虑到一组观察估计（例如，来自多项研究），我们提出了一个试图拒绝偏见的观察性估计值的元偏值。我们使用验证效应，可以从RCT和观察数据中推断出的因果效应。在拒绝未通过此测试的估计器之后，我们对RCT中未观察到的亚组的外推性效应产生了保守的置信区间。假设至少一个观察估计量在验证和外推效果方面是渐近正常且一致的，我们为我们算法输出的间隔的覆盖率概率提供了保证。为了促进在跨数据集的因果效应运输的设置中，我们给出的条件下，即使使用灵活的机器学习方法用于估计滋扰参数，群体平均治疗效应的双重稳定估计值也是渐近的正常。我们说明了方法在半合成和现实世界数据集上的特性，并表明它与标准的荟萃分析技术相比。

translated by 谷歌翻译

Off-Policy Evaluation with Policy-Dependent Optimization Response

Wenshuo Guo , Michael I. Jordan , Angela Zhou

分类：机器学习

2022-02-25

The intersection of causal inference and machine learning for decision-making is rapidly expanding, but the default decision criterion remains an \textit{average} of individual causal outcomes across a population. In practice, various operational restrictions ensure that a decision-maker's utility is not realized as an \textit{average} but rather as an \textit{output} of a downstream decision-making problem (such as matching, assignment, network flow, minimizing predictive risk). In this work, we develop a new framework for off-policy evaluation with \textit{policy-dependent} linear optimization responses: causal outcomes introduce stochasticity in objective function coefficients. Under this framework, a decision-maker's utility depends on the policy-dependent optimization, which introduces a fundamental challenge of \textit{optimization} bias even for the case of policy evaluation. We construct unbiased estimators for the policy-dependent estimand by a perturbation method, and discuss asymptotic variance properties for a set of adjusted plug-in estimators. Lastly, attaining unbiased policy evaluation allows for policy optimization: we provide a general algorithm for optimizing causal interventions. We corroborate our theoretical results with numerical simulations.

translated by 谷歌翻译

Causal Inference Under Unmeasured Confounding With Negative Controls: A Minimax Learning Approach

Nathan Kallus , Xiaojie Mao , Masatoshi Uehara

分类： (统计)机器学习 | 机器学习

2021-03-25

当并非观察到所有混杂因子并获得负面对照时，我们研究因果参数的估计。最近的工作表明，这些方法如何通过两个所谓的桥梁函数来实现识别和有效估计。在本文中，我们使用阴性对照来应对因果推断的主要挑战：这些桥梁功能的识别和估计。先前的工作依赖于这些功能的完整性条件，以识别因果参数并在估计中需要进行独特性假设，并且还集中于桥梁函数的参数估计。相反，我们提供了一种新的识别策略，以避免完整性条件。而且，我们根据最小学习公式为这些功能提供新的估计量。这些估计值适合通用功能类别，例如重现Hilbert空间和神经网络。我们研究了有限样本收敛的结果，既可以估计桥梁功能本身，又要在各种假设组合下对因果参数进行最终估计。我们尽可能避免桥梁上的独特条件。

translated by 谷歌翻译

Treatment Effect Risk: Bounds and Inference

Nathan Kallus

分类： (统计)机器学习

2022-01-15

由于平均治疗效果（ATE）可以衡量社会福利的变化，即使是积极的，也存在对大约10％人口的负面影响的风险。但是，评估这种风险是困难的，因为从未观察到任何一个单独的治疗效果（ITE），因此无法识别出10％的最差影响，而分布治疗效果仅比较每个治疗组中的第一个十分限到任何10％的人群。在本文中，我们考虑如何评估这一重要风险措施，正式为ITE分布的风险（CVAR）的条件价值。我们利用预处理协变量的可用性，并表征了协变量平均治疗效果（CATE）功能给出的ITE-VAR上最紧密的上限和下限。然后，我们继续研究如何从数据中有效估计这些界限并构建置信区间。即使在随机实验中，这也是一个挑战，因为它需要了解未知CATE函数的分布，如果我们使用富协变量以最佳控制异质性，这可能非常复杂。我们开发了一种偏见的方法，该方法克服了这一点，并证明即使CATE和其他令人讨厌的统计属性是通过Black-Box机器学习估算甚至不一致的。我们研究对法国搜索咨询服务的假设变化，我们的界限和推论表明，一个小的社会利益对实质性亚人群产生负面影响。

translated by 谷歌翻译

Proximal Learning for Individualized Treatment Regimes Under Unmeasured Confounding

Zhengling Qi , Rui Miao , Xiaoke Zhang

分类：机器学习 | (统计)机器学习

2021-05-03

数据驱动的个性化决策最近收到了增加的研究兴趣。大多数现有的方法都取决于没有无法衡量的混杂的假设，不幸的是，在实践中，尤其是在观察性研究中无法确保这种混杂。在最近提出的近端因果推理的推动下，我们开发了几种近端学习方法，以估算未衡量的混杂的最佳个性化治疗方案（ITR）。特别是，我们为不同类别的ITR建立了几个识别结果，这表现出了做出不可测试的假设的风险与决策的价值函数改善之间的权衡。基于这些结果，我们提出了几种基于分类的方法来找到各种限制的课堂最佳ITR并发展其理论属性。通过广泛的仿真研究和一项真实的数据应用，我们提出的方法的数值性能具有吸引力。

translated by 谷歌翻译

Ambiguous Dynamic Treatment Regimes: A Reinforcement Learning Approach

Soroush Saghafian

分类：机器学习 | (统计)机器学习

2021-12-08

各种研究中的主要研究目标是使用观察数据集，并提供一种可以产生因果改进的新的反事准则。人动态治疗制度（DTRS）被广泛研究以正规化此过程。然而，在寻找最佳DTR中的可用方法通常依赖于现实世界应用（例如，医学决策或公共政策）违反的假设，特别是当（a）不可忽视未观察到的混乱时，并且（b）未观察到的混乱是时变（例如，受前一个行动的影响）。当违反这种假设时，人们经常面临关于所需的潜在因果模型来获得最佳DTR的歧视。这种歧义是不可避免的，因为无法从观察到的数据中理解未观察到的混血者的动态及其对观察到的数据的因果影响。通过案例研究，为在移植后接受伴随医院移植的患者的患者寻找卓越的治疗方案，并在移植后遇到称为新的发病糖尿病（NODAT），我们将DTR扩展到一个新阶级，被称为暧昧的动态治疗制度（ADTR），其中根据潜在因果模型的“云”评估治疗方案的随意影响。然后，我们将Adtrs连接到Saghafian（2018）提出的暧昧部分可观察标记决策过程（APOMDPS），并开发了两种加强学习方法，称为直接增强V-Learning（DAV-Learning）和安全增强V-Learning（SAV-Learning），其中使用观察到的数据能够有效地学习最佳治疗方案。我们为这些学习方法制定理论结果，包括（弱）一致性和渐近正常性。我们进一步评估了这些学习方法在案例研究和仿真实验中的性能。

translated by 谷歌翻译

Adaptivity and Confounding in Multi-Armed Bandit Experiments

Chao Qin , Daniel Russo

分类：机器学习 | (统计)机器学习

2022-02-18

我们探索了一个新的强盗实验模型，其中潜在的非组织序列会影响武器的性能。上下文 - 统一算法可能会混淆，而那些执行正确的推理面部信息延迟的算法。我们的主要见解是，我们称之为Deconfounst Thompson采样的算法在适应性和健壮性之间取得了微妙的平衡。它的适应性在易于固定实例中带来了最佳效率，但是在硬性非平稳性方面显示出令人惊讶的弹性，这会导致其他自适应算法失败。

translated by 谷歌翻译

Bayesian Semiparametric Model for Sequential Treatment Decisions with Informative Timing

Arman Oganisian , Kelly D. Getz , Todd A. Alonzo , Richard Aplenc , Jason A. Roy

分类：机器学习 | (统计)机器学习

2022-11-29

We develop a Bayesian semi-parametric model for the estimating the impact of dynamic treatment rules on survival among patients diagnosed with pediatric acute myeloid leukemia (AML). The data consist of a subset of patients enrolled in the phase III AAML1031 clinical trial in which patients move through a sequence of four treatment courses. At each course, they undergo treatment that may or may not include anthracyclines (ACT). While ACT is known to be effective at treating AML, it is also cardiotoxic and can lead to early death for some patients. Our task is to estimate the potential survival probability under hypothetical dynamic ACT treatment strategies, but there are several impediments. First, since ACT was not randomized in the trial, its effect on survival is confounded over time. Second, subjects initiate the next course depending on when they recover from the previous course, making timing potentially informative of subsequent treatment and survival. Third, patients may die or drop out before ever completing the full treatment sequence. We develop a generative Bayesian semi-parametric model based on Gamma Process priors to address these complexities. At each treatment course, the model captures subjects' transition to subsequent treatment or death in continuous time under a given rule. A g-computation procedure is used to compute a posterior over potential survival probability that is adjusted for time-varying confounding. Using this approach, we conduct posterior inference for the efficacy of hypothetical treatment rules that dynamically modify ACT based on evolving cardiac function.

translated by 谷歌翻译

Contextual Inverse Optimization: Offline and Online Learning

Omar Besbes , Yuri Fonseca , Ilan Lobel

分类：机器学习 | (统计)机器学习

2021-06-26

我们通过反馈信息研究了离线和在线上下文优化的问题，而不是观察损失，我们会在事后观察到最佳的动作，而是对目标功能充分了解的甲骨文。我们的目标是最大程度地减少遗憾，这被定义为我们的损失与全知的甲骨所产生的损失之间的区别。在离线设置中，决策者可以从过去段中获得信息，并且需要做出一个决策，而在在线环境中，决策者在每个时期内都会动态地基于一组新的可行动作和上下文功能，以动态进行决策。。对于离线设置，我们表征了最佳的最小策略，确定可以实现的性能，这是数据引起的信息的基础几何形状的函数。在在线环境中，我们利用这种几何表征来优化累积遗憾。我们开发了一种算法，该算法在时间范围内产生了对数的第一个遗憾。

translated by 谷歌翻译

Distributionally Robust Batch Contextual Bandits

Nian Si , Fan Zhang , Zhengyuan Zhou , Jose Blanchet

分类：机器学习 | (统计)机器学习

2020-06-10

使用历史观察数据的政策学习是发现广泛应用程序的重要问题。示例包括选择优惠，价格，要发送给客户的广告，以及选择要开出患者的药物。但是，现有的文献取决于这样一个关键假设，即将在未来部署学习策略的未来环境与生成数据的过去环境相同 - 这个假设通常是错误或太粗糙的近似值。在本文中，我们提高了这一假设，并旨在通过不完整的观察数据来学习一项稳健的策略。我们首先提出了一个政策评估程序，该程序使我们能够评估政策在最坏情况下的转变下的表现。然后，我们为此建议的政策评估计划建立了中心限制定理类型保证。利用这种评估方案，我们进一步提出了一种新颖的学习算法，该算法能够学习一项对对抗性扰动和未知协变量转移的策略，并根据统一收敛理论的性能保证进行了绩效保证。最后，我们从经验上测试了合成数据集中提出的算法的有效性，并证明它提供了使用标准策略学习算法缺失的鲁棒性。我们通过在现实世界投票数据集的背景下提供了我们方法的全面应用来结束本文。

translated by 谷歌翻译

Learning from a Biased Sample

Roshni Sahoo , Lihua Lei , Stefan Wager

分类：机器学习 | (统计)机器学习

2022-09-05

数据驱动决策的经验风险最小化方法假设我们可以从与我们想要在下面部署的条件相同的条件下绘制的数据中学习决策规则。但是，在许多设置中，我们可能会担心我们的培训样本是有偏见的，并且某些组（以可观察或无法观察到的属性为特征）可能相对于一般人群而言是不足或代表过多的；在这种情况下，对培训集的经验风险最小化可能无法产生在部署时表现良好的规则。我们基于分配强大的优化和灵敏度分析的概念，我们提出了一种学习决策规则的方法，该方法将在测试分布家族的家庭中最小化最糟糕的案例风险，其有条件的结果分布$ y $ y $ y $ y $ x $有所不同有条件的训练分布最多是一个恒定因素，并且相对于训练数据的协变量分布，其协变量分布绝对是连续的。我们应用Rockafellar和Uryasev的结果表明，此问题等同于增强的凸风险最小化问题。我们提供了使用筛子的方法来学习健壮模型的统计保证，并提出了一种深度学习算法，其损失函数捕获了我们的稳健性目标。我们从经验上验证了我们在模拟中提出的方法和使用MIMIC-III数据集的案例研究。

translated by 谷歌翻译