随着机器学习(ML)由许多竞争服务提供商部署,基础ML预测因素也相互竞争,了解此类竞争的影响和偏见越来越重要。在本文中,我们研究竞争预测因素可以获取其他标记数据以提高其预测质量时会发生什么。我们介绍了一个新的环境,该环境使ML预测指标可以使用主动学习算法在其预算内购买标记的数据,同时相互竞争以吸引用户。我们的环境模型在竞争系统中的数据获取的关键方面,这是以前没有经过深入研究的。我们发现,当预测变量可以购买其他标记的数据时,ML预测变量的总体性能会提高。但是,令人惊讶的是,即使单个预测因素变得更好,用户体验的质量(即每个用户选择的预测变量的准确性)也可以降低。我们表明,这种现象自然是由于权衡取舍,竞争推动了每个预测指标专注于人口的一部分,而数据购买的效果使预测变量更加统一。我们通过实验和理论来支持我们的发现。
translated by 谷歌翻译
大多数在线平台都在努力从与用户的互动中学习,许多人从事探索:为了获取新信息而做出潜在的次优选择。我们研究探索与竞争之间的相互作用:这样的平台如何平衡学习探索和用户的竞争。在这里,用户扮演三个不同的角色:他们是产生收入的客户,他们是学习的数据来源,并且是自私的代理商,可以在竞争平台中进行选择。我们考虑了一种风格化的双重垄断模型,其中两家公司面临着相同的多军强盗问题。用户一一到达,并在两家公司之间进行选择,因此,只有在选择它的情况下,每个公司都在其强盗问题上取得进展。通过理论结果和数值模拟的混合,我们研究了竞争是否会激发更好的Bandit算法的采用,以及它是否导致用户增加福利。我们发现,Stark竞争会导致公司致力于导致低福利的“贪婪”强盗算法。但是,通过向公司提供一些“免费”用户来激励更好的探索策略并增加福利来削弱竞争。我们调查了削弱竞争的两个渠道:放松用户的理性并为一家公司带来首次推广优势。我们的发现与“竞争与创新”关系密切相关,并阐明了数字经济中的第一步优势。
translated by 谷歌翻译
It is widely believed that given the same labeling budget, active learning algorithms like uncertainty sampling achieve better predictive performance than passive learning (i.e. uniform sampling), albeit at a higher computational cost. Recent empirical evidence suggests that this added cost might be in vain, as uncertainty sampling can sometimes perform even worse than passive learning. While existing works offer different explanations in the low-dimensional regime, this paper shows that the underlying mechanism is entirely different in high dimensions: we prove for logistic regression that passive learning outperforms uncertainty sampling even for noiseless data and when using the uncertainty of the Bayes optimal classifier. Insights from our proof indicate that this high-dimensional phenomenon is exacerbated when the separation between the classes is small. We corroborate this intuition with experiments on 20 high-dimensional datasets spanning a diverse range of applications, from finance and histology to chemistry and computer vision.
translated by 谷歌翻译
我们在分类的背景下研究公平,其中在接收器的曲线下的区域(AUC)下的区域测量的性能。当I型(误报)和II型(假阴性)错误都很重要时,通常使用AUC。然而,相同的分类器可以针对不同的保护组具有显着变化的AUC,并且在现实世界中,通常希望减少这种交叉组差异。我们解决如何选择其他功能,以便最大地改善弱势群体的AUC。我们的结果表明,功能的无条件方差不会通知我们关于AUC公平,而是类条件方差。使用此连接,我们基于功能增强(添加功能)来开发一种新颖的方法Fairauc,以减轻可识别组之间的偏差。我们评估综合性和现实世界(Compas)数据集的Fairauc,并发现它对于相对于基准,最大限度地提高了总体AUC并最大限度地减少了组之间的偏见的基准,它显着改善了弱势群体的AUC。
translated by 谷歌翻译
不同的代理需要进行预测。他们观察到相同的数据,但有不同的模型:他们预测使用不同的解释变量。我们研究哪个代理商认为它们具有最佳的预测能力 - 通过最小的主观后均匀平均平方预测误差来衡量 - 并且显示它如何取决于样本大小。使用小样品,我们呈现结果表明它是使用低维模型的代理。对于大型样品,通常是具有高维模型的代理,可能包括无关的变量,但从未排除相关的变量。我们将结果应用于拍卖生产资产拍卖中的获胜模型,以争辩于企业家和具有简单模型的投资者将在新部门过度代表,并了解解释横断面变异的“因素”的扩散资产定价文学中的预期股票回报。
translated by 谷歌翻译
自动化的机器学习(AUTOML)过程可能需要通过不仅机器学习(ML)组件及其超参数的复杂配置空间进行搜索,还需要将它们组合在一起,即形成ML管道。如果该管道配置空间过大,那么固定时间预算可实现的优化效率和模型精度可实现。一个关键的研究问题是,通过利用其历史表现来完成各种ML任务(即元知识),避免对ML管道的不良评估是否可能既可能又实用。以前的经验以分类器/回归器准确性排名的形式来自(1)(1)在历史自动运行期间进行的大量但无尽的管道评估数量,即“机会性”元知识,或(2)全面的交叉 - 通过默认超参数(即“系统”的元知识,对分类器/回归器的验证评估。使用AUTOWEKA4MCPS软件包进行了许多实验,表明(1)机会性/系统的元知识可以改善ML的结果,通常与元知识的相关性以及(2)配置空间扣除在不太保守的情况下是最佳的(2)也不是激进的。但是,元知识的效用和影响急性取决于其发电和剥削的许多方面,并保证了广泛的分析;这些通常在汽车和元学习文献中被忽视/不足。特别是,我们观察到对数据集的“挑战”的强烈敏感性,即选择预测因子的特异性是否会导致性能明显更好。最终,确定这样定义的“困难”数据集对于生成信息丰富的元知识基础和理解最佳搜索空间降低策略至关重要。
translated by 谷歌翻译
As machine learning algorithms start to get integrated into the decision-making process of companies and organizations, insurance products are being developed to protect their owners from liability risk. Algorithmic liability differs from human liability since it is based on a single model compared to multiple heterogeneous decision-makers and its performance is known a priori for a given set of data. Traditional actuarial tools for human liability do not take these properties into consideration, primarily focusing on the distribution of historical claims. We propose, for the first time, a quantitative framework to estimate the risk exposure of insurance contracts for machine-driven liability, introducing the concept of algorithmic insurance. Specifically, we present an optimization formulation to estimate the risk exposure of a binary classification model given a pre-defined range of premiums. We adjust the formulation to account for uncertainty in the resulting losses using robust optimization. Our approach outlines how properties of the model, such as accuracy, interpretability, and generalizability, can influence the insurance contract evaluation. To showcase a practical implementation of the proposed framework, we present a case study of medical malpractice in the context of breast cancer detection. Our analysis focuses on measuring the effect of the model parameters on the expected financial loss and identifying the aspects of algorithmic performance that predominantly affect the risk of the contract.
translated by 谷歌翻译
沙普利价值是衡量单个特征影响的流行方法。尽管Shapley功能归因是基于游戏理论的Desiderata,但在某些机器学习设置中,其某些约束可能不太自然,从而导致不直觉的模型解释。特别是,Shapley值对所有边际贡献都使用相同的权重 - 即,当给出大量其他功能时,当给出少数其他功能时,它具有相同的重要性。如果较大的功能集比较小的功能集更具信息性,则此属性可能是有问题的。我们的工作对沙普利特征归因的潜在局限性进行了严格的分析。我们通过为较小的影响力特征分配较大的属性来确定Shapley值在数学上是次优的设置。在这一观察结果的驱动下,我们提出了加权图,它概括了沙普利的价值,并了解到直接从数据中关注哪些边际贡献。在几个现实世界数据集上,我们证明,与沙普利值确定的功能相比,加权图确定的有影响力的特征可以更好地概括模型的预测。
translated by 谷歌翻译
This work shows how to leverage causal inference to understand the behavior of complex learning systems interacting with their environment and predict the consequences of changes to the system. Such predictions allow both humans and algorithms to select the changes that would have improved the system performance. This work is illustrated by experiments on the ad placement system associated with the Bing search engine.
translated by 谷歌翻译
我们探索了一个新的强盗实验模型,其中潜在的非组织序列会影响武器的性能。上下文 - 统一算法可能会混淆,而那些执行正确的推理面部信息延迟的算法。我们的主要见解是,我们称之为Deconfounst Thompson采样的算法在适应性和健壮性之间取得了微妙的平衡。它的适应性在易于固定实例中带来了最佳效率,但是在硬性非平稳性方面显示出令人惊讶的弹性,这会导致其他自适应算法失败。
translated by 谷歌翻译
我们开发了一种新的原则性算法,用于估计培训数据点对深度学习模型的行为的贡献,例如它做出的特定预测。我们的算法估计了AME,该数量量衡量了将数据点添加到训练数据子集中的预期(平均)边际效应,并从给定的分布中采样。当从均匀分布中采样子集时,AME将还原为众所周知的Shapley值。我们的方法受因果推断和随机实验的启发:我们采样了训练数据的不同子集以训练多个子模型,并评估每个子模型的行为。然后,我们使用套索回归来基于子集组成共同估计每个数据点的AME。在稀疏假设($ k \ ll n $数据点具有较大的AME)下,我们的估计器仅需要$ O(k \ log n)$随机的子模型培训,从而改善了最佳先前的Shapley值估算器。
translated by 谷歌翻译
基于机器学习(ML)的系统的制作需要在其生命周期中进行统计控制。仔细量化业务需求和识别影响业务需求的关键因素降低了项目故障的风险。业务需求的量化导致随机变量的定义,表示通过统计实验需要分析的系统关键性能指标。此外,可提供的培训和实验结果产生影响系统的设计。开发系统后,测试并不断监控,以确保其符合其业务需求。这是通过持续应用统计实验来分析和控制关键绩效指标来完成的。本书教授制作和开发基于ML的系统的艺术。它倡导“首先”方法,强调从项目生命周期开始定义统计实验的需要。它还详细讨论了如何在整个生命周期中对基于ML的系统进行统计控制。
translated by 谷歌翻译
本文解决了在水模型部署民主化中采用了机器学习的一些挑战。第一个挑战是减少了在主动学习的帮助下减少了标签努力(因此关注数据质量),模型推断与Oracle之间的反馈循环:如在保险中,未标记的数据通常丰富,主动学习可能会成为一个重要的资产减少标签成本。为此目的,本文在研究其对合成和真实数据集的实证影响之前,阐述了各种古典主动学习方法。保险中的另一个关键挑战是模型推论中的公平问题。我们将在此主动学习框架中介绍和整合一个用于多级任务的后处理公平,以解决这两个问题。最后对不公平数据集的数值实验突出显示所提出的设置在模型精度和公平性之间存在良好的折衷。
translated by 谷歌翻译
We introduce a new setting, optimize-and-estimate structured bandits. Here, a policy must select a batch of arms, each characterized by its own context, that would allow it to both maximize reward and maintain an accurate (ideally unbiased) population estimate of the reward. This setting is inherent to many public and private sector applications and often requires handling delayed feedback, small data, and distribution shifts. We demonstrate its importance on real data from the United States Internal Revenue Service (IRS). The IRS performs yearly audits of the tax base. Two of its most important objectives are to identify suspected misreporting and to estimate the "tax gap" -- the global difference between the amount paid and true amount owed. Based on a unique collaboration with the IRS, we cast these two processes as a unified optimize-and-estimate structured bandit. We analyze optimize-and-estimate approaches to the IRS problem and propose a novel mechanism for unbiased population estimation that achieves rewards comparable to baseline approaches. This approach has the potential to improve audit efficacy, while maintaining policy-relevant estimates of the tax gap. This has important social consequences given that the current tax gap is estimated at nearly half a trillion dollars. We suggest that this problem setting is fertile ground for further research and we highlight its interesting challenges. The results of this and related research are currently being incorporated into the continual improvement of the IRS audit selection methods.
translated by 谷歌翻译
由于数据量增加,金融业的快速变化已经彻底改变了数据处理和数据分析的技术,并带来了新的理论和计算挑战。与古典随机控制理论和解决财务决策问题的其他分析方法相比,解决模型假设的财务决策问题,强化学习(RL)的新发展能够充分利用具有更少模型假设的大量财务数据并改善复杂的金融环境中的决策。该调查纸目的旨在审查最近的资金途径的发展和使用RL方法。我们介绍了马尔可夫决策过程,这是许多常用的RL方法的设置。然后引入各种算法,重点介绍不需要任何模型假设的基于价值和基于策略的方法。连接是用神经网络进行的,以扩展框架以包含深的RL算法。我们的调查通过讨论了这些RL算法在金融中各种决策问题中的应用,包括最佳执行,投资组合优化,期权定价和对冲,市场制作,智能订单路由和Robo-Awaring。
translated by 谷歌翻译
当代理偏好未知的先验时,我们研究了在共享资源的稀缺时决策的问题问题,并且必须从数据中学到。将双面匹配市场作为一个跑步的例子,我们专注于分散的环境,代理商不会与中央权威分享他们的学习偏好。我们的方法基于再生内核希尔伯特空间中的偏好的表示,以及偏好的学习算法,其由于市场代理商之间的竞争而占不确定性的偏好。在规律性条件下,我们表明我们的偏好估算器以极少的最佳速率收敛。考虑到这一结果,我们推出了最佳策略,最大化代理商的预期收益,我们通过考虑机会成本来校准不确定的状态。我们还获得了激励兼容性属性,并表明学习策略的结果具有稳定性。最后,我们证明了一个公平性质,称赞根据学到的策略存在没有合理的嫉妒。
translated by 谷歌翻译
当可能的许多标签是可能的时,选择单个可以导致低精度。一个常见的替代方案,称为顶级k $分类,是选择一些数字$ k $(通常约5),并返回最高分数的$ k $标签。不幸的是,对于明确的案例,$ k> 1 $太多,对于非常暧昧的情况,$ k \ leq 5 $(例如)太小。另一种明智的策略是使用一种自适应方法,其中返回的标签数量随着计算的歧义而变化,但必须平均到所有样本的某些特定的$ k $。我们表示这种替代方案 - $ k $分类。本文在平均值的含量较低的误差率时,本文正式地表征了模糊性曲线,比固定的顶级k $分类更低。此外,它为固定尺寸和自适应分类器提供了自然估计程序,并证明了它们的一致性。最后,它报告了实际图像数据集的实验,揭示了平均值的效益 - 在实践中的价格超过高度k $分类。总的来说,当含糊不清的歧义时,平均值-$ k $永远不会比Top-$ K $更差,并且在我们的实验中,当估计时,这也持有。
translated by 谷歌翻译
当使用任意异质数据流提供时,我们如何收集最有用的标签来学习模型选择策略?在本文中,我们将此任务制定为一个在线上下文的活动模型选择问题,在每个回合中,学习者在上下文中都会收到一个未标记的数据点以及上下文。目的是在任何给定上下文中输出最佳模型,而不会获得过多的标签。特别是,我们专注于选择预训练的分类器的任务,并提出一种上下文活动模型选择算法(CAM),该算法依赖于在给定策略类别上定义的新型不确定性采样查询标准用于自适应模型选择。与先前的ART相比,我们的算法不假定全球最佳模型。我们提供严格的理论分析,以实现对抗和随机设置下的遗憾和查询复杂性。我们对几个基准分类数据集的实验证明了该算法在遗憾和查询复杂性方面的有效性。值得注意的是,与CIFAR10上最佳的在线型号选择基线相比,CAMS的标签成本少于标签成本的10%。
translated by 谷歌翻译
如今,可以在许多电子商务平台上找到自动建议,并且此类建议可以为消费者和提供商创造巨大的价值。但是,通常并非所有推荐的物品都具有相同的利润率,因此,提供商可能会诱使促进最大化其利润的项目。在短期内,消费者可能会接受非最佳建议,但从长远来看,他们可能会失去信任。最终,这导致了设计平衡推荐策略的问题,这些策略既考虑消费者和提供商的价值,并带来持续的业务成功。这项工作提出了一个基于基于代理的建模的仿真框架,旨在帮助提供者探索不同推荐策略的纵向动态。在我们的模型中,消费者代理人收到了提供者的建议,并且建议的质量随着时间的推移影响消费者的信任。我们设计了几种推荐策略,可以使提供商的利润更大,或者对消费者公用事业。我们的模拟表明,一种混合​​策略会增加消费者公用事业的权重,但没有忽略盈利能力,从长远来看会导致累计利润最高。与纯粹的消费者或面向利润的策略相比,这种混合策略的利润增加了约20%。我们还发现,社交媒体可以加强观察到的现象。如果消费者严重依赖社交媒体,最佳战略的累积利润进一步增加。为了确保可重复性并培养未来的研究,我们将公开共享我们的灵活模拟框架。
translated by 谷歌翻译
我们制定最佳优化系统(SBOS)问题,并为这些问题提供解决方案。在SBOS问题中,有限数量的系统是竞争者。在每个系统中,一个连续的决策变量会影响系统的预期性能。 SBOS问题将根据其自身最佳选择的决定根据其预期的性能进行比较不同的系统,以便在没有提前了解系统的预期性能的情况下,也不是每个系统内的优化决策。我们设计易于实现的算法,可自适应地选择系统和决定选择嘈杂的系统性能,顺序地消除劣质系统,最终建议在花费用户指定的预算后最佳系统。所提出的算法集成了随机梯度下降方法和顺序消除方法,同时利用每个系统内的结构并在系统上进行比较。对于所提出的算法,我们将指数率的收敛率为零进行假选择的概率,因为预算生长到无穷大。我们进行三个数值例子,代表了三种实际情况的SBOS问题。我们所提出的算法在一系列问题设置和采样预算下,在基准算法的概率方面表现出一致和更强的性能。
translated by 谷歌翻译