There is significant interest in deploying machine learning algorithms for diagnostic radiology, as modern learning techniques have made it possible to detect abnormalities in medical images within minutes. While machine-assisted diagnoses cannot yet reliably replace human reviews of images by a radiologist, they could inform prioritization rules for determining the order by which to review patient cases so that patients with time-sensitive conditions could benefit from early intervention. We study this scenario by formulating it as a learning-augmented online scheduling problem. We are given information about each arriving patient's urgency level in advance, but these predictions are inevitably error-prone. In this formulation, we face the challenges of decision making under imperfect information, and of responding dynamically to prediction error as we observe better data in real-time. We propose a simple online policy and show that this policy is in fact the best possible in certain stylized settings. We also demonstrate that our policy achieves the two desiderata of online algorithms with predictions: consistency (performance improvement with prediction accuracy) and robustness (protection against the worst case). We complement our theoretical findings with empirical evaluations of the policy under settings that more accurately reflect clinical scenarios in the real world.
translated by 谷歌翻译
The research area of algorithms with predictions has seen recent success showing how to incorporate machine learning into algorithm design to improve performance when the predictions are correct, while retaining worst-case guarantees when they are not. Most previous work has assumed that the algorithm has access to a single predictor. However, in practice, there are many machine learning methods available, often with incomparable generalization guarantees, making it hard to pick a best method a priori. In this work we consider scenarios where multiple predictors are available to the algorithm and the question is how to best utilize them. Ideally, we would like the algorithm's performance to depend on the quality of the best predictor. However, utilizing more predictions comes with a cost, since we now have to identify which prediction is the best. We study the use of multiple predictors for a number of fundamental problems, including matching, load balancing, and non-clairvoyant scheduling, which have been well-studied in the single predictor setting. For each of these problems we introduce new algorithms that take advantage of multiple predictors, and prove bounds on the resulting performance.
translated by 谷歌翻译
Algorithms with predictions is a recent framework that has been used to overcome pessimistic worst-case bounds in incomplete information settings. In the context of scheduling, very recent work has leveraged machine-learned predictions to design algorithms that achieve improved approximation ratios in settings where the processing times of the jobs are initially unknown. In this paper, we study the speed-robust scheduling problem where the speeds of the machines, instead of the processing times of the jobs, are unknown and augment this problem with predictions. Our main result is an algorithm that achieves a $\min\{\eta^2(1+\alpha), (2 + 2/\alpha)\}$ approximation, for any $\alpha \in (0,1)$, where $\eta \geq 1$ is the prediction error. When the predictions are accurate, this approximation outperforms the best known approximation for speed-robust scheduling without predictions of $2-1/m$, where $m$ is the number of machines, while simultaneously maintaining a worst-case approximation of $2 + 2/\alpha$ even when the predictions are arbitrarily wrong. In addition, we obtain improved approximations for three special cases: equal job sizes, infinitesimal job sizes, and binary machine speeds. We also complement our algorithmic results with lower bounds. Finally, we empirically evaluate our algorithm against existing algorithms for speed-robust scheduling.
translated by 谷歌翻译
我们研究了一个单服务器调度问题,目的是最大程度地降低工作所产生的预期累积持有成本,在该计划中,调度程序未知定义随机工作成本的参数。我们考虑一个允许不同工作类别的一般设置,同一班级的工作在统计上相同的持有成本和服务时间,并且跨课程任意数量的工作数量。在每个时间步骤中,服务器都可以处理作业并观察尚未完成的工作的随机保留成本。我们考虑了一个基于学习的$ C \ MU $规则计划,该计划从固定持续时间的先发制期开始,作为学习阶段,并收集了有关工作的数据,它将切换到非抢占计划。我们的算法旨在处理平均职位持有成本的大小差距的实例,并实现近乎最佳的性能保证。遗憾评估了算法的性能,其中基准是当已知工作参数时,$ c \ mu $规则计划策略可能达到的最低持有成本。我们表现​​出遗憾的下限和算法,这些算法几乎获得了遗憾的上限。我们的数值结果证明了我们的算法的功效,并表明我们的遗憾分析几乎很紧张。
translated by 谷歌翻译
鉴于数据中心和计算系统的能源需求快速上升,一般来说,在设计时(调度)算法时的能量注意事项是基本的。通过基于例如历史数据预测系统的未来负载,机器学习可以是一种有用的方法。然而,这种方法的有效性高度取决于预测的质量,并且当预测是子标准时,可以远离最佳状态。另一方面,在提供最坏情况的情况下,经典的在线算法对于在实践中产生的大类输入可能是悲观的。本文,本文以新领域的机器学习增强算法的精神,试图获得古典,截止日期,在线速度缩放问题的最佳世界两全其美:基于引入新颖的预测设置,我们开发算法(i)在存在足够的预测存在下,(ii)在存在的情况下获得可释放的低能量消耗,并且(ii)对预测不足,(III)是光滑的,即它们的性能随着预测误差的增加而逐渐降低。
translated by 谷歌翻译
我们研究了一个决策者的问题,即当面对参与决策(随机)取决于他们获得的激励措施的代理商时,发现最佳的货币激励计划。我们的重点是限制的政策,以实现两种公平性能,这些公平性能排除了不同的代理人平均经历不同治疗的结果。我们将问题提出为高维的随机优化问题,并通过使用紧密相关的确定性变体进行研究。我们表明,该确定性变体的最佳静态解决方案对于在公平性约束下的动态问题均非最佳。尽管解决最佳静态解决方案会引起非凸优化问题,但我们发现了一个结构性属性,该属性使我们能够设计一种可拖延,快速的启发式策略。利益相关者保留的传统计划忽略公平限制;确实,这些目的是利用差异化激励与系统的反复互动。我们的工作(i)表明,即使没有明确的歧视,动态政策也可能通过改变系统的类型组成而无意间歧视不同类型的药物,并且(ii)提出了渐近的最佳政策,以避免这种歧视性局势。
translated by 谷歌翻译
我们探索了一个新的强盗实验模型,其中潜在的非组织序列会影响武器的性能。上下文 - 统一算法可能会混淆,而那些执行正确的推理面部信息延迟的算法。我们的主要见解是,我们称之为Deconfounst Thompson采样的算法在适应性和健壮性之间取得了微妙的平衡。它的适应性在易于固定实例中带来了最佳效率,但是在硬性非平稳性方面显示出令人惊讶的弹性,这会导致其他自适应算法失败。
translated by 谷歌翻译
急诊科(EDS)的表现对于任何医疗保健系统都非常重要,因为它们是许多患者的入口处。但是,除其他因素外,患者敏锐度水平和访问患者的相应治疗要求的变异性对决策者构成了重大挑战。平衡患者的等待时间首先是由医生与所有敏锐度水平的总长度相处的,对于维持所有患者的可接受的操作表现至关重要。为了解决这些要求在为患者分配空闲资源时,过去提出了几种方法,包括累积的优先排队(APQ)方法。 APQ方法在系统和敏锐度水平方面将优先评分线性分配给患者。因此,选择决策基于一个简单的系统表示,该表示作为选择功能的输入。本文研究了基于机器学习(ML)的患者选择方法的潜力。它假设对于大量的培训数据,包括多种不同的系统状态,(接近)最佳分配可以通过(启发式)优化器计算出关于所选的性能指标,并旨在模仿此类最佳行为。应用于新情况。因此,它结合了系统的全面状态表示和复杂的非线性选择函数。拟议方法的动机是,高质量的选择决策可能取决于描述ED当前状态的各种因素,而不仅限于等待时间,而这些因素可以由ML模型捕获和利用。结果表明,所提出的方法显着优于大多数评估设置的APQ方法
translated by 谷歌翻译
我们通过反馈信息研究了离线和在线上下文优化的问题,而不是观察损失,我们会在事后观察到最佳的动作,而是对目标功能充分了解的甲骨文。我们的目标是最大程度地减少遗憾,这被定义为我们的损失与全知的甲骨所产生的损失之间的区别。在离线设置中,决策者可以从过去段中获得信息,并且需要做出一个决策,而在在线环境中,决策者在每个时期内都会动态地基于一组新的可行动作和上下文功能,以动态进行决策。 。对于离线设置,我们表征了最佳的最小策略,确定可以实现的性能,这是数据引起的信息的基础几何形状的函数。在在线环境中,我们利用这种几何表征来优化累积遗憾。我们开发了一种算法,该算法在时间范围内产生了对数的第一个遗憾。
translated by 谷歌翻译
通过新兴应用程序,如现场媒体电子商务,促销和建议,我们介绍和解决了一般的非静止多武装强盗问题,具有以下两个特征:(i)决策者可以拉动和收集每次期间,从最多$ k \,(\ ge 1)美元的奖励; (ii)手臂拉动后的预期奖励立即下降,然后随着ARM空闲时间的增加,非参数恢复。目的是最大化预期累计奖励超过$ T $时间段,我们设计了一类“纯粹的周期性政策”,共同设置了拉动每个臂的时间。对于拟议的政策,我们证明了离线问题和在线问题的性能保证。对于脱机问题,当已知所有型号参数时,所提出的周期性策略获得1- \ Mathcal O(1 / \ Sqrt {k})$的近似率,当$ k $生长时是渐近的最佳状态到无穷远。对于在线问题时,当模型参数未知并且需要动态学习时,我们将脱机周期性策略与在线策略上的上部置信程序进行集成。拟议的在线策略被证明是对脱机基准的近似拥有$ \ widetilde {\ mathcal o}(n \ sqrt {t})。我们的框架和政策设计可能在更广泛的离线规划和在线学习应用程序中阐明,具有非静止和恢复奖励。
translated by 谷歌翻译
Using data from cardiovascular surgery patients with long and highly variable post-surgical lengths of stay (LOS), we develop a modeling framework to reduce recovery unit congestion. We estimate the LOS and its probability distribution using machine learning models, schedule procedures on a rolling basis using a variety of optimization models, and estimate performance with simulation. The machine learning models achieved only modest LOS prediction accuracy, despite access to a very rich set of patient characteristics. Compared to the current paper-based system used in the hospital, most optimization models failed to reduce congestion without increasing wait times for surgery. A conservative stochastic optimization with sufficient sampling to capture the long tail of the LOS distribution outperformed the current manual process and other stochastic and robust optimization approaches. These results highlight the perils of using oversimplified distributional models of LOS for scheduling procedures and the importance of using optimization methods well-suited to dealing with long-tailed behavior.
translated by 谷歌翻译
我们考虑一个一般的在线随机优化问题,在有限时间段的视野中具有多个预算限制。在每个时间段内,都会揭示奖励功能和多个成本功能,并且决策者需要从凸面和紧凑型措施中指定行动,以收集奖励并消耗预算。每个成本函数对应于一个预算的消费。在每个时期,奖励和成本函数都是从未知分布中得出的,该分布在整个时间内都是非平稳的。决策者的目的是最大化受预算限制的累积奖励。该配方捕获了广泛的应用程序,包括在线线性编程和网络收入管理等。在本文中,我们考虑了两个设置:(i)一个数据驱动的设置,其中真实分布未知,但可以提供先前的估计(可能不准确); (ii)一个不信息的环境,其中真实分布是完全未知的。我们提出了一项基于统一的浪费距离措施,以量化设置(i)中先验估计值的不准确性和设置(ii)中系统的非平稳性。我们表明,拟议的措施导致在两种情况下都能获得统一后悔的必要条件。对于设置(i),我们提出了一种新的算法,该算法采用了原始的偶视角,并将基础分布的先前信息集成到双重空间中的在线梯度下降过程。该算法也自然扩展到非信息设置(II)。在这两种设置下,我们显示相应的算法实现了最佳秩序的遗憾。在数值实验中,我们演示了如何将所提出的算法与重新溶解技术自然整合,以进一步提高经验性能。
translated by 谷歌翻译
State-of-the-art results on image recognition tasks are achieved using over-parameterized learning algorithms that (nearly) perfectly fit the training set and are known to fit well even random labels. This tendency to memorize the labels of the training data is not explained by existing theoretical analyses. Memorization of the training data also presents significant privacy risks when the training data contains sensitive personal information and thus it is important to understand whether such memorization is necessary for accurate learning.We provide the first conceptual explanation and a theoretical model for this phenomenon. Specifically, we demonstrate that for natural data distributions memorization of labels is necessary for achieving closeto-optimal generalization error. Crucially, even labels of outliers and noisy labels need to be memorized. The model is motivated and supported by the results of several recent empirical works. In our model, data is sampled from a mixture of subpopulations and our results show that memorization is necessary whenever the distribution of subpopulation frequencies is long-tailed. Image and text data is known to be long-tailed and therefore our results establish a formal link between these empirical phenomena. Our results allow to quantify the cost of limiting memorization in learning and explain the disparate effects that privacy and model compression have on different subgroups.
translated by 谷歌翻译
当他们更喜欢$ \ texit {exploit} $时,您如何激励自我兴趣的代理到$ \ texit {探索} $?我们考虑复杂的探索问题,其中每个代理面临相同(但未知)MDP。与传统的加固学习配方相比,代理商控制了政策的选择,而算法只能发出建议。然而,该算法控制信息流,并且可以通过信息不对称激励代理探索。我们设计一种算法,探讨MDP中的所有可达状态。我们达到了类似于先前研究的静态,无国籍探索问题中激励探索的保证担保。据我们所知,这是第一个考虑在有状态,强化学习环境中设计的工作。
translated by 谷歌翻译
我们在$ gi/gi/1 $队列中研究动态定价和容量大小问题,服务提供商的目标是获得最佳服务费$ p $ $ p $和服务能力$ \ mu $,以最大程度地提高累积预期利润(服务收入减去人员配备成本和延迟罚款)。由于排队动力学的复杂性质,这种问题没有分析解决方案,因此以前的研究经常诉诸于交通重型分析,在这种分析中,到达率和服务率都发送到无穷大。在这项工作中,我们提出了一个旨在解决此问题的在线学习框架,该框架不需要系统的规模增加。我们的框架在队列(GOLIQ)中被称为基于梯度的在线学习。 Goliq将时间范围组织为连续的操作周期,并开出了有效的程序,以使用先前的周期中收集的数据在每个周期中获得改进的定价和人员配备策略。此处的数据包括客户到达的数量,等待时间和服务器的繁忙时间。这种方法的创造力在于其在线性质,这使服务提供商可以通过与环境进行互动来更好。 GOLIQ的有效性得到了(i)理论结果的证实,包括算法收敛和遗憾分析(对数遗憾的束缚),以及(ii)通过模拟实验进行工程确认,以了解各种代表性$ GI/GI/GI/1 $ $ $ $ $。
translated by 谷歌翻译
The performance of decision policies and prediction models often deteriorates when applied to environments different from the ones seen during training. To ensure reliable operation, we propose and analyze the stability of a system under distribution shift, which is defined as the smallest change in the underlying environment that causes the system's performance to deteriorate beyond a permissible threshold. In contrast to standard tail risk measures and distributionally robust losses that require the specification of a plausible magnitude of distribution shift, the stability measure is defined in terms of a more intuitive quantity: the level of acceptable performance degradation. We develop a minimax optimal estimator of stability and analyze its convergence rate, which exhibits a fundamental phase shift behavior. Our characterization of the minimax convergence rate shows that evaluating stability against large performance degradation incurs a statistical cost. Empirically, we demonstrate the practical utility of our stability framework by using it to compare system designs on problems where robustness to distribution shift is critical.
translated by 谷歌翻译
在社会背景下的算法决策,例如零售定价,贷款管理,在线平台上的建议等,通常涉及为了学习而进行决策的实验,这导致受这些决策影响的人们的不公平感知。因此,有必要在此类决策过程中嵌入适当的公平概念。本文的目的是通过一种新颖的元观念来强调公平的时间概念与在线决策之间的丰富界面,以确保在决策时确保公平。考虑到静态决策的一些任意比较公平概念(例如,学生最多应支付一般成人价格的90%),如果满足上述公平概念,则相应的在线决策算法在决策时满足公平性对于任何与过去的决定相比,收到决定的任何实体。我们表明,这一基本要求引入了在线决策中的新方法论挑战。我们说明了在随机凸优化的背景下,在比较公平的约束下,在随机凸优化的背景下解决这些挑战所必需的新方法,该方法取决于实体所收到的决策,这取决于过去每个人都收到的决策。该论文展示了由于时间公平的关注而引起的在线决策中的新研究机会。
translated by 谷歌翻译
上下文的强盗和强化学习算法已成功用于各种交互式学习系统,例如在线广告,推荐系统和动态定价。但是,在高风险应用领域(例如医疗保健)中,它们尚未被广泛采用。原因之一可能是现有方法假定基本机制是静态的,因为它们不会在不同的环境上改变。但是,在许多现实世界中,这些机制可能会跨环境变化,这可能使静态环境假设无效。在本文中,考虑到离线上下文匪徒的框架,我们迈出了解决环境转变问题的一步。我们认为环境转移问题通过因果关系的角度,并提出了多种环境的背景匪徒,从而可以改变基本机制。我们采用因果关系文献的不变性概念,并介绍了政策不变性的概念。我们认为,仅当存在未观察到的变量时,政策不变性才有意义,并表明在这种情况下,保证在适当假设下跨环境概括最佳不变政策。我们的结果建立了因果关系,不变性和上下文土匪之间的具体联系。
translated by 谷歌翻译
动态治疗方案(DTRS)是个性化的,适应性的,多阶段的治疗计划,可将治疗决策适应个人的初始特征,并在随后的每个阶段中的中级结果和特征,在前阶段受到决策的影响。例子包括对糖尿病,癌症和抑郁症等慢性病的个性化一线和二线治疗,这些治疗适应患者对一线治疗,疾病进展和个人特征的反应。尽管现有文献主要集中于估算离线数据(例如从依次随机试验)中的最佳DTR,但我们研究了以在线方式开发最佳DTR的问题,在线与每个人的互动都会影响我们的累积奖励和我们的数据收集,以供我们的数据收集。未来的学习。我们将其称为DTR匪徒问题。我们提出了一种新颖的算法,通过仔细平衡探索和剥削,可以保证当过渡和奖励模型是线性时,可以实现最佳的遗憾。我们证明了我们的算法及其在合成实验和使用现实世界中对重大抑郁症的适应性治疗的案例研究中的好处。
translated by 谷歌翻译
我们启动对在线路由问题进行预测的研究,这是受到学习效果算法领域的最新成果的启发。一个学习的在线算法,如果预测是准确的,同时否则可以维持理论保证,即使预测非常错误,则以黑盒方式纳入了预测,以胜过现有的算法。在这项研究中,我们特别开始研究经典的在线旅行推销员问题(OLTSP),其中未来的请求得到了预测。与以前其他研究中的预测模型不同,OLTSP中的每个实际请求与其到达时间和位置相关,可能与预测的每个实际请求不一致,这些预测会导致麻烦的情况。我们的主要结果是研究不同的预测模型和设计算法,以改善不同环境中最著名的结果。此外,我们将提出的结果概括为在线拨号问题。
translated by 谷歌翻译