机器学习模型经常在现实世界部署时遇到分布班次。在本文中,我们专注于适应在线设置中的标签分配换档,其中测试时标签分布不断变化,模型必须在不观察到真实标签的情况下动态适应它。利用新的分析,我们表明,缺乏真正的标签不会妨碍预期的测试损失估计,这使得能够减少在线标签转变适应传统在线学习。通过此观察信息,我们提出了由经典在线学习技术启发的适应算法,例如遵循领导者(FTL)和在线梯度下降(OGD)并导出他们的遗憾范围。我们在模拟和现实世界标签分销班次下凭证验证了我们的调查结果,并表明OGD对各种具有挑战性的标签换档情景特别有效和强大。
translated by 谷歌翻译
当培训数据共享与即将到来的测试样本相同的分布时,标准监督学习范式有效地工作。但是,在现实世界中,通常会违反此假设,尤其是在以在线方式出现测试数据时。在本文中,我们制定和调查了在线标签转移(OLAS)的问题:学习者从标记的离线数据训练初始模型,然后将其部署到未标记的在线环境中,而基础标签分布会随着时间的推移而变化,但标签 - 条件密度没有。非平稳性和缺乏监督使问题具有挑战性。为了解决难度,我们构建了一个新的无偏风险估计器,该风险估计器利用了未标记的数据,该数据表现出许多良性特性,尽管具有潜在的非跨性别性。在此基础上,我们提出了新颖的在线合奏算法来应对环境的非平稳性。我们的方法享有最佳的动态遗憾,表明该性能与千里眼的千里眼竞争,后者是事后看来的在线环境,然后选择每轮的最佳决定。获得的动态遗憾结合量表与标签分布转移的强度和模式,因此在OLAS问题中表现出适应性。进行广泛的实验以验证有效性和支持我们的理论发现。
translated by 谷歌翻译
Faced with distribution shift between training and test set, we wish to detect and quantify the shift, and to correct our classifiers without test set labels. Motivated by medical diagnosis, where diseases (targets), cause symptoms (observations), we focus on label shift, where the label marginal p(y) changes but the conditional p(x|y) does not. We propose Black Box Shift Estimation (BBSE) to estimate the test distribution p(y). BBSE exploits arbitrary black box predictors to reduce dimensionality prior to shift correction. While better predictors give tighter estimates, BBSE works even when predictors are biased, inaccurate, or uncalibrated, so long as their confusion matrices are invertible. We prove BBSE's consistency, bound its error, and introduce a statistical test that uses BBSE to detect shift. We also leverage BBSE to correct classifiers. Experiments demonstrate accurate estimates and improved prediction, even on high-dimensional datasets of natural images.
translated by 谷歌翻译
资源限制的在线分配问题是收入管理和在线广告中的核心问题。在这些问题中,请求在有限的地平线期间顺序到达,对于每个请求,决策者需要选择消耗一定数量资源并生成奖励的动作。目标是最大限度地提高累计奖励,这是对资源总消费的限制。在本文中,我们考虑一种数据驱动的设置,其中使用决策者未知的输入模型生成每个请求的奖励和资源消耗。我们设计了一般的算法算法,可以在各种输入模型中实现良好的性能,而不知道它们面临的类型类型。特别是,我们的算法在独立和相同的分布式输入以及各种非静止随机输入模型下是渐近的最佳选择,并且当输入是对抗性时,它们达到渐近最佳的固定竞争比率。我们的算法在Lagrangian双色空间中运行:它们为使用在线镜像血管更新的每个资源维护双倍乘数。通过相应地选择参考功能,我们恢复双梯度下降和双乘法权重更新算法。与现有的在线分配问题的现有方法相比,所产生的算法简单,快速,不需要在收入函数,消费函数和动作空间中凸起。我们将应用程序讨论到网络收入管理,在线竞标,重复拍卖,预算限制,与高熵的在线比例匹配,以及具有有限库存的个性化分类优化。
translated by 谷歌翻译
我们在非静止环境中调查在线凸优化,然后选择\ emph {动态后悔}作为性能测量,定义为在线算法产生的累积损失与任何可行比较器序列之间的差异。让$ t $是$ p_t $ be的路径长度,基本上反映了环境的非平稳性,最先进的动态遗憾是$ \ mathcal {o}(\ sqrt {t( 1 + p_t)})$。虽然这一界限被证明是凸函数最佳的最低限度,但在本文中,我们证明可以进一步提高一些简单的问题实例的保证,特别是当在线功能平滑时。具体而言,我们提出了新的在线算法,可以利用平滑度并替换动态遗憾的$ t $替换依据\ {问题依赖性}数量:损耗函数梯度的变化,比较器序列的累积损失,以及比较器序列的累积损失最低术语的最低限度。这些数量是大多数$ \ mathcal {o}(t)$,良性环境中可能更小。因此,我们的结果适应了问题的内在难度,因为边界比现有结果更严格,以便在最坏的情况下保证相同的速率。值得注意的是,我们的算法只需要\ emph {一个}渐变,这与开发的方法共享相同的渐变查询复杂性,以优化静态遗憾。作为进一步的应用,我们将来自全信息设置的结果扩展到具有两点反馈的强盗凸优化,从而达到此类强盗任务的第一个相关的动态遗憾。
translated by 谷歌翻译
在线优化是一个完善的优化范式,旨在鉴于对以前的决策任务的正确答案,旨在做出一系列正确的决策。二重编程涉及一个分层优化问题,其中所谓的外部问题的可行区域受内部问题的解决方案集映射的限制。本文将这两个想法汇总在一起,并研究了在线双层优化设置,其中一系列随时间变化的二聚体问题又一个接一个地揭示了一个。我们将已知的单层在线算法的已知遗憾界限扩展到双重设置。具体而言,我们引入了新的杂种遗憾概念,开发了一种在线交替的时间平均梯度方法,该方法能够利用光滑度,并根据内部和外部极型序列的长度提供遗憾的界限。
translated by 谷歌翻译
当使用任意异质数据流提供时,我们如何收集最有用的标签来学习模型选择策略?在本文中,我们将此任务制定为一个在线上下文的活动模型选择问题,在每个回合中,学习者在上下文中都会收到一个未标记的数据点以及上下文。目的是在任何给定上下文中输出最佳模型,而不会获得过多的标签。特别是,我们专注于选择预训练的分类器的任务,并提出一种上下文活动模型选择算法(CAM),该算法依赖于在给定策略类别上定义的新型不确定性采样查询标准用于自适应模型选择。与先前的ART相比,我们的算法不假定全球最佳模型。我们提供严格的理论分析,以实现对抗和随机设置下的遗憾和查询复杂性。我们对几个基准分类数据集的实验证明了该算法在遗憾和查询复杂性方面的有效性。值得注意的是,与CIFAR10上最佳的在线型号选择基线相比,CAMS的标签成本少于标签成本的10%。
translated by 谷歌翻译
多类神经网络是现代无监督的领域适应性中的常见工具,但是在适应性文献中缺乏针对其非均匀样品复杂性的适当理论描述。为了填补这一空白,我们为多类学习者提出了第一个Pac-Bayesian适应范围。我们还提出了我们考虑的多类分布差异的第一个近似技术,从而促进了界限的实际使用。对于依赖Gibbs预测因子的分歧,我们提出了其他PAC-湾适应界限,以消除对蒙特卡洛效率低下的需求。从经验上讲,我们测试了我们提出的近似技术的功效以及一些新型的设计概念,我们在范围中包括。最后,我们应用界限来分析使用神经网络的常见适应算法。
translated by 谷歌翻译
使用历史观察数据的政策学习是发现广泛应用程序的重要问题。示例包括选择优惠,价格,要发送给客户的广告,以及选择要开出患者的药物。但是,现有的文献取决于这样一个关键假设,即将在未来部署学习策略的未来环境与生成数据的过去环境相同 - 这个假设通常是错误或太粗糙的近似值。在本文中,我们提高了这一假设,并旨在通过不完整的观察数据来学习一项稳健的策略。我们首先提出了一个政策评估程序,该程序使我们能够评估政策在最坏情况下的转变下的表现。然后,我们为此建议的政策评估计划建立了中心限制定理类型保证。利用这种评估方案,我们进一步提出了一种新颖的学习算法,该算法能够学习一项对对抗性扰动和未知协变量转移的策略,并根据统一收敛理论的性能保证进行了绩效保证。最后,我们从经验上测试了合成数据集中提出的算法的有效性,并证明它提供了使用标准策略学习算法缺失的鲁棒性。我们通过在现实世界投票数据集的背景下提供了我们方法的全面应用来结束本文。
translated by 谷歌翻译
We present a new family of subgradient methods that dynamically incorporate knowledge of the geometry of the data observed in earlier iterations to perform more informative gradient-based learning. Metaphorically, the adaptation allows us to find needles in haystacks in the form of very predictive but rarely seen features. Our paradigm stems from recent advances in stochastic optimization and online learning which employ proximal functions to control the gradient steps of the algorithm. We describe and analyze an apparatus for adaptively modifying the proximal function, which significantly simplifies setting a learning rate and results in regret guarantees that are provably as good as the best proximal function that can be chosen in hindsight. We give several efficient algorithms for empirical risk minimization problems with common and important regularization functions and domain constraints. We experimentally study our theoretical analysis and show that adaptive subgradient methods outperform state-of-the-art, yet non-adaptive, subgradient algorithms.
translated by 谷歌翻译
监督学习的关键假设是培训和测试数据遵循相同的概率分布。然而,这种基本假设在实践中并不总是满足,例如,由于不断变化的环境,样本选择偏差,隐私问题或高标签成本。转移学习(TL)放松这种假设,并允许我们在分销班次下学习。通常依赖于重要性加权的经典TL方法 - 基于根据重要性(即测试过度训练密度比率)的训练损失培训预测器。然而,由于现实世界机器学习任务变得越来越复杂,高维和动态,探讨了新的新方法,以应对这些挑战最近。在本文中,在介绍基于重要性加权的TL基础之后,我们根据关节和动态重要预测估计审查最近的进步。此外,我们介绍一种因果机制转移方法,该方法包含T1中的因果结构。最后,我们讨论了TL研究的未来观点。
translated by 谷歌翻译
我们研究了一类最能列举\ emph {银行贷款}问题的分类问题,贷方决定是否签发贷款。贷款人只会观察客户是否会偿还贷款,如果贷款开始,因此建模的决定会影响贷方可供未来决定提供的数据。因此,贷方的算法可以通过自我实现模型来“陷入困境”。此模型永远不会纠正其假底片,因为它永远不会看到拒绝数据的真实标签,从而累积无限遗憾。在线性模型的情况下,可以通过将乐观直接添加到模型预测中来解决这个问题。但是,几乎没有使用深神经网络延伸到函数近似情况的方法。我们呈现伪标签乐观(PLOT),概念上和计算的简单方法,适用于DNN的此设置。 \ plot {}为当前模型决定的决策点的乐观标签添加了乐观的标签,迄今为止列出了所有数据的模型(包括这些点以及它们的乐观标签),最后使用\ emph {乐观}决策模型。 \ plot {}在一组三个具有挑战性的基准问题上实现了竞争性能,需要最小的HyperParameter调整。我们还显示\绘图{}满足LipsChitz和Logistic均值标签模型的对数遗憾保证,并在数据的可分离状态下。
translated by 谷歌翻译
尽管现代的大规模数据集通常由异质亚群(例如,多个人口统计组或多个文本语料库)组成 - 最小化平均损失的标准实践并不能保证所有亚人群中均匀的低损失。我们提出了一个凸面程序,该过程控制给定尺寸的所有亚群中最差的表现。我们的程序包括有限样本(非参数)收敛的保证,可以保证最坏的亚群。从经验上讲,我们观察到词汇相似性,葡萄酒质量和累犯预测任务,我们最糟糕的程序学习了对不看到看不见的亚人群的模型。
translated by 谷歌翻译
所有著名的机器学习算法构成了受监督和半监督的学习工作,只有在一个共同的假设下:培训和测试数据遵循相同的分布。当分布变化时,大多数统计模型必须从新收集的数据中重建,对于某些应用程序,这些数据可能是昂贵或无法获得的。因此,有必要开发方法,以减少在相关领域中可用的数据并在相似领域中进一步使用这些数据,从而减少需求和努力获得新的标签样品。这引起了一个新的机器学习框架,称为转移学习:一种受人类在跨任务中推断知识以更有效学习的知识能力的学习环境。尽管有大量不同的转移学习方案,但本调查的主要目的是在特定的,可以说是最受欢迎的转移学习中最受欢迎的次级领域,概述最先进的理论结果,称为域适应。在此子场中,假定数据分布在整个培训和测试数据中发生变化,而学习任务保持不变。我们提供了与域适应性问题有关的现有结果的首次最新描述,该结果涵盖了基于不同统计学习框架的学习界限。
translated by 谷歌翻译
我们介绍了在打开集标签偏移(OSL)下进行域适应的问题,该标签分布可以任意更改,并且在部署期间可能会到达新类,但是类别条件分布p(x | y)是域不变的。 OSLS在标签转移和未标记(PU)学习下适应域的域名。学习者的目标是两个方面:(a)估计目标标签分布,包括新颖的班级; (b)学习目标分类器。首先,我们建立了确定这些数量的必要条件。其次,在标签转移和PU学习方面的进步中,我们提出了针对利用黑盒预测变量的两项任务的实用方法。与典型的开放式域适应(OSDA)问题不同,该问题往往不适合且仅适合启发式方法,OSLS提供了一个适合原则性机械的良好问题。关于视觉,语言和医学数据集的众多半合成基准测试的实验表明,我们的方法始终超过OSDA基线,实现目标域精度的10--25%提高。最后,我们分析了提出的方法,建立了与真正的标签边缘和收敛到高斯设置中线性模型的最佳分类器的有限样本收敛性。代码可在https://github.com/acmi-lab/open-set-label-shift上找到。
translated by 谷歌翻译
我们考虑训练在延迟反馈(\ emph {df Learning})下培训二进制分类器。例如,在在线广告中的转换预测中,我们最初收到单击广告但没有购买商品的负样本;随后,其中一些样本购买了一个物品,然后更改为正面。在DF学习的环境中,我们会随着时间的推移观察样本,然后在某个时候学习分类器。我们最初收到负样本;随后,其中一些样本变为正变为正。在各种现实世界中,例如在线广告,在首次单击后很长时间进行用户操作,可以想象此问题。由于反馈的延迟,正对正和负样品的天真分类返回偏置分类器。一种解决方案是使用已正确标记这些样品的样品超过一定时间窗口的样品。但是,现有研究报告说,仅根据时间窗口假设使用所有样本的子集的性能不佳,并且使用所有样本以及时间窗口假设可以提高经验性能。我们扩展了这些现有研究,并提出了一种具有无偏见和凸经验风险的方法,该方法是根据时间窗口假设在所有样本中构建的。为了证明所提出的方法的合理性,我们为在线广告中的真实流量日志数据集提供了合成和开放数据集的实验结果。
translated by 谷歌翻译
我们系统地研究了在乐观学习的背景下将整个文件存储在容量有限的缓存中的问题,在这种学习情况下,缓存策略可以访问预测甲骨文(例如,由神经网络提供)。连续的文件请求假定由对手生成,并且对Oracle的准确性没有任何假设。在这种情况下,我们为预测辅助在线缓存提供了通用的下限,并继续设计一套具有一系列性能复杂性权衡的政策。所有提议的政策都均均与甲骨文的准确性相称。我们的结果大大改善了所有最近提供的在线缓存政策,该政策无法利用Oracle预测,仅提供$ O(\ sqrt {t})$遗憾。在这种追求中,我们据我们所知,我们设计了第一个全面的乐观跟随领导者政策,该政策超出了缓存问题。我们还研究了具有不同尺寸的缓存文件和两部分网络缓存问题的问题。最后,我们通过使用现实世界痕迹进行广泛的数值实验来评估所提出的策略的功效。
translated by 谷歌翻译
模仿学习(IL)是解决顺序决策问题的一般学习范式。互动模仿学习,学习者可以在其中与专家示范的互动查询,与其离线同行或强化学习相比,已证明可以实现可证明的卓越样本效率保证。在这项工作中,我们研究了基于分类的在线模仿学习(abbrev。$ \ textbf {coil} $),以及在这种情况下设计Oracle有效的遗憾最小化算法的基本可行性,重点是一般的不可思议的情况。我们做出以下贡献:(1)我们表明,在$ \ textbf {coil} $问题中,任何适当的在线学习算法都不能保证总体上遗憾的是; (2)我们提出了$ \ textbf {logger} $,一种不当的在线学习算法框架,通过利用混合策略类的新定义,将$ \ textbf {coil} $降低到在线线性优化; (3)我们在$ \ textbf {logger} $框架中设计了两种Oracle效率算法,它们享受不同的样本和互动的复杂性权衡,并进行有限样本分析以显示其对幼稚行为克隆的改进; (4)我们表明,在标准复杂性理论假设下,在$ \ textbf {logger} $框架中,有效的动态遗憾最小化是不可行的。我们的工作将基于分类的在线模仿学习(一个重要的IL设置)置于更牢固的基础上。
translated by 谷歌翻译
我们研究了从记录的匪徒反馈中进行额外学习的增强合奏模型。为了实现这一目标,我们提出了一种新的增强算法,该算法直接优化了对政策预期奖励的估计。我们分析了该算法,并证明,只要满足“弱”的学习条件,每轮增强的经验风险会随着每一轮增强而降低(可能是指数迅速)。我们进一步展示了基础学习者如何减少标准监督学习问题。实验表明,我们的算法可以胜过仅在观察到的奖励上回归的深层外部学习和方法,从而证明了增强和选择正确的学习目标的好处。
translated by 谷歌翻译
我们考虑最小化根据未知和可能随机动态发展的凸起功能的问题,这可以按时和在决策变量上共同依赖。在机器学习和信号处理文献中比比皆是,在概念漂移,随机跟踪和执行预测的名称下取比。我们为随机算法提供了新的非渐近融合保障,其具有迭代平均值,专注于期望和高概率有效。我们获得的效率估计明确地解除了优化误差,梯度噪声和时间漂移的贡献。值得注意的是,我们表明近端随机梯度方法的跟踪效率仅取决于配备步骤衰减计划时的初始化质量上的对数。数值实验说明了我们的结果。
translated by 谷歌翻译