强化学习(RL)的经典理论主要集中在单个任务设置上,在该设备设置中,代理商学会通过反复试验的经验来解决任务,仅从该任务中访问数据。但是,许多最近的经验工作表明,利用跨多个相关任务训练的联合代表的实践好处。在这项工作中,我们从理论上分析了这样的设置,将与任务相关性的概念形式化为共享的状态行动表示,该表示在所有任务中都接受线性动态。我们介绍了用于Multitask MatrixRl的共享matrixrl算法。在$ p $ dimension $ d $共享联合$ r \ ll d $低维表示的情况下,我们向$ o o提高了对$ p $任务的遗憾(phd \ sqrt { nh})$ to $ o(((HD \ sqrt {rp} + hp \ sqrt {rd})\ sqrt {nh})$ bo $ n $ n $ n $ episodes of horizo​​n $ h $。这些收益与上下文匪徒和RL中其他线性模型中观察到的收益一致。与以前研究过其他函数近似模型中多任务RL的工作相反,我们表明,在具有双线性优化的Oracle和有限状态作用空间的存在下,多任务矩阵的计算有效算法通过减少到Quadratic编程。我们还开发了一种简单的技术,可以从某些情节线性问题的遗憾上限中刮除$ \ sqrt {h} $ factor。
translated by 谷歌翻译
在随机对照试验中的治疗效果(TE)估计的客观评估中的中心障碍是缺乏地面真理(或验证集)来测试其表现。在本文中,我们提供了一种新的交叉验证样方法来解决这一挑战。我们程序的关键洞察力是嘈杂(但不偏不倚)差异估计可以用作RCT的一部分上的地面真理“标签”,以测试在另一部分培训的估计器的性能。我们将这种洞察力与聚集方案相结合,借助跨统计强度的大型RCT,以判断估计估计估计潜在治疗效果的能力的端到端方法。我们在亚马逊供应链中实施的709个RCT评估我们的方法。在Amazon的AB测试中,由于响应变量的重尾性,我们突出了与恢复治疗效果相关的独特困难。在这种重尾的设置中,我们的方法表明,积极低档或截断大值的程序,同时引入偏差降低了足以确保更准确地估计治疗效果的方差。
translated by 谷歌翻译
强大的机器学习模型的开发中的一个重要障碍是协变量的转变,当训练和测试集的输入分布时发生的分配换档形式在条件标签分布保持不变时发生。尽管现实世界应用的协变量转变普遍存在,但在现代机器学习背景下的理论理解仍然缺乏。在这项工作中,我们检查协变量的随机特征回归的精确高尺度渐近性,并在该设置中提出了限制测试误差,偏差和方差的精确表征。我们的结果激发了一种自然部分秩序,通过协变速转移,提供足够的条件来确定何时何时损害(甚至有助于)测试性能。我们发现,过度分辨率模型表现出增强的协会转变的鲁棒性,为这种有趣现象提供了第一个理论解释之一。此外,我们的分析揭示了分销和分发外概率性能之间的精确线性关系,为这一令人惊讶的近期实证观察提供了解释。
translated by 谷歌翻译
元学习或学习学习,寻求设计算法,可以利用以前的经验快速学习新技能或适应新环境。表示学习 - 用于执行元学习的关键工具 - 了解可以在多个任务中传输知识的数据表示,这在数据稀缺的状态方面是必不可少的。尽管最近在Meta-Leature的实践中感兴趣的兴趣,但缺乏元学习算法的理论基础,特别是在学习可转让陈述的背景下。在本文中,我们专注于多任务线性回归的问题 - 其中多个线性回归模型共享常见的低维线性表示。在这里,我们提供了可提供的快速,采样高效的算法,解决了(1)的双重挑战,从多个相关任务和(2)将此知识转移到新的,看不见的任务中的常见功能。两者都是元学习的一般问题的核心。最后,我们通过在学习这些线性特征的样本复杂性上提供信息定理下限来补充这些结果。
translated by 谷歌翻译