在线学习和决策中的一个核心问题 - 从土匪到强化学习 - 是要了解哪种建模假设会导致样本有效的学习保证。我们考虑了一个普遍的对抗性决策框架,该框架涵盖了(结构化的)匪徒问题,这些问题与对抗性动力学有关。我们的主要结果是通过新的上限和下限显示决策估计系数,这是Foster等人引入的复杂度度量。在与我们环境的随机对应物中,对于对抗性决策而言是必要和足够的遗憾。但是,与随机设置相比,必须将决策估计系数应用于所考虑的模型类(或假设)的凸壳。这就确定了容纳对抗奖励或动态的价格受凸层化模型类的行为的约束,并恢复了许多现有结果 - 既积极又负面。在获得这些保证的途径中,我们提供了新的结构结果,将决策估计系数与其他众所周知的复杂性度量的变体联系起来,包括Russo和Van Roy的信息比以及Lattimore和Gy的探索目标\“ {o} rgy。
translated by 谷歌翻译
我们研究了通过功能近似的强化学习,以部分可观察到的马尔可夫决策过程(POMDP),其中状态空间和观察空间很大甚至连续。特别是,我们考虑了POMDP的Hilbert空间嵌入,其中潜在状态的特征和观察的特征允许观测发射过程的有条件的希尔伯特空间嵌入,而潜在状态过渡是确定性的。在函数近似设置下,最佳潜在状态行动$ q $函数在状态功能中是线性的,而最佳$ q $ - 功能具有差距,我们提供了\ emph {计算和统计上有效} algorithm查找\ emph {确切的最佳}策略。我们在观察空间上的算法和特征的固有维度上,在多项式上显示了算法的计算和统计复杂性。此外,我们显示了确定性的潜在过渡和差距假设对于避免统计复杂性指数在地平线或维度中是必要的。由于我们的保证对状态和观察空间的大小没有明确的依赖性,因此我们的算法可证明对大规模POMDPS。
translated by 谷歌翻译
我们研究使用功能近似的部分可观察到的动力学系统的增强学习。我们提出了一个新的\ textit {部分可观察到的双线性actor-Critic-Critic框架},它足以包括可观察到的图表部分可观察到的Markov决策过程(POMDPS),可观察到的线性Quadratic-Quadratic-Gaussian(LQG)(LQG),预测状态表示(POMDPS)( PSRS),以及新引入的模型Hilbert空间嵌入POMDPS和可观察到的POMDP,具有潜在的低级过渡。在此框架下,我们提出了一种能够执行不可知论政策学习的参与者批评算法。给定一个由基于内存的策略组成的策略类别(查看最近观察的固定长度窗口),以及一个值得将内存和未来观察作为输入的功能组成的值函数类别,我们的算法学会了与最佳的最佳竞争在给定策略类中基于内存的策略。对于某些示例,例如可观察到的表格pomdps,可观察到的LQG和可观察到的具有潜在低级过渡的可观察到的POMDP,通过隐式利用其特殊特性,我们的算法甚至能够与全球最佳策略竞争,而无需支付对高度依赖的依赖,以竞争全球最佳的策略。它的样本复杂性。
translated by 谷歌翻译
Epsilon-Greedy,SoftMax或Gaussian噪声等近视探索政策在某些强化学习任务中无法有效探索,但是在许多其他方面,它们的表现都很好。实际上,实际上,由于简单性,它们通常被选为最佳选择。但是,对于哪些任务执行此类政策成功?我们可以为他们的有利表现提供理论保证吗?尽管这些政策具有显着的实际重要性,但这些关键问题几乎没有得到研究。本文介绍了对此类政策的理论分析,并为通过近视探索提供了对增强学习的首次遗憾和样本复杂性。我们的结果适用于具有有限的Bellman Eluder维度的情节MDP中的基于价值功能的算法。我们提出了一种新的复杂度度量,称为近视探索差距,用Alpha表示,该差距捕获了MDP的结构属性,勘探策略和给定的值函数类别。我们表明,近视探索的样品复杂性与该数量的倒数1 / alpha^2二次地量表。我们通过具体的例子进一步证明,由于相应的动态和奖励结构,在近视探索成功的几项任务中,近视探索差距确实是有利的。
translated by 谷歌翻译
随着未来以数据为中心的决策,对数据库的无缝访问至关重要。关于创建有效的文本到SQL(Text2SQL)模型以访问数据库的数据有广泛的研究。使用自然语言是可以通过有效访问数据库(尤其是对于非技术用户)来弥合数据和结果之间差距的最佳接口之一。它将打开门,并在精通技术技能或不太熟练的查询语言的用户中引起极大的兴趣。即使提出或研究了许多基于深度学习的算法,在现实工作场景中使用自然语言来解决数据查询问题仍然非常具有挑战性。原因是在不同的研究中使用不同的数据集,这带来了其局限性和假设。同时,我们确实缺乏对这些提议的模型及其对其训练的特定数据集的局限性的彻底理解。在本文中,我们试图介绍过去几年研究的24种神经网络模型的整体概述,包括其涉及卷积神经网络,经常性神经网络,指针网络,强化学习,生成模型等的架构。我们还概述11个数据集,这些数据集被广泛用于训练Text2SQL技术的模型。我们还讨论了无缝数据查询中文本2SQL技术的未来应用可能性。
translated by 谷歌翻译
我们探索使用机器学习的眼光估算技术。眼目光估计是各种行为分析和人类计算机界面的常见问题。这项工作的目的是讨论各种模型类型,以进行眼睛凝视估计,并通过在不受约束的环境中使用眼标预测凝视方向的结果。在不受限制的现实世界中,由于照明变化和其他视觉伪像等因素,基于特征和基于模型的方法的表现优于最近的基于外观的方法。我们讨论了一种基于学习的基于学习的方法,该方法专门针对合成数据培训。我们讨论了如何使用检测到的地标作为迭代模型拟合和轻巧学习的凝视估计方法的输入,以及如何将模型用于与人无关和个性化的凝视估计。
translated by 谷歌翻译
给定一组场景的图像,从新颖的观点和照明条件中重新渲染了这个场景是计算机视觉和图形中的一个重要且具有挑战性的问题。一方面,计算机视觉中的大多数现有作品通常对图像形成过程(例如直接照明和预定义的材料,以使场景参数估计可进行。另一方面,成熟的计算机图形工具允许对所有场景参数进行复杂的照片现实光传输的建模。结合了这些方法,我们通过学习神经预先计算的辐射转移功能,提出了一种在新观点下重新考虑的场景方法,该方法使用新颖的环境图隐含地处理全球照明效应。在单个未知的照明条件下,我们的方法可以仅在场景的一组真实图像上进行监督。为了消除训练期间的任务,我们在训练过程中紧密整合了可区分的路径示踪剂,并提出了合成的OLAT和真实图像丢失的组合。结果表明,场景参数的恢复分离在目前的现状,因此,我们的重新渲染结果也更加现实和准确。
translated by 谷歌翻译
尽管现在使用自我监督方法构建的计算机视觉模型现在很普遍,但仍然存在一些重要问题。自我监督的模型是否学习高度冗余的频道功能?如果一个自我监督的网络可以动态选择重要的渠道并摆脱不必要的渠道怎么办?目前,与计算机视觉中的有监督的对手相比,通过自我训练预先训练的Convnet在下游任务上获得了可比的性能。但是,有一些自我监督模型的缺点,包括大量参数,计算昂贵的培训策略以及对下游任务更快推断的明确需求。在这项工作中,我们的目标是通过研究如何将用于监督学习的标准渠道选择方法应用于经过自学训练的网络。我们验证我们在一系列目标预算上验证我们的发现$ t_ {d} $,用于跨不同数据集的图像分类任务的频道计算,特别是CIFAR-10,CIFAR-100和IMAGENET-100,获得了与原始网络的可比性性能when selecting all channels but at a significant reduction in computation reported in terms of FLOPs.
translated by 谷歌翻译
我们在定期马尔可夫决策过程(MDP)中学习学习,这是一种特殊类型的非平稳MDP,在平均奖励最大化设置下,状态过渡概率和奖励功能都定期变化。我们通过使用周期指数来扩大状态空间来将问题作为固定的MDP提出,并提出了定期上限置信度结合增强学习2(PUCRL2)算法。我们表明,pucrl2的遗憾随着时期和地平线长度的次线性而变化。数值结果证明了PUCRL2的功效。
translated by 谷歌翻译
培训和评估语言模型越来越多地要求构建元数据 - 多样化的策划数据收集,并具有清晰的出处。自然语言提示最近通过将现有的,有监督的数据集转换为多种新颖的预处理任务,突出了元数据策划的好处,从而改善了零击的概括。尽管将这些以数据为中心的方法转化为生物医学语言建模的通用域文本成功,但由于标记的生物医学数据集在流行的数据中心中的代表性大大不足,因此仍然具有挑战性。为了应对这一挑战,我们介绍了BigBio一个由126个以上的生物医学NLP数据集的社区库,目前涵盖12个任务类别和10多种语言。 BigBio通过对数据集及其元数据进行程序化访问来促进可再现的元数据策划,并与当前的平台兼容,以及时工程和端到端的几个/零射击语言模型评估。我们讨论了我们的任务架构协调,数据审核,贡献指南的过程,并概述了两个说明性用例:生物医学提示和大规模,多任务学习的零射门评估。 BigBio是一项持续的社区努力,可在https://github.com/bigscience-workshop/biomedical上获得。
translated by 谷歌翻译