In this paper, we address the stochastic contextual linear bandit problem, where a decision maker is provided a context (a random set of actions drawn from a distribution). The expected reward of each action is specified by the inner product of the action and an unknown parameter. The goal is to design an algorithm that learns to play as close as possible to the unknown optimal policy after a number of action plays. This problem is considered more challenging than the linear bandit problem, which can be viewed as a contextual bandit problem with a \emph{fixed} context. Surprisingly, in this paper, we show that the stochastic contextual problem can be solved as if it is a linear bandit problem. In particular, we establish a novel reduction framework that converts every stochastic contextual linear bandit instance to a linear bandit instance, when the context distribution is known. When the context distribution is unknown, we establish an algorithm that reduces the stochastic contextual instance to a sequence of linear bandit instances with small misspecifications and achieves nearly the same worst-case regret bound as the algorithm that solves the misspecified linear bandit instances. As a consequence, our results imply a $O(d\sqrt{T\log T})$ high-probability regret bound for contextual linear bandits, making progress in resolving an open problem in (Li et al., 2019), (Li et al., 2021). Our reduction framework opens up a new way to approach stochastic contextual linear bandit problems, and enables improved regret bounds in a number of instances including the batch setting, contextual bandits with misspecifications, contextual bandits with sparse unknown parameters, and contextual bandits with adversarial corruption.
translated by 谷歌翻译
在本文中,我们提出了针对中央,局部和洗牌模型中随机线性匪徒问题的差异私有算法。在中心模型中,我们获得了与最佳非私有算法的遗憾,这意味着我们可以免费获得隐私。特别是,我们感到遗憾的是$ \ tilde {o}(\ sqrt {t}+\ frac {1} {\ epsilon})$匹配已知的私有线性匪徒的较低限制,而最佳以前已知的算法实现了$ \ tilde {o}(\ frac {1} {\ epsilon} \ sqrt {t})$。在当地情况下,我们感到遗憾的是$ \ tilde {o}(\ frac {1} {\ epsilon} {\ sqrt {t}} $,与常数$ \ epsilon $相匹配的非私人遗憾,但是当$ \ epsilon $很小时,会受到遗憾的处罚。在洗牌模型中,我们还遗憾地对$ \ tilde {o}(\ sqrt {t}+\ frac {1} {\ epsilon} {\ epsilon})$%$ \ epsilon $,如中心案例,而最佳情况是以前已知的算法对$ \ tilde {o}(\ frac {1} {\ epsilon} {t^{3/5}})$感到遗憾。我们的数值评估验证了我们的理论结果。
translated by 谷歌翻译
上下文线性土匪是具有许多实际应用的丰富且理论上重要的模型。最近,这种设置对无线的应用程序引起了很多兴趣,在无线上,通信限制可能是性能瓶颈,尤其是当上下文来自大型$ d $维空间时。在本文中,我们考虑了一个分布式的无记忆上下文线性匪徒学习问题,在该问题中,观察上下文并采取行动的代理人在地理上与学习中的学习者而在看不到上下文的同时分离。我们假设上下文是从分布中生成的,并提出了一种方法,该方法对于未知上下文分布的情况使用$ \ \ 5D $位,如果已知上下文分布,则每上下文$ 0 $ bits $ 0 $位,同时实现了几乎相同的遗憾。好像可以直接观察到上下文。前者的界限通过$ \ log(t)$因素在现有界限上进行了改进,其中$ t $是地平线的长度,而后者则达到了信息理论的紧密度。
translated by 谷歌翻译
多武装强盗(MAB)问题是一个主动学习框架,其旨在通过顺序观察奖励来选择一组动作中最好的选择。最近,它已经在无线网络上的许多应用程序流行,其中通信约束可以形成瓶颈。现有的作品通常无法解决此问题,并且可以在某些应用中变得不可行。在本文中,我们通过优化分布式代理收集的奖励的通信来解决沟通问题。通过提供近乎匹配的上限和下限,我们紧紧地表征了学习者每次奖励所需的比特数,以便在不遭受额外遗憾的情况下准确学习。特别是,我们建立了一个通用奖励量化算法,可以应用于任何(无遗憾)MAB算法的顶部,以形成新的通信有效的对应物,这只需要几个(低至3)位每次迭代时会发送,同时保留相同的遗憾。我们的下限是通过构建来自SubGaussian分布的硬实例来建立。我们的理论在数值实验中进一步证实。
translated by 谷歌翻译
Artificial intelligence methods including deep neural networks (DNN) can provide rapid molecular classification of tumors from routine histology with accuracy that matches or exceeds human pathologists. Discerning how neural networks make their predictions remains a significant challenge, but explainability tools help provide insights into what models have learned when corresponding histologic features are poorly defined. Here, we present a method for improving explainability of DNN models using synthetic histology generated by a conditional generative adversarial network (cGAN). We show that cGANs generate high-quality synthetic histology images that can be leveraged for explaining DNN models trained to classify molecularly-subtyped tumors, exposing histologic features associated with molecular state. Fine-tuning synthetic histology through class and layer blending illustrates nuanced morphologic differences between tumor subtypes. Finally, we demonstrate the use of synthetic histology for augmenting pathologist-in-training education, showing that these intuitive visualizations can reinforce and improve understanding of histologic manifestations of tumor biology.
translated by 谷歌翻译
传感器融合可以显着提高许多计算机视觉任务的性能。但是,传统的融合方法要么不是数据驱动的,也不能利用先验知识,也不能在给定数据集中找到规律性,或者它们仅限于单个应用程序。我们通过呈现一种新型深层分层变异自动编码器来克服这一缺点,称为FusionVae,可以作为许多融合任务的基础。我们的方法能够生成以多个嘈杂,遮挡或仅部分可见的输入图像来调节的各种图像样本。我们得出并优化了融合的条件对数似然的变化下限。为了彻底评估模型的融合功能,我们根据流行的计算机视觉数据集创建了三个新颖的图像融合数据集。在我们的实验中,我们表明FusionVae学习了与融合任务相关的汇总信息的表示。结果表明,我们的方法表现明显优于传统方法。此外,我们介绍了不同设计选择的优势和缺点。
translated by 谷歌翻译
在各种控制任务域中,现有控制器提供了基线的性能水平,虽然可能是次优的 - 应维护。依赖于国家和行动空间的广泛探索的强化学习(RL)算法可用于优化控制策略。但是,完全探索性的RL算法可能会在训练过程中降低低于基线水平的性能。在本文中,我们解决了控制政策的在线优化问题,同时最大程度地减少了遗憾的W.R.T基线政策绩效。我们提出了一个共同的仿制学习框架,表示乔尔。 JIRL中的学习过程假设了基线策略的可用性,并设计了两个目标\ textbf {(a)}利用基线的在线演示,以最大程度地减少培训期间的遗憾W.R.T的基线策略,\ textbf {(b) }最终超过了基线性能。 JIRL通过最初学习模仿基线策略并逐渐将控制从基线转移到RL代理来解决这些目标。实验结果表明,JIRR有效地实现了几个连续的动作空间域中的上述目标。结果表明,JIRL在最终性能中与最先进的算法相当,同时在所有提出的域中训练期间都会降低基线后悔。此外,结果表明,对于最先进的基线遗憾最小化方法,其基线后悔的减少因素最高为21美元。
translated by 谷歌翻译
在有问题的回答需要常识的问题上,语言模型(例如,GPT-3)已用于生成表达有助于提高性能的背景知识的文本。然而,使用此类模型的成本很高。在这项工作中,我们对较小的语言模型产生有用的中间上下文,此处称为阐述。我们的框架在更新两个语言模型之间交替使用 - 阐述生成器和一个答案预测变量 - 允许每个语言都影响彼此。我们的模型使用少于GPT-3的参数的0.5%优于具有相似尺寸的替代方案,并在四个常识性问题上回答基准测试的GPT-3上的差距缩小。人类评估表明,生成的阐述的质量很高。
translated by 谷歌翻译
本文介绍了有关开发的原型的研究,以服务公共政策设计的定量研究。政治学的这种子学科着重于确定参与者,之间的关系以及在健康,环境,经济和其他政策方面可以使用的工具。我们的系统旨在自动化收集法律文件,用机构语法注释它们的过程,并使用超图来分析关键实体之间的相互关系。我们的系统经过了《联合国教科文组织公约》的保护,以保护2003年的无形文化遗产,这是一份法律文件,该文件规定了确保文化遗产的国际关系的基本方面。
translated by 谷歌翻译
为了能够在不怀疑的情况下使用人工智能(AI)在医学中,并认识到和评估其日益增长的潜力,在当前和未来的医务人员中,对该主题的基本理解是必要的。在“通过理解的信任”的前提下,我们在德国Ki校园(AI校园)项目框架内开发了创新的在线课程,这是一个自我指导的课程,它教授AI的基础知识进行分析医疗图像数据。主要目标是提供一个学习环境,以充分了解医学图像分析中的AI,以便通过积极的应用经验来克服对该主题的进一步兴趣,并可以克服对其使用的抑制。重点是医疗应用和机器学习的基础。在线课程分为连续的课程,其中包括以解释性视频的形式,以简化和实践练习和/或测验的形式进行的实践练习,以检查学习进度。在课程的第一次跑步中,参与医学生的一项调查用于定量分析我们的研究假设。
translated by 谷歌翻译