我们介绍了一种普遍的策略,可实现有效的多目标勘探。它依赖于adagoal,一种基于简单约束优化问题的新的目标选择方案,其自适应地针对目标状态,这既不是太困难也不是根据代理目前的知识达到的。我们展示了Adagoal如何用于解决学习$ \ epsilon $ -optimal的目标条件的政策,以便在$ L $ S_0 $ S_0 $奖励中获得的每一个目标状态,以便在$ S_0 $中获取。免费马尔可夫决策过程。在标准的表格外壳中,我们的算法需要$ \ tilde {o}(l ^ 3 s a \ epsilon ^ { - 2})$探索步骤,这几乎很少最佳。我们还容易在线性混合Markov决策过程中实例化Adagoal,其产生具有线性函数近似的第一目标导向的PAC保证。除了强大的理论保证之外,迈克纳队以现有方法的高级别算法结构为锚定,为目标条件的深度加固学习。
translated by 谷歌翻译
神经活动的意义和简化表示可以产生深入了解如何以及什么信息被神经回路内处理。然而,如果没有标签,也揭示了大脑和行为之间的联系的发现表示可以挑战。在这里,我们介绍了所谓的交换,VAE学习神经活动的解开表示一种新型的无监督的办法。我们的方法结合了特定实例的排列损失,试图最大限度地输入(大脑状态)的转变观点之间的代表性相似性的生成模型框架。这些转化(或增强)视图是通过掉出神经元和抖动样品中的时间,这直观地应导致网络维护既时间一致性和不变性用于表示神经状态的特定的神经元的表示创建的。通过对从数百个不同的灵长类动物大脑的神经元的模拟数据和神经录音的评价,我们表明,它是不可能建立的表示沿有关潜在维度解开神经的数据集与行为相联系。
translated by 谷歌翻译
模型 - 不可知的元增强学习需要估算价值函数的黑森斯矩阵。这是从实施角度挑战,反复区分政策梯度估计可能导致偏见的Hessian估计。在这项工作中,我们提供了一个统一的框架,用于估算价值函数的高阶导数,基于禁止策略评估。我们的框架将许多现有方法解释为特殊情况,并阐明了Hessian估计的偏差和方差权衡。该框架还打开了一个新的估计系列的大门,这可以通过自动差异化库轻松实现,并在实践中导致性能提升。
translated by 谷歌翻译
自我监督的学习提供了一个有希望的途径,消除了在图形上的代表学习中的昂贵标签信息的需求。然而,为了实现最先进的性能,方法通常需要大量的负例,并依赖于复杂的增强。这可能是昂贵的,特别是对于大图。为了解决这些挑战,我们介绍了引导的图形潜伏(BGRL) - 通过预测输入的替代增强来学习图表表示学习方法。 BGRL仅使用简单的增强,并减轻了对否定例子对比的需求,因此通过设计可扩展。 BGRL胜过或匹配现有的几种建立的基准,同时降低了内存成本的2-10倍。此外,我们表明,BGR1可以缩放到半监督方案中的数亿个节点的极大的图表 - 实现最先进的性能并改善监督基线,其中表示仅通过标签信息而塑造。特别是,我们的解决方案以BGRL为中心,将kdd杯2021的开放图基准的大规模挑战组成了一个获奖条目,在比所有先前可用的基准更大的级别的图形订单上,从而展示了我们方法的可扩展性和有效性。
translated by 谷歌翻译
在线强化学习(RL)中的挑战之一是代理人需要促进对环境的探索和对样品的利用来优化其行为。无论我们是否优化遗憾,采样复杂性,状态空间覆盖范围或模型估计,我们都需要攻击不同的勘探开发权衡。在本文中,我们建议在分离方法组成的探索 - 剥削问题:1)“客观特定”算法(自适应)规定哪些样本以收集到哪些状态,似乎它可以访问a生成模型(即环境的模拟器); 2)负责尽可能快地生成规定样品的“客观无关的”样品收集勘探策略。建立最近在随机最短路径问题中进行探索的方法,我们首先提供一种算法,它给出了每个状态动作对所需的样本$ B(S,a)$的样本数量,需要$ \ tilde {o} (bd + d ^ {3/2} s ^ 2 a)收集$ b = \ sum_ {s,a} b(s,a)$所需样本的$时间步骤,以$ s $各国,$ a $行动和直径$ d $。然后我们展示了这种通用探索算法如何与“客观特定的”策略配对,这些策略规定了解决各种设置的样本要求 - 例如,模型估计,稀疏奖励发现,无需无成本勘探沟通MDP - 我们获得改进或新颖的样本复杂性保证。
translated by 谷歌翻译
转移学习已成为利用计算机视觉中预先训练模型的流行方法。然而,在不执行计算上昂贵的微调的情况下,难以量化哪个预先训练的源模型适用于特定目标任务,或者相反地,可以容易地适应预先训练的源模型的任务。在这项工作中,我们提出了高斯Bhattacharyya系数(GBC),一种用于量化源模型和目标数据集之间的可转换性的新方法。在第一步中,我们在由源模型定义的特征空间中嵌入所有目标图像,并表示使用每类高斯。然后,我们使用Bhattacharyya系数估计它们的成对类可分离性,从而产生了一种简单有效的源模型转移到目标任务的程度。我们在数据集和架构选择的上下文中评估GBC在图像分类任务上。此外,我们还对更复杂的语义分割转移性估算任务进行实验。我们证明GBC在语义分割设置中大多数评估标准上的最先进的可转移性度量,匹配图像分类中的数据集转移性的最高方法的性能,并且在图像分类中执行最佳的架构选择问题。
translated by 谷歌翻译
选择功能是向量图形的基础,因为它是栅格数据的。但是矢量选择是完全不同的:而不是像素级标签,我们做出二进制决定包括或排除每个矢量原语。在没有可理解的元数据的情况下,这成为一个感知分组问题。这些以前依赖于类似于Gestall理论的经验原则的启发式,但由于这些都是不合定的和主观的,他们经常导致歧义。在这里,我们对问题采取了以数据为中心的方法。通过利用感知分组的递归性质,我们将任务解释为构建矢量图形的基元构建层次结构,这可以与额外的人类注释一起学习递归神经网络。我们通过构建这些层次结构的数据集来验证我们培训分层分组网络的数据集。然后,我们演示了如何在原型选择工具支撑。
translated by 谷歌翻译
嵌入或可视化临床患者数据的主要挑战是可变类型的异质性,包括连续实验室值,分类诊断代码以及缺失或不完整的数据。特别地,在EHR数据中,一些变量是{\ EM缺失而不是随机(MNAR)}但故意没有收集,因此是信息来源。例如,在疑似诊断的基础上,某些患者可能认为实验室测试是必要的,但不适用于其他患者。在这里,我们呈现壁画林 - 一个无监督的随机森林,用于代表具有不同变量类型的数据(例如,分类,连续,mnar)。壁画森林由一组决策树组成,其中随机选择节点分裂变量,使得所有其他变量的边缘熵由分裂最小化。这允许我们在与连续变量一致的方式中也拆分在Mnar变量和离散变量上。最终目标是学习使用这些患者之间的平均树距离的患者的壁画嵌入。这些距离可以馈送到非线性维度减少方法,如phate,以获得可视化的嵌入。虽然这种方法在连续值的数据集中普遍存在(如单细胞RNA测序)中,但它们尚未在混合可变数据中广泛使用。我们展示在一个人工和两个临床数据集上使用我们的方法。我们表明,使用我们的方法,我们可以比竞争方法更准确地对数据进行可视化和分类数据。最后,我们表明壁画也可用于通过最近提出的树木切片的Wassersein距离比较患者的群组。
translated by 谷歌翻译
神经匪使从业者能够有效地在非线性奖励功能上有效地运行。虽然在一般的上下文匪徒通常利用高斯过程(GP)决策的预测分布,但最成功的神经变体仅在推导中使用最后一层参数。神经内核(NK)的研究最近在深网络和GPS之间建立了对应的对应,考虑到NN的所有参数,并且可以比大多数贝叶斯NN更有效地培训。我们建议直接应用NK诱导的分布,以指导基于上行的束缚或汤普森采样的政策。我们展示了NK匪徒在高度非线性结构化数据上实现最先进的性能。此外,我们分析了实际考虑因素,例如训练频率和模型分区。我们相信我们的工作将有助于更好地了解利用NKS在应用环境中的影响。
translated by 谷歌翻译
我们使用不同的语言支持特征预处理方法研究特征密度(FD)的有效性,以估计数据集复杂性,这又用于比较估计任何训练之前机器学习(ML)分类器的潜在性能。我们假设估计数据集复杂性允许减少所需实验迭代的数量。这样我们可以优化ML模型的资源密集型培训,这是由于可用数据集大小的增加以及基于深神经网络(DNN)的模型的不断增加的普及而成为一个严重问题。由于训练大规模ML模型引起的令人惊叹的二氧化碳排放量,不断增加对更强大的计算资源需求的问题也在影响环境。该研究是在多个数据集中进行的,包括流行的数据集,例如用于培训典型情感分析模型的Yelp业务审查数据集,以及最近的数据集尝试解决网络欺凌问题,这是一个严重的社会问题,也是一个严重的社会问题一个更复杂的问题,形成了语言代表的观点。我们使用收集多种语言的网络欺凌数据集,即英语,日语和波兰语。数据集的语言复杂性的差异允许我们另外讨论语言备份的单词预处理的功效。
translated by 谷歌翻译