在多任务学习(MTL)中,对联合模型进行了培训,可以同时对几个任务进行预测。联合培训降低了计算成本并提高数据效率;但是,由于这些不同任务的梯度可能需要冲突,因此训练MTL的联合模型通常比其相应的单任务对应人员产生的性能较低。减轻此问题的一种常见方法是使用特定的启发式方法将每个任务梯度组合到联合更新方向上。在本文中,我们建议将梯度组合步骤视为一个议价游戏,在该游戏中,任务就达成了有关参数更新联合方向的协议。在某些假设下,议价问题具有独特的解决方案,称为NASH讨价还价解决方案,我们建议将其用作多任务学习的原则方法。我们描述了一种新的MTL优化程序NASH-MTL,并为其收敛性得出了理论保证。从经验上讲,我们表明NASH-MTL在各个域中的多个MTL基准上实现了最新的结果。
translated by 谷歌翻译
组活动识别(GAR)检测由短视频剪辑中的一组演员执行的活动。任务需要对场景实体的组成理解和它们之间的关系推理。我们通过将视频建模为一系列令牌来致电GAR,该令牌代表视频中的多尺度语义概念。我们提出了Composer,一种基于多尺度变压器的架构,其在每个规模上通过令牌进行关注的推理,并在合成方面学习群组活动。此外,我们只使用缩小场景偏差的关键点模态并提高模型的泛化能力。我们通过群集中间尺度表示来提高作曲家中的多尺度表示,同时在尺度之间保持一致的群集分配。最后,我们使用辅助预测和新型数据增强(例如,演员丢弃)等技术来帮助模型培训。我们展示了挑战排球数据集的模型的实力和可解释性。作曲家通过Keypoint的模型实现新的最先进的94.5%的准确性。作曲家优于依赖RGB信号的最新GAR方法,并对利用多种方式的方法进行比较。我们的代码将可用。
translated by 谷歌翻译
Latent variable models such as the Variational Auto-Encoder (VAE) have become a go-to tool for analyzing biological data, especially in the field of single-cell genomics. One remaining challenge is the interpretability of latent variables as biological processes that define a cell's identity. Outside of biological applications, this problem is commonly referred to as learning disentangled representations. Although several disentanglement-promoting variants of the VAE were introduced, and applied to single-cell genomics data, this task has been shown to be infeasible from independent and identically distributed measurements, without additional structure. Instead, recent methods propose to leverage non-stationary data, as well as the sparse mechanism shift assumption in order to learn disentangled representations with a causal semantic. Here, we extend the application of these methodological advances to the analysis of single-cell genomics data with genetic or chemical perturbations. More precisely, we propose a deep generative model of single-cell gene expression data for which each perturbation is treated as a stochastic intervention targeting an unknown, but sparse, subset of latent variables. We benchmark these methods on simulated single-cell data to evaluate their performance at latent units recovery, causal target identification and out-of-domain generalization. Finally, we apply those approaches to two real-world large-scale gene perturbation data sets and find that models that exploit the sparse mechanism shift hypothesis surpass contemporary methods on a transfer learning task. We implement our new model and benchmarks using the scvi-tools library, and release it as open-source software at \url{https://github.com/Genentech/sVAE}.
translated by 谷歌翻译
近年来,隐含的生成模型(例如生成对抗网络和扩散模型)已变得普遍。虽然这些模型确实显示出了显着的结果,但评估其性能是具有挑战性的。这个问题对于推动研究并从随机噪声中确定有意义的收益至关重要。当前,启发式指标(例如INCEPTION评分(IS)和特雷希特(Frechet Inception)距离(FID)是最常见的评估指标,但是它们所测量的内容尚不完全清楚。此外,关于他们的分数实际有多有意义的问题。在这项工作中,我们通过生成高质量的合成数据集来研究生成模型的评估指标,我们可以在该数据集中估算经典指标以进行比较。我们的研究表明,尽管FID和与几个F-Diverence确实相关,但它们的近距离模型的排名可能会差异很大,因此在用于Fain Graining比较时,它们有问题。我们进一步使用了这种实验环境来研究哪些评估度量与我们的概率指标相关。最后,我们研究用于FID等指标的基本功能。
translated by 谷歌翻译
在元加强学习(META RL)中,代理商从一组培训任务中学习如何快速解决从相同的任务分布中绘制的新任务。最佳的元rl政策,又称贝叶斯最佳行为,是很好的定义,并保证了对任务分布的预期最佳奖励。我们在这项工作中探讨的问题是,需要多少培训任务来确保具有很高可能性的大致最佳行为。最近的工作为无模型设置提供了第一个这样的PAC分析,其中从培训任务中学到了依赖历史的政策。在这项工作中,我们提出了一种不同的方法:使用密度估计技术直接学习任务分布,然后对学习任务分布进行培训。我们表明,我们的方法导致界限取决于任务分布的维度。特别是,在任务分布中处于低维多方面的环境中,我们将分析扩展到使用降低性降低技术并说明这种结构,从而比以前的工作明显更好,这严格取决于状态和行动的数量。我们方法的关键是内核密度估计方法所隐含的正则化。我们进一步证明,当“插入”最先进的Varibad Meta RL算法时,这种正则化在实践中很有用。
translated by 谷歌翻译
因果推断的一个共同主题是学习观察到的变量(也称为因果发现)之间的因果关系。考虑到大量候选因果图和搜索空间的组合性质,这通常是一项艰巨的任务。也许出于这个原因,到目前为止,大多数研究都集中在相对较小的因果图上,并具有多达数百个节点。但是,诸如生物学之类的领域的最新进展使生成实验数据集,并进行了数千种干预措施,然后进行了数千个变量的丰富分析,从而增加了机会和迫切需要大量因果图模型。在这里,我们介绍了因子定向无环图(F-DAG)的概念,是将搜索空间限制为非线性低级别因果相互作用模型的一种方法。将这种新颖的结构假设与最近的进步相结合,弥合因果发现与连续优化之间的差距,我们在数千个变量上实现了因果发现。此外,作为统计噪声对此估计程序的影响的模型,我们根据随机图研究了F-DAG骨架的边缘扰动模型,并量化了此类扰动对F-DAG等级的影响。该理论分析表明,一组候选F-DAG比整个DAG空间小得多,因此在很难评估基础骨架的高维度中更统计学上的稳定性。我们提出了因子图(DCD-FG)的可区分因果发现,这是对高维介入数据的F-DAG约束因果发现的可扩展实现。 DCD-FG使用高斯非线性低级结构方程模型,并且在模拟中的最新方法以及最新的大型单细胞RNA测序数据集中,与最新方法相比显示出显着改善遗传干预措施。
translated by 谷歌翻译
我们提出了一个新的视觉数据表示形式,该数据将对象位置从外观上删除。我们的方法称为深潜粒子(DLP),将视觉输入分解为低维的潜在``粒子'',其中每个粒子都用其周围区域的空间位置和特征来描述。为了学习这种表示形式,我们遵循一种基于VAE的方法,并根据空间 - 软构建结构引入了粒子位置的先验位置,并修改了受粒子之间倒角距离启发的证据下限损失。我们证明,我们的DLP表示形式可用于下游任务,例如无监督关键点(KP)检测,图像操纵和针对由多个动态对象组成的场景的视频预测。此外,我们表明,我们对问题的概率解释自然提供了粒子位置的不确定性估计,可用于模型选择以及其他任务。可用视频和代码:https://taldatech.github.io/deep-latent-particles-web/
translated by 谷歌翻译
分位数回归(QR)是一个强大的工具,用于估计目标变量$ \ mathrm {y} $的一个或多个条件分位数给定的解释功能$ \ boldsymbol {\ mathrm {x}}} $。 QR的一个限制是,由于其目标函数的提出,它仅针对标量目标变量定义,并且由于分位数的概念对多元分布没有标准定义。最近,由于通过最佳传输将分位数概念对多变量分布的有意义的概括,提出了矢量分位数回归(VQR)作为矢量值目标变量的QR扩展。尽管它优雅,但VQR可以说是由于几个限制而在实践中不适用:(i)假设目标$ \ boldsymbol {\ mathrm {y}} $给定功能$ \ boldsymbol {\ mathrm {\ mathrm {\ mathrm {\ mathrm { {x}} $; (ii)即使在目标维度,回归分位数或特征数量的数量方面,它的确切配方也是棘手的,即使对于适度的问题,并且其放松的双重配方可能违反了估计的分位数的单调性; (iii)当前不存在VQR的快速或可扩展求解器。在这项工作中,我们完全解决了这些局限性,即:(i)将VQR扩展到非线性情况,显示出对线性VQR的实质性改进; (ii)我们提出{矢量单调重排},该方法可确保VQR估计的分位数函数是单调函数; (iii)我们为线性和非线性VQR提供快速的GPU加速求解器,这些求解器保持固定的内存足迹,并证明它们扩展到数百万个样品和数千个分位数; (iv)我们发布了求解器的优化Python软件包,以广泛使用VQR在现实世界应用中的使用。
translated by 谷歌翻译
我们在随机和对抗性马尔可夫决策过程(MDP)中研究合作在线学习。也就是说,在每一集中,$ m $代理商同时与MDP互动,并共享信息以最大程度地减少他们的遗憾。我们考虑具有两种随机性的环境:\ emph {Fresh} - 在每个代理的轨迹均已采样i.i.d和\ emph {non-fresh} - 其中所有代理人共享实现(但每个代理的轨迹也受到影响)通过其自己的行动)。更确切地说,通过非志趣相投的随机性,每个成本和过渡的实现都在每个情节开始时都固定了,并且在同一时间同时采取相同行动的代理人观察到相同的成本和下一个状态。我们彻底分析了所有相关设置,强调了模型之间的挑战和差异,并证明了几乎匹配的遗憾下层和上限。据我们所知,我们是第一个考虑具有非伪造随机性或对抗性MDP的合作强化学习(RL)。
translated by 谷歌翻译
量子光学器件中的自发参数下转换是实现具有空间光模式的高维QUITIES的宝贵资源。主要开放挑战之一是如何在SPDC过程中直接生成所需的Qudit状态。通过高级计算学习方法可以解决这个问题;然而,由于通过考虑所有互动效应的完全可分辨率算法对SPDC过程建模的困难,进展有限。在这里,我们克服了这些限制并引入了物理受约束和可微分的模型,验证了针对形状泵浦梁和结构晶体的实验结果,能够在过程中学习每个交互参数。我们避免了我们物理模型随机性质引起的任何限制,并整合了在SPDC Hamiltonian下的演变的动态方程。我们解决了设计非线性量子光学系统的逆问题,该系统实现了降低的光子对的所需量子状态。使用不同空间模式之间的二阶相关性或通过指定所需的密度矩阵来定义所需状态。通过学习非线性卷全息图以及不同的泵形状,我们成功地展示了如何生成最大纠缠的状态。此外,我们通过主动改变泵浦光束的轮廓来模拟产生的量子状态的全光相干控制。我们的工作对于高维量子密钥分布和量子信息处理协议等新颖设计有用。此外,我们的方法可以容易地应用于控制SPDC过程中的其他光度的其他光度,例如光谱和时间特性,甚至可以用于具有类似相互作用Hamiltonian的冷凝物系统。
translated by 谷歌翻译