最佳运输(OT)理论描述了定义和选择在许多可能的选择中,将概率度量映射到另一个概率的最有效方法。该理论主要用于估计,给定一对源和目标概率测量$(\ MU,\ nu)$,这是一个可以有效地将$ \ mu $映射到$ \ nu $的参数化映射$ t_ \ theta $。在许多应用程序中,例如预测细胞对治疗的响应,数据测量$ \ mu,\ nu $(未处理/处理过的单元的功能)定义了最佳运输问题并非孤立地出现,但与上下文$ c $相关联(治疗)。为了说明并将该上下文纳入OT估计,我们介绍了Condot,一种使用上下文标签$ C_I $标记的几对测量$(\ mu_i,\ nu_i)$使用几对测量$(\ mu_i,\ nu_i)$。我们的目标是从标记对的数据集$ \ {(c_i,((\ mu_i,\ nu_i))中提取%\})\} $学习全局映射$ \ mathcal {t} _ {\ theta} $,不仅是预期的适合数据集中的所有对$ \ {((c_i,(\ mu_i,\ nu_i)))\} $,即$,但应概括以产生有意义的地图$ \ Mathcal {t} _ {\ theta}(c _ {\ text {new}})$在未看到的上下文上调节的$ c _ {\ text {new}} $。我们的方法利用并为部分输入凸神经网络提供了新颖的用法,为此我们引入了受高斯近似启发的强大而有效的初始化策略。我们仅使用对所述扰动的作用观察到遗传或治疗性扰动对单个细胞的任意组合对单个细胞的任意组合的影响的能力。
translated by 谷歌翻译
考虑随时间演变的粒子群,通过快照监测,使用在连续时间戳的群体内采样的粒子。仅提供对这些快照的访问,我们可以重建这些粒子的单个轨迹吗?这个问题在我们时代的许多重要科学挑战中,特别是单细胞基因组学。在本文中,我们建议将人口动态模拟为欧洲因果乔丹 - 古德莱尔 - 奥托(JKO)的措施的实现:JKO计划陷入困境,即在时间T + 1的人口采取的新配置是交易的新配置在它减少能量的情况下,群体的更好配置,同时保持关闭(在Wasserstein距离)到在T.中观察到的先前配置。我们在这项工作中的目标是学习这样的能源给定数据。为此,我们提出了JKONET,一种计算的神经结构(以端到端可分子的方式),JKO流量给出了参数化能量和初始配置点。与更直接的前进方法相比,我们展示了JKONET配件程序的良好性能和稳健性。
translated by 谷歌翻译
Single-cell transcriptomics enabled the study of cellular heterogeneity in response to perturbations at the resolution of individual cells. However, scaling high-throughput screens (HTSs) to measure cellular responses for many drugs remains a challenge due to technical limitations and, more importantly, the cost of such multiplexed experiments. Thus, transferring information from routinely performed bulk RNA HTS is required to enrich single-cell data meaningfully. We introduce chemCPA, a new encoder-decoder architecture to study the perturbational effects of unseen drugs. We combine the model with an architecture surgery for transfer learning and demonstrate how training on existing bulk RNA HTS datasets can improve generalisation performance. Better generalisation reduces the need for extensive and costly screens at single-cell resolution. We envision that our proposed method will facilitate more efficient experiment designs through its ability to generate in-silico hypotheses, ultimately accelerating drug discovery.
translated by 谷歌翻译
Latent variable models such as the Variational Auto-Encoder (VAE) have become a go-to tool for analyzing biological data, especially in the field of single-cell genomics. One remaining challenge is the interpretability of latent variables as biological processes that define a cell's identity. Outside of biological applications, this problem is commonly referred to as learning disentangled representations. Although several disentanglement-promoting variants of the VAE were introduced, and applied to single-cell genomics data, this task has been shown to be infeasible from independent and identically distributed measurements, without additional structure. Instead, recent methods propose to leverage non-stationary data, as well as the sparse mechanism shift assumption in order to learn disentangled representations with a causal semantic. Here, we extend the application of these methodological advances to the analysis of single-cell genomics data with genetic or chemical perturbations. More precisely, we propose a deep generative model of single-cell gene expression data for which each perturbation is treated as a stochastic intervention targeting an unknown, but sparse, subset of latent variables. We benchmark these methods on simulated single-cell data to evaluate their performance at latent units recovery, causal target identification and out-of-domain generalization. Finally, we apply those approaches to two real-world large-scale gene perturbation data sets and find that models that exploit the sparse mechanism shift hypothesis surpass contemporary methods on a transfer learning task. We implement our new model and benchmarks using the scvi-tools library, and release it as open-source software at \url{https://github.com/Genentech/sVAE}.
translated by 谷歌翻译
计算分布之间的最佳传输(OT)耦合在机器学习中起着越来越重要的作用。虽然可以将OT问题求解为线性程序,但添加熵平滑项会导致求解器对离群值更快,更强大,可区分且易于并行化。 Sinkhorn固定点算法是这些方法的基石,结果,已经进行了多次尝试以缩短其运行时,例如退火,动量或加速度。本文的前提是,\ textit {initialization}的sindhorn算法受到了相对较少的关注,可能是由于两个先入为主的:由于正规化的ot问题是凸的,因此可能不值得制定量身定制的初始化,因为\ textit {\ textit { }保证工作;其次,由于sindhorn算法在端到端管道中通常是区分的,因此数据依赖性初始化可能会通过展开迭代而获得的偏差梯度估计。我们挑战了这种传统的观点,并表明精心选择的初始化可能会导致巨大的加速,并且不会偏向梯度,这些梯度是通过隐式分化计算的。我们详细介绍如何使用1D或高斯设置中的已知结果从封闭形式或近似OT解决方案中恢复初始化。我们从经验上表明,这些初始化可以在现成的情况下使用,几乎没有调整,并且导致各种OT问题的速度持续加速。
translated by 谷歌翻译
渐变流是一种强大的工具,用于优化一般度量空间中的功能,包括赋予WasserseIn度量标准的概率空间。解决这种优化问题的典型方法依赖于它与最佳运输的动态配方的连接和庆祝的Jordan-KinderLehrer-Otto(JKO)方案。然而,该制剂涉及优化凸起功能,这是具有挑战性的,尤其是高维度。在这项工作中,我们提出了一种依赖于最近引入的输入 - 凸神经网络(ICNN)的方法,以参加凸起功能的空间,以便近似JKO方案,以及在享受收敛保证的措施中设计功能。我们推出了这种JKO-ICNN框架的计算上有效的实现,并通过了解具有已知解决方案的低维局部微分方程的近似解的可行性和有效性。我们还通过对分子发现的受控生成的实验展示其在高维应用中的可行性。
translated by 谷歌翻译
Wasserstein BaryCenter是一种原理的方法来表示给定的一组概率分布的加权平均值,利用由最佳运输所引起的几何形状。在这项工作中,我们提出了一种新颖的可扩展算法,以近似于旨在在机器学习中的高维应用的Wassersein重构。我们所提出的算法基于Wassersein-2距离的Kantorovich双重制定以及最近的神经网络架构,输入凸神经网络,其已知参数化凸函数。我们方法的显着特征是:i)仅需要来自边缘分布的样本; ii)与现有方法不同,它代表了具有生成模型的重心,因此可以在不查询边际分布的情况下从重心产生无限样品; III)它与一个边际案例中的生成对抗性模型类似。我们通过在多个实验中将其与最先进的方法进行比较来证明我们的算法的功效。
translated by 谷歌翻译
我们研究了摊销优化的使用来预测输入度量的最佳运输(OT)图,我们称之为元。通过利用过去问题的知识和信息来快速预测和解决新问题,这有助于反复解决不同措施之间的类似OT问题。否则,标准方法忽略了过去解决方案的知识,并从头开始重新解决每个问题。元模型在离散设置中超过了log-sinkhorn求解器的标准收敛速率,并在连续设置中凸电势。我们通过在图像,球形数据和调色板之间的离散和连续传输设置中多个数量级来改善标准ot求解器的计算时间。我们的源代码可在http://github.com/facebookresearch/meta-ot上找到。
translated by 谷歌翻译
The Sinkhorn algorithm (arXiv:1306.0895) is the state-of-the-art to compute approximations of optimal transport distances between discrete probability distributions, making use of an entropically regularized formulation of the problem. The algorithm is guaranteed to converge, no matter its initialization. This lead to little attention being paid to initializing it, and simple starting vectors like the n-dimensional one-vector are common choices. We train a neural network to compute initializations for the algorithm, which significantly outperform standard initializations. The network predicts a potential of the optimal transport dual problem, where training is conducted in an adversarial fashion using a second, generating network. The network is universal in the sense that it is able to generalize to any pair of distributions of fixed dimension. Furthermore, we show that for certain applications the network can be used independently.
translated by 谷歌翻译
对于大型小分子的大型库,在考虑一系列疾病模型,测定条件和剂量范围时,详尽的组合化学筛选变得不可行。深度学习模型已实现了硅的最终技术,以预测协同得分。但是,药物组合的数据库对协同剂有偏见,这些结果不一定会概括分布不足。我们采用了使用深度学习模型的顺序模型优化搜索来快速发现与癌细胞系相比的协同药物组合,而与详尽的评估相比,筛查要少得多。在仅3轮ML引导的体外实验(包括校准圆圈)之后,我们发现,对高度协同组合进行了查询的一组药物对。进行了另外两轮ML引导实验,以确保趋势的可重复性。值得注意的是,我们重新发现药物组合后来证实将在临床试验中研究。此外,我们发现仅使用结构信息生成的药物嵌入开始反映作用机理。
translated by 谷歌翻译
这是一门专门针对STEM学生开发的介绍性机器学习课程。我们的目标是为有兴趣的读者提供基础知识,以在自己的项目中使用机器学习,并将自己熟悉术语作为进一步阅读相关文献的基础。在这些讲义中,我们讨论受监督,无监督和强化学习。注释从没有神经网络的机器学习方法的说明开始,例如原理分析,T-SNE,聚类以及线性回归和线性分类器。我们继续介绍基本和先进的神经网络结构,例如密集的进料和常规神经网络,经常性的神经网络,受限的玻尔兹曼机器,(变性)自动编码器,生成的对抗性网络。讨论了潜在空间表示的解释性问题,并使用梦和对抗性攻击的例子。最后一部分致力于加强学习,我们在其中介绍了价值功能和政策学习的基本概念。
translated by 谷歌翻译
We introduce an optimal transport-based model for learning a metric tensor from cross-sectional samples of evolving probability measures on a common Riemannian manifold. We neurally parametrize the metric as a spatially-varying matrix field and efficiently optimize our model's objective using a simple alternating scheme. Using this learned metric, we can nonlinearly interpolate between probability measures and compute geodesics on the manifold. We show that metrics learned using our method improve the quality of trajectory inference on scRNA and bird migration data at the cost of little additional cross-sectional data.
translated by 谷歌翻译
学习有意义的数据表示,可以解决诸如批处理效应校正和反事实推断之类的挑战,这在包括计算生物学在内的许多领域中都是一个核心问题。采用有条件的VAE框架,我们表明表示和条件变量之间的边际独立性在这两个挑战中都起着关键作用。我们提出了后代方法的对比混合物(COMP)方法,该方法使用了根据变异后代的混合物定义的新型未对准惩罚,以在潜在空间中实现这种独立性。我们表明,与以前的方法相比,COMP具有有吸引力的理论特性,并且在其他假设下,我们证明了COMP的反事实可识别性。我们在一系列具有挑战性的任务上展示了最先进的表现,包括将人类肿瘤样品与癌细胞线对准,预测转录组级的扰动反应以及单细胞RNA测序数据的批次校正。我们还发现与公平代表学习的相似之处,并证明Comp在该领域的共同任务上具有竞争力。
translated by 谷歌翻译
分位数回归(QR)是一个强大的工具,用于估计目标变量$ \ mathrm {y} $的一个或多个条件分位数给定的解释功能$ \ boldsymbol {\ mathrm {x}}} $。 QR的一个限制是,由于其目标函数的提出,它仅针对标量目标变量定义,并且由于分位数的概念对多元分布没有标准定义。最近,由于通过最佳传输将分位数概念对多变量分布的有意义的概括,提出了矢量分位数回归(VQR)作为矢量值目标变量的QR扩展。尽管它优雅,但VQR可以说是由于几个限制而在实践中不适用:(i)假设目标$ \ boldsymbol {\ mathrm {y}} $给定功能$ \ boldsymbol {\ mathrm {\ mathrm {\ mathrm {\ mathrm { {x}} $; (ii)即使在目标维度,回归分位数或特征数量的数量方面,它的确切配方也是棘手的,即使对于适度的问题,并且其放松的双重配方可能违反了估计的分位数的单调性; (iii)当前不存在VQR的快速或可扩展求解器。在这项工作中,我们完全解决了这些局限性,即:(i)将VQR扩展到非线性情况,显示出对线性VQR的实质性改进; (ii)我们提出{矢量单调重排},该方法可确保VQR估计的分位数函数是单调函数; (iii)我们为线性和非线性VQR提供快速的GPU加速求解器,这些求解器保持固定的内存足迹,并证明它们扩展到数百万个样品和数千个分位数; (iv)我们发布了求解器的优化Python软件包,以广泛使用VQR在现实世界应用中的使用。
translated by 谷歌翻译
Agent-based modeling (ABM) is a well-established paradigm for simulating complex systems via interactions between constituent entities. Machine learning (ML) refers to approaches whereby statistical algorithms 'learn' from data on their own, without imposing a priori theories of system behavior. Biological systems -- from molecules, to cells, to entire organisms -- consist of vast numbers of entities, governed by complex webs of interactions that span many spatiotemporal scales and exhibit nonlinearity, stochasticity and intricate coupling between entities. The macroscopic properties and collective dynamics of such systems are difficult to capture via continuum modelling and mean-field formalisms. ABM takes a 'bottom-up' approach that obviates these difficulties by enabling one to easily propose and test a set of well-defined 'rules' to be applied to the individual entities (agents) in a system. Evaluating a system and propagating its state over discrete time-steps effectively simulates the system, allowing observables to be computed and system properties to be analyzed. Because the rules that govern an ABM can be difficult to abstract and formulate from experimental data, there is an opportunity to use ML to help infer optimal, system-specific ABM rules. Once such rule-sets are devised, ABM calculations can generate a wealth of data, and ML can be applied there too -- e.g., to probe statistical measures that meaningfully describe a system's stochastic properties. As an example of synergy in the other direction (from ABM to ML), ABM simulations can generate realistic datasets for training ML algorithms (e.g., for regularization, to mitigate overfitting). In these ways, one can envision various synergistic ABM$\rightleftharpoons$ML loops. This review summarizes how ABM and ML have been integrated in contexts that span spatiotemporal scales, from cellular to population-level epidemiology.
translated by 谷歌翻译
There is intense interest in applying machine learning to problems of causal inference in fields such as healthcare, economics and education. In particular, individual-level causal inference has important applications such as precision medicine. We give a new theoretical analysis and family of algorithms for predicting individual treatment effect (ITE) from observational data, under the assumption known as strong ignorability. The algorithms learn a "balanced" representation such that the induced treated and control distributions look similar. We give a novel, simple and intuitive generalization-error bound showing that the expected ITE estimation error of a representation is bounded by a sum of the standard generalization-error of that representation and the distance between the treated and control distributions induced by the representation. We use Integral Probability Metrics to measure distances between distributions, deriving explicit bounds for the Wasserstein and Maximum Mean Discrepancy (MMD) distances. Experiments on real and simulated data show the new algorithms match or outperform the state-of-the-art.
translated by 谷歌翻译
在数据集中定义样本之间有意义的距离是机器学习中的一个基本问题。最佳传输(OT)在样品之间提高特征(“地面度量”)到几何意义上的距离之间的距离。但是,通常没有直接的地面度量选择。有监督的地面度量学习方法存在,但需要标记的数据。在没有标签的情况下,仅保留临时地面指标。因此,无监督的地面学习是启用数据驱动的OT应用程序的基本问题。在本文中,我们首次通过同时计算样本之间和数据集功能之间的OT距离来提出规范答案。这些距离矩阵自然出现,作为函数映射接地指标的正奇异向量。我们提供标准以确保这些奇异向量的存在和独特性。然后,我们使用随机近似和熵正则化引入可扩展的计算方法以在高维设置中近似它们。最后,我们在单细胞RNA测序数据集上展示了Wasserstein奇异向量。
translated by 谷歌翻译
本文介绍了一种新的基于仿真的推理程序,以对访问I.I.D. \ samples的多维概率分布进行建模和样本,从而规避明确建模密度函数或设计Markov Chain Monte Carlo的通常方法。我们提出了一个称为可逆的Gromov-monge(RGM)距离的新概念的距离和同构的动机,并研究了RGM如何用于设计新的转换样本,以执行基于模拟的推断。我们的RGM采样器还可以估计两个异质度量度量空间之间的最佳对齐$(\ cx,\ mu,c _ {\ cx})$和$(\ cy,\ cy,\ nu,c _ {\ cy})$从经验数据集中,估计的地图大约将一个量度$ \ mu $推向另一个$ \ nu $,反之亦然。我们研究了RGM距离的分析特性,并在轻度条件下得出RGM等于经典的Gromov-Wasserstein距离。奇怪的是,与Brenier的两极分解结合了连接,我们表明RGM采样器以$ C _ {\ cx} $和$ C _ {\ cy} $的正确选择诱导了强度同构的偏见。研究了有关诱导采样器的收敛,表示和优化问题的统计率。还展示了展示RGM采样器有效性的合成和现实示例。
translated by 谷歌翻译
在用于图形结构数据的几台机器学习任务中,所考虑的图形可以由不同数量的节点组成。因此,需要设计汇集方法,该方法将不同大小的图形表示聚合到固定大小的表示,其可以用于下游任务,例如图形分类。现有的图形池池方法没有关于图形表示的相似性和其汇总版的保证。在这项工作中,我们通过提出流池来解决这些限制,通过最小化其Wassersein距离,通过最佳地将图形表示的统计数据统计到其汇集的对应物。这是通过对汇集的图形表示来执行Wasserstein梯度流来实现的。我们提出了我们的方法,可以通过任何基础成本考虑表示空间的几何形状。该实施依赖于与最近提出的隐式差异化方案的Wasserstein距离的计算。我们的汇集方法可用于自动分化,可以集成在端到端的深度学习架构中。此外,流量池是不变的,因此可以与GNN中的置换设备提取层组合,以便获得与节点的排序无关的预测。实验结果表明,与现有在图形分类任务中的现有汇集方法相比,我们的方法导致性能增加。
translated by 谷歌翻译
加权方法是偏离因果效应的估计的常见工具。虽然越来越多的看似不同的方法,但其中许多可以折叠成一个统一的制度:因果最佳运输。这种新方法通过最小化治疗和对照组之间的最佳运输距离,或者更一般地,在源和目标群体之间直接针对分布平衡。我们的方法是半富集的有效和无模型,但也可以包含研究人员希望平衡的协变量的时刻或任何其他重要的功能。我们发现因果最佳运输优于竞争对手的方法,当错过倾向分数和结果模型时,表明它是一种稳健的替代普通加权方法。最后,我们证明了我们在外部对照研究中的效用检查米索前列醇与催产素治疗后骨髓出血的影响。
translated by 谷歌翻译