细胞仪可实现异质种群中精确的单细胞表型。这些细胞类型传统上是通过手动门控来注释的,但是这种方法遭受了对批处理效应的重现性和敏感性的缺乏。同样,最新的细胞仪 - 光谱流或质量细胞仪 - 创建丰富而高维的数据,其通过手动门控进行分析变得具有挑战性且耗时。为了解决这些局限性,我们引入了SCYAN(https://github.com/mics-lab/scyan),这是一个单-Cell细胞仪注释网络,该网络仅使用有关细胞测量仪面板的先前专家知识自动注释细胞类型。我们证明,SCYAN在多个公共数据集上大大优于相关的最新模型,同时更快,可解释。此外,SCYAN克服了几项互补任务,例如批处理效应,脱钉和人口发现。总体而言,该模型可以加速和简化细胞群体的特征,定量和细胞仪的发现。
translated by 谷歌翻译
我们描述了作为黑暗机器倡议和LES Houches 2019年物理学研讨会进行的数据挑战的结果。挑战的目标是使用无监督机器学习算法检测LHC新物理学的信号。首先,我们提出了如何实现异常分数以在LHC搜索中定义独立于模型的信号区域。我们定义并描述了一个大型基准数据集,由> 10亿美元的Muton-Proton碰撞,其中包含> 10亿美元的模拟LHC事件组成。然后,我们在数据挑战的背景下审查了各种异常检测和密度估计算法,我们在一组现实分析环境中测量了它们的性能。我们绘制了一些有用的结论,可以帮助开发无监督的新物理搜索在LHC的第三次运行期间,并为我们的基准数据集提供用于HTTPS://www.phenomldata.org的未来研究。重现分析的代码在https://github.com/bostdiek/darkmachines-unsupervisedChallenge提供。
translated by 谷歌翻译
在2015年和2019年之间,地平线的成员2020年资助的创新培训网络名为“Amva4newphysics”,研究了高能量物理问题的先进多变量分析方法和统计学习工具的定制和应用,并开发了完全新的。其中许多方法已成功地用于提高Cern大型Hadron撞机的地图集和CMS实验所执行的数据分析的敏感性;其他几个人,仍然在测试阶段,承诺进一步提高基本物理参数测量的精确度以及新现象的搜索范围。在本文中,在研究和开发的那些中,最相关的新工具以及对其性能的评估。
translated by 谷歌翻译
现代单细胞流量和质量细胞仪技术测量血液或组织样品中单个细胞的几种蛋白质的表达。因此,每个分析的生物样品都由数十万个多维细胞特征向量表示,这会产生高计算成本,以预测每个生物样品与机器学习模型的相关表型。如此大的固定基础性也限制了机器学习模型的可解释性,因为难以跟踪每个单个单个细胞如何影响最终预测。我们建议使用内核平均嵌入来编码每个分类生物样品的细胞景观。尽管我们最重要的目标是制作一个更透明的模型,但我们发现我们的方法与通过简单的线性分类器相比,您的方法获得了可比性或更好的精度。结果,我们的模型包含很少的参数,但仍与具有数百万参数的深度学习模型相似。与深度学习方法相反,我们模型的线性和子选择步骤使解释分类结果变得容易。分析进一步表明,我们的方法可以接受丰富的生物学解释性,以将细胞异质性与临床表型联系起来。
translated by 谷歌翻译
Normalizing flows provide a general mechanism for defining expressive probability distributions, only requiring the specification of a (usually simple) base distribution and a series of bijective transformations. There has been much recent work on normalizing flows, ranging from improving their expressive power to expanding their application. We believe the field has now matured and is in need of a unified perspective. In this review, we attempt to provide such a perspective by describing flows through the lens of probabilistic modeling and inference. We place special emphasis on the fundamental principles of flow design, and discuss foundational topics such as expressive power and computational trade-offs. We also broaden the conceptual framing of flows by relating them to more general probability transformations. Lastly, we summarize the use of flows for tasks such as generative modeling, approximate inference, and supervised learning.
translated by 谷歌翻译
离散和连续分布之间的映射是一项艰巨的任务,许多人不得不诉诸启发方法。我们提出了一种基于镶嵌的方法,该方法直接学习连续空间中的量化边界,并具有精确的可能性评估。这是通过使用具有有效的对数决定性jacobian的简单同态形态来构建凸多属凸的归一化流程来完成的。我们在两个应用程序设置中探索了这种方法,从离散到连续的映射,反之亦然。首先,Voronoi的消除化允许在多维空间中自动学习量化边界。边界的位置和区域之间的距离可以编码量化离散值之间的有用的结构关系。其次,无论混合组件的数量如何,Voronoi混合模型都具有恒定的计算成本,可用于可能性评估。从经验上讲,我们显示了对一系列结构化数据模式的现有方法的改进。
translated by 谷歌翻译
海洋充满了称为浮游植物的微型微藻,它们共同负责与陆地上所有植物的光合作用。我们预测他们对变暖海洋的反应的能力取决于了解浮游植物种群的动态如何受环境条件变化的影响。研究浮游植物动力学的一种强大技术是流式细胞仪,它测量每秒成千上万个单个细胞的光学特性。如今,海洋学家能够实时收集流动的细胞仪数据,从而为他们提供了精细的分辨率,可以分配数千公里的浮游植物分布。当前的挑战之一是了解这些大小规模的变化如何与环境条件(例如养分可用性,温度,光线和洋流)有关。在本文中,我们提出了多元回归模型的新型稀疏混合物,以估计随着时间的变化浮游植物的亚群,同时识别预测这些亚种群观察到的变化的特定环境协变量。我们使用合成数据和在2017年春季在东北太平洋进行的海洋学巡游中收集的合成数据和实际观察结果证明了该方法的有用性和解释性。
translated by 谷歌翻译
现代深度学习方法构成了令人难以置信的强大工具,以解决无数的挑战问题。然而,由于深度学习方法作为黑匣子运作,因此与其预测相关的不确定性往往是挑战量化。贝叶斯统计数据提供了一种形式主义来理解和量化与深度神经网络预测相关的不确定性。本教程概述了相关文献和完整的工具集,用于设计,实施,列车,使用和评估贝叶斯神经网络,即使用贝叶斯方法培训的随机人工神经网络。
translated by 谷歌翻译
Normalizing Flows are generative models which produce tractable distributions where both sampling and density evaluation can be efficient and exact. The goal of this survey article is to give a coherent and comprehensive review of the literature around the construction and use of Normalizing Flows for distribution learning. We aim to provide context and explanation of the models, review current state-of-the-art literature, and identify open questions and promising future directions.
translated by 谷歌翻译
最近的生成机器学习模型的进展重新推出了密码猜测领域的研究兴趣。基于GAN的数据驱动密码猜测方法和深度潜变量模型的方法显示了令人印象深刻的泛化性能,并为密码猜测提供了引人注目的属性。在本文中,我们提出了Passflow,一种基于流的生成模型方法来猜测。基于流的模型允许精确的对数似然计算和优化,这实现了精确潜在的变量推断。此外,基于流的模型提供了有意义的潜在空间表示,这使得能够探索潜在空间和插值的特定子空间。我们展示了生成流量的适用性到密码猜测的背景下,脱离了主要限于图像生成的连续空间的流网络的先前应用。我们显示Passflow能够在使用培训集中的密码猜测任务中以前的最先进的GaN的方法,这是一个训练集,该训练集是小于前一体的训练集。此外,生成的样本的定性分析表明,通信流可以准确地模拟原始密码的分布,甚至是不匹配的样本非常类似于人类的密码。
translated by 谷歌翻译
学习有意义的数据表示,可以解决诸如批处理效应校正和反事实推断之类的挑战,这在包括计算生物学在内的许多领域中都是一个核心问题。采用有条件的VAE框架,我们表明表示和条件变量之间的边际独立性在这两个挑战中都起着关键作用。我们提出了后代方法的对比混合物(COMP)方法,该方法使用了根据变异后代的混合物定义的新型未对准惩罚,以在潜在空间中实现这种独立性。我们表明,与以前的方法相比,COMP具有有吸引力的理论特性,并且在其他假设下,我们证明了COMP的反事实可识别性。我们在一系列具有挑战性的任务上展示了最先进的表现,包括将人类肿瘤样品与癌细胞线对准,预测转录组级的扰动反应以及单细胞RNA测序数据的批次校正。我们还发现与公平代表学习的相似之处,并证明Comp在该领域的共同任务上具有竞争力。
translated by 谷歌翻译
这是一门专门针对STEM学生开发的介绍性机器学习课程。我们的目标是为有兴趣的读者提供基础知识,以在自己的项目中使用机器学习,并将自己熟悉术语作为进一步阅读相关文献的基础。在这些讲义中,我们讨论受监督,无监督和强化学习。注释从没有神经网络的机器学习方法的说明开始,例如原理分析,T-SNE,聚类以及线性回归和线性分类器。我们继续介绍基本和先进的神经网络结构,例如密集的进料和常规神经网络,经常性的神经网络,受限的玻尔兹曼机器,(变性)自动编码器,生成的对抗性网络。讨论了潜在空间表示的解释性问题,并使用梦和对抗性攻击的例子。最后一部分致力于加强学习,我们在其中介绍了价值功能和政策学习的基本概念。
translated by 谷歌翻译
Autoregressive models are among the best performing neural density estimators. We describe an approach for increasing the flexibility of an autoregressive model, based on modelling the random numbers that the model uses internally when generating data. By constructing a stack of autoregressive models, each modelling the random numbers of the next model in the stack, we obtain a type of normalizing flow suitable for density estimation, which we call Masked Autoregressive Flow. This type of flow is closely related to Inverse Autoregressive Flow and is a generalization of Real NVP. Masked Autoregressive Flow achieves state-of-the-art performance in a range of general-purpose density estimation tasks.
translated by 谷歌翻译
因果推断对于跨业务参与,医疗和政策制定等领域的数据驱动决策至关重要。然而,关于因果发现的研究已经与推理方法分开发展,从而阻止了两个领域方法的直接组合。在这项工作中,我们开发了深层端到端因果推理(DECI),这是一种基于流动的非线性添加噪声模型,该模型具有观察数据,并且可以执行因果发现和推理,包括有条件的平均治疗效果(CATE) )估计。我们提供了理论上的保证,即DECI可以根据标准因果发现假设恢复地面真实因果图。受应用影响的激励,我们将该模型扩展到具有缺失值的异质,混合型数据,从而允许连续和离散的治疗决策。我们的结果表明,与因果发现的相关基线相比,DECI的竞争性能和(c)在合成数据集和因果机器学习基准测试基准的一千多个实验中,跨数据类型和缺失水平进行了估计。
translated by 谷歌翻译
单细胞RNA-seq数据集的大小和复杂性正在增长,从而可以研究各种生物/临床环境中的细胞组成变化。可扩展的降低性降低技术需要消除它们的生物学变异,同时考虑技术和生物混杂因素。在这项工作中,我们扩展了一种流行的概率非线性维度降低的方法,即高斯过程潜在变量模型,以扩展到大量的单细胞数据集,同时明确考虑技术和生物混杂因素。关键思想是使用增强的内核,该内核可以保留下限的可分式性,从而允许快速随机变化推断。我们证明了其在Kumasaka等人中重建先天免疫的潜在潜在签名的能力。 (2021)训练时间较低9倍。我们进一步分析了一个共同数据集并在130个人群中证明了该框架,该框架可以在捕获可解释的感染签名的同时进行数据集成。具体而言,我们探讨了互联的严重程度,作为优化患者分层并捕获疾病特异性基因表达的潜在维度。
translated by 谷歌翻译
We review clustering as an analysis tool and the underlying concepts from an introductory perspective. What is clustering and how can clusterings be realised programmatically? How can data be represented and prepared for a clustering task? And how can clustering results be validated? Connectivity-based versus prototype-based approaches are reflected in the context of several popular methods: single-linkage, spectral embedding, k-means, and Gaussian mixtures are discussed as well as the density-based protocols (H)DBSCAN, Jarvis-Patrick, CommonNN, and density-peaks.
translated by 谷歌翻译
这本数字本书包含在物理模拟的背景下与深度学习相关的一切实际和全面的一切。尽可能多,所有主题都带有Jupyter笔记本的形式的动手代码示例,以便快速入门。除了标准的受监督学习的数据中,我们将看看物理丢失约束,更紧密耦合的学习算法,具有可微分的模拟,以及加强学习和不确定性建模。我们生活在令人兴奋的时期:这些方法具有从根本上改变计算机模拟可以实现的巨大潜力。
translated by 谷歌翻译
在本文中,我们提出了一种新方法,以可靠的方式使用基于几何的变异自动编码器以可靠的方式执行数据增强。我们的方法结合了VAE被视为Riemannian歧管的适当潜在空间建模和新一代方案,该方案产生了更有意义的样本,尤其是在小型数据集的背景下。该方法通过广泛的实验研究进行了测试,在该研究中,其对数据集,分类器和训练样品的稳健性受到了强调。还可以在充满挑战的ADNI数据库上进行医学成像分类任务进行验证,其中使用拟议的VAE框架考虑了少量的3D脑MRIS并增强。在每种情况下,所提出的方法都可以在分类指标中获得显着可靠的增益。例如,在最先进的CNN分类器中,经过50次认知正常(CN)和50例阿尔茨海默氏病(AD)患者的最先进的CNN分类器,平衡准确度从66.3%跃升至74.3%,从77.7%到86.3%。具有243 CN和210 AD,同时提高了极大的敏感性和特异性指标。
translated by 谷歌翻译
统计模型是机器学习的核心,具有广泛适用性,跨各种下游任务。模型通常由通过最大似然估计从数据估计的自由参数控制。但是,当面对现实世界数据集时,许多模型运行到一个关键问题:它们是在完全观察到的数据方面配制的,而在实践中,数据集会困扰缺失数据。来自不完整数据的统计模型估计理论在概念上类似于潜在变量模型的估计,其中存在强大的工具,例如变分推理(VI)。然而,与标准潜在变量模型相比,具有不完整数据的参数估计通常需要估计缺失变量的指数 - 许多条件分布,因此使标准的VI方法是棘手的。通过引入变分Gibbs推理(VGI),是一种新的通用方法来解决这个差距,以估计来自不完整数据的统计模型参数。我们在一组合成和实际估算任务上验证VGI,从不完整的数据中估算重要的机器学习模型,VAE和标准化流程。拟议的方法,同时通用,实现比现有的特定模型特定估计方法竞争或更好的性能。
translated by 谷歌翻译
Time series anomaly detection has applications in a wide range of research fields and applications, including manufacturing and healthcare. The presence of anomalies can indicate novel or unexpected events, such as production faults, system defects, or heart fluttering, and is therefore of particular interest. The large size and complex patterns of time series have led researchers to develop specialised deep learning models for detecting anomalous patterns. This survey focuses on providing structured and comprehensive state-of-the-art time series anomaly detection models through the use of deep learning. It providing a taxonomy based on the factors that divide anomaly detection models into different categories. Aside from describing the basic anomaly detection technique for each category, the advantages and limitations are also discussed. Furthermore, this study includes examples of deep anomaly detection in time series across various application domains in recent years. It finally summarises open issues in research and challenges faced while adopting deep anomaly detection models.
translated by 谷歌翻译