Single-cell technologies are revolutionizing the entire field of biology. The large volumes of data generated by single-cell technologies are high-dimensional, sparse, heterogeneous, and have complicated dependency structures, making analyses using conventional machine learning approaches challenging and impractical. In tackling these challenges, deep learning often demonstrates superior performance compared to traditional machine learning methods. In this work, we give a comprehensive survey on deep learning in single-cell analysis. We first introduce background on single-cell technologies and their development, as well as fundamental concepts of deep learning including the most popular deep architectures. We present an overview of the single-cell analytic pipeline pursued in research applications while noting divergences due to data sources or specific applications. We then review seven popular tasks spanning through different stages of the single-cell analysis pipeline, including multimodal integration, imputation, clustering, spatial domain identification, cell-type deconvolution, cell segmentation, and cell-type annotation. Under each task, we describe the most recent developments in classical and deep learning methods and discuss their advantages and disadvantages. Deep learning tools and benchmark datasets are also summarized for each task. Finally, we discuss the future directions and the most recent challenges. This survey will serve as a reference for biologists and computer scientists, encouraging collaborations.
translated by 谷歌翻译
知识图(kgs)因其学习单一关系事实的表示能力而获得了突出。最近,研究重点是建模超级关系的事实,这些事实超出了单一关系事实的限制,使我们能够代表更复杂和现实的信息。但是,现有的超级关系中学习表征的方法主要集中于增强从预选赛到基础三元组的沟通,同时忽略了从基本三重限制者到资格赛的信息流。这可能会导致次级预选赛表示,尤其是在提出大量预选赛时。它促使我们设计一个利用多个聚合器来学习超级关系事实的表示框架:从基本三重的角度来看,一个框架从资格符的角度来看。实验证明了我们框架对多个数据集的超相关知识图完成的有效性。此外,我们进行了一项消融研究,以验证各个组件在我们的框架中的重要性。可以在\ url {https://github.com/harryshomer/quad}找到复制我们的结果的代码。
translated by 谷歌翻译
最近的深度学习技术和精心设计的DEBIA算法,公正的排名学习(ULTR)问题已大大提高。但是,由于从那些流行的基准数据集中观察到的以下缺点,因此现有基准数据集的有希望的结果可能不会扩展到实际情况:(1)过时的语义功能提取,其中最先进的大规模预训练的预培训的语言由于原始文本的缺失,无法利用像伯特这样的模型;(2)不完整的显示功能,用于深入研究Ultr,例如,缺少显示的文档的摘要,用于分析单击必要的偏见; (3)缺乏现实世界的用户反馈,导致经验研究中合成数据集的普遍性。为了克服上述缺点,我们介绍了Baidu-ultr数据集。它涉及随机采样12亿次搜索会议和7,008个专家注释的查询,该查询比现有的搜索范围大。 Baidu-ultr提供:(1)原始语义功能和一个预先训练的语言模型,以方便使用; (2)足够的显示信息,例如位置,显示高度并显示了抽象,从而可以全面研究具有先进技术的不同偏见,例如因果发现和元学习; (3)搜索结果页面(SERP)等丰富的用户反馈,例如住宅时间,允许用户参与优化并促进ULTR中多任务学习的探索。在本文中,我们介绍了Baidu-Ultr的设计原理以及在此新数据资源上的基准超级算法的性能,有利于探索长尾查询和排名预培训任务的排名。 BAIDU-ULTR数据集和相应的基线实现可在https://github.com/chuxiaokai/baidu_ultr_dataset上获得。
translated by 谷歌翻译
知识跟踪(KT)是使用学生的历史学习互动数据来对其知识掌握的任务,以便对他们未来的互动绩效进行预测。最近,使用各种深度学习技术来解决KT问题已经取得了显着的进步。但是,基于深度学习的知识追踪(DLKT)方法的成功仍然有些神秘,适当的测量以及对这些DLKT方法的分析仍然是一个挑战。首先,现有作品中的数据预处理程序通常是私人和/或自定义,这限制了实验标准化。此外,现有的DLKT研究通常在评估方案方面有所不同,并且是现实世界中的教育环境。为了解决这些问题,我们介绍了一个综合基于Python的基准平台\ TextSc {Pykt},以确保通过彻底评估进行跨DLKT方法的有效比较。 \ textsc {pykt}库由不同域的7个流行数据集上的一组标准化的数据预处理程序组成,而10个经常比较了用于透明实验的DLKT模型实现。我们细粒度和严格的经验KT研究的结果产生了一系列观察结果和有效DLKT的建议,例如,错误的评估设置可能会导致标签泄漏,这通常会导致性能膨胀;与Piech等人提出的第一个DLKT模型相比,许多DLKT方法的改进是最小的。 \ cite {piech2015 -Deep}。我们已经开源\ textsc {pykt},并在\ url {https://pykt.org/}上进行了实验结果。我们欢迎其他研究小组和从业人员的贡献。
translated by 谷歌翻译
由于大型数据集中的深度学习模型需要大量时间和资源,因此希望构建一个小型合成数据集,我们可以通过该数据集充分训练深度学习模型。最近有一些作品通过复杂的BI级优化探索了有关凝结图像数据集的解决方案。例如,数据集冷凝(DC)匹配网络梯度W.R.T.大型数据和小合成数据,在每个外迭代处,网络权重优化了多个步骤。但是,现有方法具有其固有的局限性:(1)它们不直接适用于数据离散的图表; (2)由于所涉及的嵌套优化,冷凝过程在计算上昂贵。为了弥合差距,我们研究了针对图形数据集量身定制的有效数据集冷凝,在该数据集中我们将离散图结构模拟为概率模型。我们进一步提出了一个单步梯度匹配方案,该方案仅执行一个步骤,而无需训练网络权重。我们的理论分析表明,该策略可以生成合成图,从而导致实际图上的分类损失降低。各种图数据集的广泛实验证明了该方法的有效性和效率。特别是,我们能够将数据集大小降低90%,同时大约98%的原始性能,并且我们的方法明显快于多步梯度匹配(例如,CIFAR10中的15倍用于合成500个图)。
translated by 谷歌翻译
近年来,图形神经网络(GNNS)在许多现实世界中的应用(例如建议和药物发现)中取得了巨大的成功。尽管取得了成功,但已将过度厚度确定为限制GNN绩效的关键问题之一。这表明由于堆叠聚合器,学到的节点表示是无法区分的。在本文中,我们提出了一种新的观点,以研究深度GNN的性能降低,即特征过度相关。通过有关此问题的经验和理论研究,我们证明了更深层次的GNN中的特征过度相关的存在,并揭示了导致该问题的潜在原因。为了减少功能相关性,我们提出了一个通用框架,可以鼓励GNN编码较少的冗余信息。广泛的实验表明,Decorr可以帮助实现更深入的GNN,并与现有的技术相辅相成。
translated by 谷歌翻译
图形神经网络(GNN)在许多基于图的任务中表现出强大的表示能力。具体而言,由于其简单性和性能优势,GNN(例如APPNP)的解耦结构变得流行。但是,这些GNN的端到端培训使它们在计算和记忆消耗方面效率低下。为了应对这些局限性,在这项工作中,我们为图形神经网络提供了交替的优化框架,不需要端到端培训。在不同设置下进行的广泛实验表明,所提出的算法的性能与现有的最新算法相当,但具有更好的计算和记忆效率。此外,我们表明我们的框架可以利用优势来增强现有的脱钩GNN。
translated by 谷歌翻译
知识图(kgs)由于能够存储适用于许多领域的关系知识的能力,因此有助于多种应用。尽管在创造和维护方面进行了巨大的努力,但即使是最大的公斤也远非完整。因此,KG完成(KGC)已成为KG研究最关键的任务之一。最近,该领域的大量文献围绕着使用图神经网络(GNN)学习强大的嵌入,从而利用KGS中的拓扑结构。具体而言,已经做出了专门的努力,以扩展GNN,通常是为简单的同质和单一相关图设计的,以通过设计更复杂的聚合方案而不是相邻节点(关键的节点)(通过设计更复杂的聚合方案)(为GNN绩效)适当利用多关系信息。这些方法的成功自然归因于GNN在简单的多层感知器(MLP)模型上使用,这是由于它们的附加聚合功能。在这项工作中,我们发现简单的MLP模型能够达到与GNN的可比性能,这表明聚集可能并不像以前那样重要。通过进一步的探索,我们显示出仔细的评分功能和损失功能设计对KGC模型性能的影响要大得多,并且实际上不需要聚集。这表明了评分功能设计,损失功能设计和先前工作中的聚集结合,并有很有希望的见解当今最先进的KGC方法的可伸缩性,以及对KGC任务更合适的聚合设计的仔细注意明天。该实现可在线获得:https://github.com/juanhui28/are_mpnns_helpful。
translated by 谷歌翻译
多模式单细胞技术的最新进展已使从同一细胞中的多个OMICS数据同时采集,从而更深入地了解细胞状态和动力学。但是,从多模式数据,模拟模式之间的关系并更重要的是,将大量的单模式数据集纳入下游分析是一项挑战。为了应对这些挑战并相应地促进了多模式的单细胞数据分析,已经引入了三个关键任务:$ \ textit {模式预测} $,$ \ textit {modital {modital {modational conterative} $和$ \ textit {intimit {interion {intim interding} $。在这项工作中,我们提出了一个通用图形神经网络框架$ \ textit {scmognn} $来解决这三个任务,并表明$ \ textit {scmognn} $与最新的任务相比,在所有三个任务中都表现出了卓越的结果。艺术和传统方法。我们的方法是\ textit {模式预测}的整体排名的官方获奖者,来自神经2021竞赛\ footNote {\ url {https://openproblems.bio/neurips_2021/}},我们的所有方法都已整合到我们的所有实现中舞蹈软件包\ footNote {\ url {https://github.com/omicsml/dance}}}。
translated by 谷歌翻译
图表神经网络(GNNS)已广泛应用于推荐任务,并获得了非常吸引人的性能。然而,大多数基于GNN的推荐方法在实践中遭受数据稀疏问题。同时,预训练技术在减轻了各个领域(如自然语言处理(NLP)和计算机视觉(CV)等域中的数据稀疏而取得了巨大成功。因此,图形预培训具有扩大基于GNN的建议的数据稀疏的巨大潜力。但是,预先培训GNN,建议面临独特的挑战。例如,不同推荐任务中的用户项交互图具有不同的用户和项目集,并且它们通常存在不同的属性。因此,在NLP和CV中常用的成功机制将知识从预训练任务转移到下游任务,例如共享所学习的嵌入式或特征提取器,而不是直接适用于现有的基于GNN的推荐模型。为了解决这些挑战,我们精致地设计了一个自适应图形预训练框架,用于本地化协作滤波(适应)。它不需要传输用户/项目嵌入式,并且能够跨越不同图的共同知识和每个图形的唯一性。广泛的实验结果表明了适应的有效性和优越性。
translated by 谷歌翻译