本报告概述了利用大数据革命和大规模计算解决多信使天体物理学中的重大计算挑战的最新工作,特别强调实时发现活动。该文件承认了多信使天体物理学的跨学科性质,由物理学家,天文学,计算机科学,数据科学,软件和网络基础设施社区的成员编写,他们参加了NSF-,DOE-和NVIDIA资助的“多信使天体物理学的深度学习”。 :实时发现规模“研讨会,于2018年10月17日至19日在国家超级计算应用中心举办。本报告的重点包括一致同意这对于加速新型信号处理算法的开发和部署至关重要。利用人工智能(AI)和高性能计算之间的协同作用,最大限度地发挥Multi-Messenger天体物理学的潜在科学发现。我们讨论了实现这一努力的关键方面,即(i)为多信使天体物理学设计和利用可扩展和计算效率高的AI算法;(ii)数字模拟天体物理资源的网络基础设施要求,以及处理和解释多信使天体物理学数据; (iii)管理引力波探测和触发以实现电磁和天体粒子跟踪; (iv)利用未来发展的机器和深度学习以及网络基础设施资源的愿景与大数据时代的发现规模相结合; (v)需要建立一个社区,将领域专家与数据科学家一起进行平等,以最大限度地加速发现多信天体物理学的新兴领域。
translated by 谷歌翻译
我们提出了无限混合原型来自适应地表示用于少数镜头学习的简单和复杂数据分布。我们的无限混合原型通过一组聚类来表示每个类,而不像现有的原型方法,这些方法通过单个聚类表示每个类。通过增加聚类的数量,无限混合原型在最近邻和原型表示之间进行插值,这改善了少数射击机制中的准确性和鲁棒性。我们展示了捕获复杂数据分布(如字母表)的自适应能力的重要性,与原型网络相比,绝对精度提高了25%,同时仍然保持或提高了标准Omniglot和mini-ImageNetbenchmarks的准确性。在通过相同的聚类规则聚类标记和未标记的数据时,无限混合原型实现了最先进的半监督准确性。作为进一步的能力,我们表明无限混合原型可以执行纯粹的无监督聚类,与现有的原型方法不同。
translated by 谷歌翻译
基因表达谱已被广泛用于表征细胞对疾病的反应模式。随着数据的出现,可扩展的学习工具对于使用深度学习模型处理大型数据集来模拟复杂的生物过程变得至关重要。我们提出了从基因表达谱中恢复的自动编码器tocapture非线性关系。自动编码器是一种使用人工神经网络的非线性降维技术,它可以学习未标记数据的隐藏表示。我们对来自National CancerInstitute Genomic Data Commons的大量肿瘤样本进行自动编码,并获得广义和无监督的表示。我们利用专注于HPC的深度学习工具包Livermore Big Artificial Neural Network(LBANN)来有效地并行化训练算法,将计算时间从几小时缩短到几分钟。使用训练的自动编码器,我们生成小数据集的潜在表示,包含各种肿瘤类型的正常细胞和癌细胞对。引入了一种称为自编码器节点显着性(ANS)的新措施来识别最能区分各种细胞对的隐藏节点。我们通过主成分分析和t分布随机邻域嵌入的可视化比较了我们对最佳分类节点的发现。我们证明了自动编码器有效地为数据集中的多个学习任务提取了不同的基因特征。
translated by 谷歌翻译
众所周知,由诸如word2vec(W2V)之类的神经网络方法生成的字嵌入表现出看似线性的行为,例如, “女人就像男人对王”这样的家谱的嵌入近似描述了一个平行四边形。这个属性特别有趣,因为嵌入没有经过培训来实现它。已经提出了几种解释,buteach引入了在实践中不具备的假设。我们得出了一个具有概率性基础的释义定义,并表明它可以被解释为单词变换,这是“$ w_x $ isto $ w_y $”的数学描述。从这些概念中,我们证明存在W2V型嵌入之间的线性关系,这种关系是类比现象的基础,并且在关系中识别显式误差项。
translated by 谷歌翻译
凸集聚是一种很有前途的新方法,可以解决经典的集群问题,将实证研究中的强大表现与严谨的理论基础相结合。尽管具有这些优点,但由于其计算密集性和缺乏引人注目的可视化,凸聚类尚未被广泛采用。为了解决这些障碍,我们引入了算法正则化,这是一种使用迭代一步近似方法获得高质量正则化路径估计的创新技术。我们用一种新颖的理论结果来证明我们的方法是合理的,保证了全局收敛的精确解决方案的非近似检查的非数据依赖假设的近似路径。算法正则化在凸集群中的应用通过算法正则化路径(CARP)算法产生凸集群,用于计算集群解决路径。在基因组学和文本分析的示例数据集中,CARPdelivers比现有方法快100倍,同时获得比标准方法更接近的近似网格。此外,CARP改进了聚类解决方案的可视化:CARP返回的精细解决方案网格可用于构建基于凸面聚类的树状图,以及基于现代网络技术形成动态路径可视化的基础。我们的方法在开源R packageclustRviz中实现,可从https://github.com/DataSlingers/clustRviz获得。
translated by 谷歌翻译
我们提出了残余政策学习(RPL):一种使用无模型深度强化学习来改进不可分辨政策的简单方法。 RPL在复杂的机器人操作任务中发挥作用,其中可以获得良好但不完美的控制器。在这些任务中,从零开始的强化学习是数据无效或难以处理的,但在初始控制器之上学习残差可以产生实质性的改进。我们在五个具有挑战性的MuJoCo任务中研究RPL,包括部分可观察性,传感器噪声,模型确定和控制器误校准。通过将学习与控制算法相结合,RPL可以执行长期,稀疏奖励任务,而单独执行学习失败。此外,我们发现RPL在初始控制器上始终如一地大幅改进。我们认为RPL是结合深度增强学习和机器人控制的互补优势的一种前景方法,推动了可以独立实现的边界。
translated by 谷歌翻译
监督学习受到标记数据的数量和质量的限制。在医疗记录标记领域,医院之间的写作风格差别很大。从一家医院获得的知识可能无法很好地传递给另一家医院。这个问题在兽医领域得到了扩展,因为兽医诊所很少将医疗代码应用到他们的记录中。我们提出并培训了第一个大规模生成疾病编码的生成建模算法。我们证明了生成模型可以在进行有监督的微调训练时学习不确定性特征。我们系统地消除和评估生成模型对最终系统性能的影响。我们将模型的性能与具有实质性域名转移的具有挑战性的跨医院环境中的几个基线进行比较。我们大幅超越竞争基线。另外,我们为我们的模型所学的内容提供解释。
translated by 谷歌翻译
在视觉同时定位和映射(SLAM)中,检测环路闭包是一项重要但困难的任务。目前,大多数解决方案都基于词袋方法。然而,由于缺乏适当的架构设计和足够的训练数据,尚未充分探索深度神经网络应用于此任务的可能性。在本文中,我们通过解决bothissues来演示深度神经网络的适用性。具体来说,我们表明,特征金字塔连体神经网络可以在成对循环闭合检测中实现最先进的性能。该网络在大规模RGB-D数据集上进行训练和测试,并采用新型自动闭环标记算法。每个图像对都由图像重叠的标记来标记,允许通过劳动密集型手动标记直接计算环闭合。我们提出了一种算法来采用任何大规模的通用RGB-D数据集,用于训练深度闭环网络。我们首次展示了深度神经网络能够检测闭环,我们提供了一种生成大规模图像的方法,用于评估和训练闭环检测器。
translated by 谷歌翻译
以语言(如SQL,SPARQL或XQuery)表示的结构化查询为用户提供了一种方便,明确的方式来表达他们对许多任务的信息需求。在这项工作中,我们提出了一种直接对文本数据进行回答的方法,而不将结果存储在数据库中。特别关注知识库的情况,其中查询是过度的以及它们之间的关系。我们的方法将分布式查询应答(例如,三重模式片段)与建立了前提问题回答的模型相结合。重要的是,通过应用分布式查询,我们能够简化模型学习问题。我们为维基数据中的大部分(572)关系训练模型,并在所有模型中实现平均0.70 F1测量。我们还提出了一种系统的方法,从知识图中为此任务构建必要的训练数据,并描述原型实现。
translated by 谷歌翻译
扩散加权磁共振成像(DW-MRI)允许以大小比例对人脑的局部纤维结构进行非侵入性成像。已经提出了多种经典方法来检测每个体素的单个(例如,张量)和多个(例如,约束球面反卷积,CSD)纤维群体取向。然而,现有技术通常在MRI扫描仪上表现出低再现性。在这里,我们提出了一种使用神经网络设计的数据驱动技术,该设计可以开发两类数据。首先,使用离体DW-MRI和脑组织学在三种猴脑上获得训练数据。其次,在两个不同的扫描仪上获得对人类受试者的重复扫描,以开始对所提出的网络的学习。为了使用这些数据,我们提出了一种新的网络体系结构,即零空间深度网络(NSDN),可以同时在传统的观察/真实对(例如,MRI组织学体素)上进行重复观察,而无需已知真相(例如,扫描重新扫描MRI) )。 NSDN在20%的组织学体素上进行了测试,这些体素完全对网络视而不见。与最近提出的深度神经网络方法相比,NSDN相对于组织学的绝对性能显着提高了3.87%,相比于CSD提高了1.42%。此外,它使配对数据的可重复性比CSD提高了21.19%,比最近提出的深化计划提高了10.09%。最后,NSDN将模型的可生成性提高到第三个人体扫描仪(未用于训练)比CSD提高16.08%,比最近提出的深度学习方法提高了10.41%。这项工作表明,用于局部纤维重建的数据驱动方法更具有可再生性,信息量和精确性,并为确定这些模型提供了一种新颖,实用的方法。
translated by 谷歌翻译