本报告概述了利用大数据革命和大规模计算解决多信使天体物理学中的重大计算挑战的最新工作,特别强调实时发现活动。该文件承认了多信使天体物理学的跨学科性质,由物理学家,天文学,计算机科学,数据科学,软件和网络基础设施社区的成员编写,他们参加了NSF-,DOE-和NVIDIA资助的“多信使天体物理学的深度学习”。 :实时发现规模“研讨会,于2018年10月17日至19日在国家超级计算应用中心举办。本报告的重点包括一致同意这对于加速新型信号处理算法的开发和部署至关重要。利用人工智能(AI)和高性能计算之间的协同作用,最大限度地发挥Multi-Messenger天体物理学的潜在科学发现。我们讨论了实现这一努力的关键方面,即(i)为多信使天体物理学设计和利用可扩展和计算效率高的AI算法;(ii)数字模拟天体物理资源的网络基础设施要求,以及处理和解释多信使天体物理学数据; (iii)管理引力波探测和触发以实现电磁和天体粒子跟踪; (iv)利用未来发展的机器和深度学习以及网络基础设施资源的愿景与大数据时代的发现规模相结合; (v)需要建立一个社区,将领域专家与数据科学家一起进行平等,以最大限度地加速发现多信天体物理学的新兴领域。
translated by 谷歌翻译
随着无人机的能力和复杂性不断增加,人机界面社区有责任设计更好的方法来指定指导它们所需的复杂3D飞行路径。沉浸式界面,例如由虚拟现实(VR)提供的界面,具有几个独特的可以提高用户感知和指定3D信息的能力的特征。这些特征包括立体深度线索,其诱导物理空间感以及六个自由度(DoF)自然头部姿势和姿势交互。这项工作为VR中的3D空中路径规划引入了一个开源平台,并将其与现有的UAVpiloting接口进行了比较。我们的研究发现,与手动控制界面相比,安全性和主观可用性在统计上有显着改善,同时在2D触摸屏界面上实现了统计上显着的效率提升。结果表明,沉浸式接口为无人机路径规划的触摸屏界面提供了可行的替代方案。
translated by 谷歌翻译
我们提出了用于二进制分类的标准{\ em内核支持VectorMachines}的概率增强,以便解决在给定数据集的情况下对每个数据可用的不确定性(例如,误差界限)的描述的情况。在本文中,我们特别考虑了高斯分布模型的不确定性。因此,我们的数据包括$(x_i,\ Sigma_i)$,$ i \ in \ {1,\ ldots,N \} $,以及指示符$ y_i \ in \ { - 1,1 \} $ to声明每对中两个类别中的一个的成员资格。这些对可以分别表示随机向量$ \ xi_i $在合适的线性空间中取值的平均值和协方差(通常为$ {\ mathbb R} ^ n $ )。因此,我们的设置也可以被视为支持向量机的修改,以对分布进行分类,尽管目前只有高斯分布。我们概述了允许通过标准“核心技巧”的自然修改来计算合适分类器的形式主义。这项工作的主要贡献是指出一个合适的核函数,用于支持向量技术来设置不确定数据的不确定性描述。也可用(这里,``高斯点'')。
translated by 谷歌翻译
我们提出了无限混合原型来自适应地表示用于少数镜头学习的简单和复杂数据分布。我们的无限混合原型通过一组聚类来表示每个类,而不像现有的原型方法,这些方法通过单个聚类表示每个类。通过增加聚类的数量,无限混合原型在最近邻和原型表示之间进行插值,这改善了少数射击机制中的准确性和鲁棒性。我们展示了捕获复杂数据分布(如字母表)的自适应能力的重要性,与原型网络相比,绝对精度提高了25%,同时仍然保持或提高了标准Omniglot和mini-ImageNetbenchmarks的准确性。在通过相同的聚类规则聚类标记和未标记的数据时,无限混合原型实现了最先进的半监督准确性。作为进一步的能力,我们表明无限混合原型可以执行纯粹的无监督聚类,与现有的原型方法不同。
translated by 谷歌翻译
基因表达谱已被广泛用于表征细胞对疾病的反应模式。随着数据的出现,可扩展的学习工具对于使用深度学习模型处理大型数据集来模拟复杂的生物过程变得至关重要。我们提出了从基因表达谱中恢复的自动编码器tocapture非线性关系。自动编码器是一种使用人工神经网络的非线性降维技术,它可以学习未标记数据的隐藏表示。我们对来自National CancerInstitute Genomic Data Commons的大量肿瘤样本进行自动编码,并获得广义和无监督的表示。我们利用专注于HPC的深度学习工具包Livermore Big Artificial Neural Network(LBANN)来有效地并行化训练算法,将计算时间从几小时缩短到几分钟。使用训练的自动编码器,我们生成小数据集的潜在表示,包含各种肿瘤类型的正常细胞和癌细胞对。引入了一种称为自编码器节点显着性(ANS)的新措施来识别最能区分各种细胞对的隐藏节点。我们通过主成分分析和t分布随机邻域嵌入的可视化比较了我们对最佳分类节点的发现。我们证明了自动编码器有效地为数据集中的多个学习任务提取了不同的基因特征。
translated by 谷歌翻译
众所周知,由诸如word2vec(W2V)之类的神经网络方法生成的字嵌入表现出看似线性的行为,例如, “女人就像男人对王”这样的家谱的嵌入近似描述了一个平行四边形。这个属性特别有趣,因为嵌入没有经过培训来实现它。已经提出了几种解释,buteach引入了在实践中不具备的假设。我们得出了一个具有概率性基础的释义定义,并表明它可以被解释为单词变换,这是“$ w_x $ isto $ w_y $”的数学描述。从这些概念中,我们证明存在W2V型嵌入之间的线性关系,这种关系是类比现象的基础,并且在关系中识别显式误差项。
translated by 谷歌翻译
凸集聚是一种很有前途的新方法,可以解决经典的集群问题,将实证研究中的强大表现与严谨的理论基础相结合。尽管具有这些优点,但由于其计算密集性和缺乏引人注目的可视化,凸聚类尚未被广泛采用。为了解决这些障碍,我们引入了算法正则化,这是一种使用迭代一步近似方法获得高质量正则化路径估计的创新技术。我们用一种新颖的理论结果来证明我们的方法是合理的,保证了全局收敛的精确解决方案的非近似检查的非数据依赖假设的近似路径。算法正则化在凸集群中的应用通过算法正则化路径(CARP)算法产生凸集群,用于计算集群解决路径。在基因组学和文本分析的示例数据集中,CARPdelivers比现有方法快100倍,同时获得比标准方法更接近的近似网格。此外,CARP改进了聚类解决方案的可视化:CARP返回的精细解决方案网格可用于构建基于凸面聚类的树状图,以及基于现代网络技术形成动态路径可视化的基础。我们的方法在开源R packageclustRviz中实现,可从https://github.com/DataSlingers/clustRviz获得。
translated by 谷歌翻译
我们提出了残余政策学习(RPL):一种使用无模型深度强化学习来改进不可分辨政策的简单方法。 RPL在复杂的机器人操作任务中发挥作用,其中可以获得良好但不完美的控制器。在这些任务中,从零开始的强化学习是数据无效或难以处理的,但在初始控制器之上学习残差可以产生实质性的改进。我们在五个具有挑战性的MuJoCo任务中研究RPL,包括部分可观察性,传感器噪声,模型确定和控制器误校准。通过将学习与控制算法相结合,RPL可以执行长期,稀疏奖励任务,而单独执行学习失败。此外,我们发现RPL在初始控制器上始终如一地大幅改进。我们认为RPL是结合深度增强学习和机器人控制的互补优势的一种前景方法,推动了可以独立实现的边界。
translated by 谷歌翻译
监督学习受到标记数据的数量和质量的限制。在医疗记录标记领域,医院之间的写作风格差别很大。从一家医院获得的知识可能无法很好地传递给另一家医院。这个问题在兽医领域得到了扩展,因为兽医诊所很少将医疗代码应用到他们的记录中。我们提出并培训了第一个大规模生成疾病编码的生成建模算法。我们证明了生成模型可以在进行有监督的微调训练时学习不确定性特征。我们系统地消除和评估生成模型对最终系统性能的影响。我们将模型的性能与具有实质性域名转移的具有挑战性的跨医院环境中的几个基线进行比较。我们大幅超越竞争基线。另外,我们为我们的模型所学的内容提供解释。
translated by 谷歌翻译
在视觉同时定位和映射(SLAM)中,检测环路闭包是一项重要但困难的任务。目前,大多数解决方案都基于词袋方法。然而,由于缺乏适当的架构设计和足够的训练数据,尚未充分探索深度神经网络应用于此任务的可能性。在本文中,我们通过解决bothissues来演示深度神经网络的适用性。具体来说,我们表明,特征金字塔连体神经网络可以在成对循环闭合检测中实现最先进的性能。该网络在大规模RGB-D数据集上进行训练和测试,并采用新型自动闭环标记算法。每个图像对都由图像重叠的标记来标记,允许通过劳动密集型手动标记直接计算环闭合。我们提出了一种算法来采用任何大规模的通用RGB-D数据集,用于训练深度闭环网络。我们首次展示了深度神经网络能够检测闭环,我们提供了一种生成大规模图像的方法,用于评估和训练闭环检测器。
translated by 谷歌翻译