卷积是许多深度神经网络的核心操作。 Winogradconvolution算法已被证明可以加速广泛使用的小卷积大小。量化神经网络可以有效地减小模型大小并提高推理速度,从而导致各种各样的内核和硬件加速器与整数数据一起工作。最先进的Winograd算法对整数内核和加速器的高效实现和执行提出了挑战。我们通过将构造扩展到复杂领域和提议优化来引入一类新的Winogradalgorithms,从而减少一般乘法的数量。与直接方法相比,新算法实现了3.13美元x的算术复杂度降低,并且在理性算法上实现了高达17.37美元的效率增益。此外,我们设计并实现了一个基于整数的滤波器分级方案,以有效地将滤波器位宽减少30.77美元\%$,而不会出现明显的精度损失。
translated by 谷歌翻译
深度学习推理加速器是从与Pthreads并行化的C语言软件程序合成的。软件实现使用着名的生产者/消费者模型,其中并行线程通过FIIFO队列互连。 LegUp高级综合(HLS)工具在并行FPGA硬件中合成线程,将软件并行性转换为空间并行性。生成一个完整的系统,在合成加速器中实现卷积,池化和填充,并在嵌入式ARM处理器上执行剩余任务。加速器结合了精确度降低,以及一种新的卷积零重量跳跃方法。在中型的英特尔Arria 10 SoC FPGA上,VGG-16的峰值性能为138有效GOPS。
translated by 谷歌翻译
本文介绍了自动驾驶汽车的算法和系统架构。引入的车辆由设计用于鲁棒性,可靠性和可扩展性的软件栈提供动力。为了自主地绕过先前未知的轨道,所提出的解决方案结合了来自不同机器人领域的技术的状态。具体而言,感知,估计和控制被合并到一个高性能自主车辆中。这个复杂的机器人系统由AMZ Driverless和ETHZurich开发,在我们参加的每个比赛中获得第一名:Formula StudentGermany 2017,Formula Student Italy 2018和Formula Student Germany 2018. Wediscuss这些比赛的结果和学习,并对每个模块进行实验评估我们的解决方案
translated by 谷歌翻译
计算科学的进步为心血管流动的预测建模提供了原则性的管道,并且希望提供有价值的工具监督,诊断和手术计划。现在,这些模型可以用于大型患者特异性全身动脉网络拓扑,并且可以对流动模式,壁面剪切应力和脉搏波传播进行详细预测。然而,它们的成功在很大程度上依赖于繁琐的预处理和校准程序,这些程序通常会导致显着的计算成本,从而妨碍其临床适用性。在这项工作中,我们提出了一个机器学习框架,可以无缝合成非侵入性体内测量技术和源自第一物理原理的计算流动力学模型。我们举例说明了这种新的范例,展示了脉冲流的一维模型如何用于协调深度神经网络的输出,使得它们的预测满足质量和动量原理的守恒。一旦接受了关于流量和壁位移的噪声和分散的临床数据的训练,这些网络可以返回对速度,压力和位移脉冲波传播的物理一致的预测,所有这些都不需要使用常规模拟器。对这些输出进行简单的后处理还可以提供一种廉价有效的方法来估算传统计算模型校准所需的Windkessel模型参数。所提出的技术的有效性通过一系列原型基准来证明,以及涉及健康人类受试者的主动脉/颈动脉分叉附近的体内测量的现实临床病例。
translated by 谷歌翻译
从表面心电图(ECG)无创重建心脏跨膜电位(TMP)涉及一个不适定的逆问题。模型约束正则化对于结合关于时空TMP动力学的丰富的生理学知识是有力的。这些模型由高维物理参数控制,如果固定,则可以引入模型误差并降低TMP重建的准确性。然而,由于它们的高维度,在TMP重建期间同时适应这些参数是困难的。我们引入了一种新的模型约束推理框架,该框架用经过训练的深度生成模型取代传统的生理模型,以从低维生成因子生成TMP序列。使用具有长期短期记忆(LSTM)网络的变分自动编码器(VAE),我们训练VAE解码器以学习TMP的条件可能性,同时编码器学习生成因子的先前分布。这两个组件使我们能够开发出一种有效的算法来同时推断来自ECG数据的生成因子和TMP信号。综合和实际数据实验表明,与传统生理模型约束或没有生理学约束的方法相比,所提出的方法显着提高了TMP重建的准确性。
translated by 谷歌翻译
地点识别是机器人导航中的一个关键组成部分,使其能够重新建立先前访问过的位置,同时使用此信息来纠正其死算估计中产生的漂移。在这项工作中,我们开发了一种自我监督的方法来识别机器人。视觉循环闭包识别的任务被视为一个metriclearning问题,其中可以使用机器人已经使用的GPS辅助导航解决方案来自举闭环的正面和负面示例的标签。通过利用传感器之间的同步,我们能够为任意实值图像描述符(包括最先进的CNN模型)学习适当的距离度量,特别适用于移动机器人中的视觉位置识别。此外,我们表明,新学习的嵌入对于移动机器人中基于视觉的闭环识别任务来说可以是特别强大的视觉场景。
translated by 谷歌翻译
机器学习和人工智能的最新进展现在被考虑在安全关键的自治系统中,其中软件缺陷可能对人类和环境造成严重伤害。当使用机器学习算法来实现他们的软件时,thesedomains中的设计组织目前无法提供令人信服的论据,即他们的系统可以安全地运行。在本文中,我们提出了一种从决策树和树集合中提取等价类的有效方法,并正式验证其输入 - 输出映射是否符合要求。我们的想法是,鉴于安全要求可以追溯到系统输出 - 输出模式的理想属性,我们可以在安全参数中使用积极的验证结果。本文介绍了该方法在toolVoTE(树集合验证器)中的实现,并评估了它在当前文献中提出的两个案例研究中的可扩展性。我们证明了我们的方法适用于在低维数据上训练的树集合,最多可以有25个决策树,树深可达20个。我们的工作也研究了高维数据方法的局限性并初步研究了它们之间的权衡。大量的树木和时间用于验证。
translated by 谷歌翻译
神经机器翻译 - 使用神经网络翻译人类语言 - 是一个积极研究探索新神经元类型和网络拓扑的领域,其目标是显着提高机器翻译性能。当前最先进的方法,例如基于多头注意的变换器,需要非常大的翻译语料库和许多标准来产生合理质量的模型。最近尝试将多个节点上的官方TensorFlow“Transformer”模型并行化由于过多的内存使用而导致出现问题,并且在执行MPI集合时导致内存错误。本文描述了对基于霍罗德MPI的分布式训练框架的修改,通过将假设稀疏张量转换为密集张量来减少变换器模型的内存使用,并随后用密集梯度减少代替稀疏梯度聚集。结果是横向扩展能力显着增加。 ,使用Stampede2超级计算机,仅使用CPU的扩展测试可实现高达1200 MPI进程(300个节点)的91%弱缩放效率,以及高达65%的高扩展效率,高达400 MPI进程(200个节点)。
translated by 谷歌翻译
The likelihood model of high dimensional data X n can often be expressed as p(X n |Z n , θ), where θ := (θ k) k∈[K] is a collection of hidden features shared across objects, indexed by n, and Z n is a non-negative factor loading vector with K entries where Z nk indicates the strength of θ k used to express X n. In this paper, we introduce random function priors for Z n for modeling correlations among its K dimensions Z n1 through Z nK , which we call population random measure embedding (PRME). Our model can be viewed as a generalized paintbox model (Broderick et al., 2013) using random functions, and can be learned efficiently with neural networks via amortized variational inference. We derive our Bayesian nonparametric method by applying a representation theorem on separately exchangeable discrete random measures.
translated by 谷歌翻译
最近的深度学习方法在语音增强和分离任务方面取得了令人瞩目的成绩然而,这些方法尚未被研究用于分离不同类型的任意声音的混合物,我们称之为通用声音分离的任务,并且未知语音任务的性能是否延续到非语音任务。为了研究这个问题,我们开发了包含任意形式的混合物的通用数据集,并用它来研究基于掩模的分离结构的空间,改变整体网络结构和信号转换的框架分析 - 合成基础。这些网络体系结构包括卷积长期短期记忆网络和时间膨胀卷积栈,其灵感来自最近成功的时间性能增强网络,如ConvTasNet。对于后一种体系结构,我们还提出了新的修改,以进一步提高分离性能。在框架分析 - 合成的基础上,我们使用在TEVasNet中使用的ashort-time傅立叶变换(STFT)或可学习的基础进行探索,并且对于这两个基础,我们检查窗口大小的影响。特别是对于STFT ,我们发现较长的窗口(25-50毫秒)最好的forspeech /非语音分离,而较短的窗口(2.5毫秒)工作最好的任意声音。对于可学习的基础,较短的窗口(2.5毫秒)最适合所有任务。令人惊讶的是,对于通用声音分离,STFT的性能优于基础。我们最好的方法可以改善语音/非语音分离的音阶 - 不变信号与失真比超过13 dB,并且通用声音分离接近10 dB。
translated by 谷歌翻译