基于注意力的神经网络在许多AI任务中都普遍存在。尽管其出色的算法性能,但注意力机制和前馈网络(FFN)的使用仍需要过多的计算和内存资源,这通常会损害其硬件性能。尽管已经引入了各种稀疏变体,但大多数方法仅着重于缓解算法级别上的二次注意力缩放,而无需明确考虑将其方法映射到真实硬件设计上的效率。此外,大多数努力仅专注于注意机制或FFN,但没有共同优化这两个部分,导致当前的大多数设计在处理不同的输入长度时缺乏可扩展性。本文从硬件角度系统地考虑了不同变体中的稀疏模式。在算法级别上,我们提出了Fabnet,这是一种适合硬件的变体,它采用统一的蝴蝶稀疏模式来近似关注机制和FFN。在硬件级别上,提出了一种新颖的适应性蝴蝶加速器,可以在运行时通过专用硬件控件配置,以使用单个统一的硬件引擎加速不同的蝴蝶层。在远程 - ARENA数据集上,FabNet达到了与香草变压器相同的精度,同时将计算量减少10到66次,参数数量为2至22次。通过共同优化算法和硬件,我们的基于FPGA的蝴蝶加速器在归一化到同一计算预算的最新加速器上达到了14.2至23.2倍的速度。与Raspberry Pi 4和Jetson Nano上优化的CPU和GPU设计相比,我们的系统在相同的功率预算下的最大273.8和15.1倍。
translated by 谷歌翻译
For augmentation of the square-shaped image data of a convolutional neural network (CNN), we introduce a new method, in which the original images are mapped onto a disk with a conformal mapping, rotated around the center of this disk and mapped under such a M\"obius transformation that preserves the disk, and then mapped back onto their original square shape. This process does not result the loss of information caused by removing areas from near the edges of the original images unlike the typical transformations used in the data augmentation for a CNN. We offer here the formulas of all the mappings needed together with detailed instructions how to write a code for transforming the images. The new method is also tested with simulated data and, according the results, using this method to augment the training data of 10 images into 40 images decreases the amount of the error in the predictions by a CNN for a test set of 160 images in a statistically significant way (p-value=0.0360).
translated by 谷歌翻译
在整个计算科学中,越来越需要利用原始计算马力的持续改进,通过对蛮力的尺度锻炼的尺度增加,以增加网状元素数量的增加。例如,如果不考虑分子水平的相互作用,就不可能对纳米多孔介质的转运进行定量预测,即从紧密的页岩地层提取至关重要的碳氢化合物。同样,惯性限制融合模拟依赖于数值扩散来模拟分子效应,例如非本地转运和混合,而无需真正考虑分子相互作用。考虑到这两个不同的应用程序,我们开发了一种新颖的功能,该功能使用主动学习方法来优化局部细尺度模拟的使用来告知粗尺度流体动力学。我们的方法解决了三个挑战:预测连续性粗尺度轨迹,以推测执行新的精细分子动力学计算,动态地更新细度计算中的粗尺度,并量化神经网络模型中的不确定性。
translated by 谷歌翻译
本文提议使用修改的完全连接层转移初始化,以进行1900诊断。卷积神经网络(CNN)在图像分类中取得了显着的结果。但是,由于图像识别应用程序的复杂性,培训高性能模型是一个非常复杂且耗时的过程。另一方面,转移学习是一种相对较新的学习方法,已在许多领域使用,以减少计算来实现良好的性能。在这项研究中,Pytorch预训练的模型(VGG19 \ _bn和WideresNet -101)首次在MNIST数据集中应用于初始化,并具有修改的完全连接的层。先前在Imagenet中对使用的Pytorch预培训模型进行了培训。提出的模型在Kaggle笔记本电脑中得到了开发和验证,并且在网络培训过程中没有花费巨大的计算时间,达到了99.77%的出色精度。我们还将相同的方法应用于SIIM-FISABIO-RSNA COVID-19检测数据集,并达到80.01%的精度。相比之下,以前的方法在训练过程中需要大量的压缩时间才能达到高性能模型。代码可在以下链接上找到:github.com/dipuk0506/spinalnet
translated by 谷歌翻译
这项研究是有关阿拉伯历史文档的光学特征识别(OCR)的一系列研究的第二阶段,并研究了不同的建模程序如何与问题相互作用。第一项研究研究了变压器对我们定制的阿拉伯数据集的影响。首次研究的弊端之一是训练数据的规模,由于缺乏资源,我们的3000万张图像中仅15000张图像。另外,我们添加了一个图像增强层,时间和空间优化和后校正层,以帮助该模型预测正确的上下文。值得注意的是,我们提出了一种使用视觉变压器作为编码器的端到端文本识别方法,即BEIT和Vanilla Transformer作为解码器,消除了CNNs以进行特征提取并降低模型的复杂性。实验表明,我们的端到端模型优于卷积骨架。该模型的CER为4.46%。
translated by 谷歌翻译
基于采样的模型预测控制(MPC)优化方法,例如模型预测路径积分(MPPI),最近在各种机器人任务中显示出有希望的结果。但是,当所有采样轨迹的分布集中在高成本甚至不可行的区域中时,它可能会产生不可行的轨迹。在这项研究中,我们提出了一种称为Log-Mppi的新方法,配备了更有效的轨迹采样分布策略,从而显着改善了满足系统约束的轨迹可行性。关键点是从正常的对数正态(NLN)混合物分布中绘制轨迹样品,而不是从高斯分布中。此外,这项工作提出了一种通过将2D占用网格映射纳入基于采样的MPC算法的优化问题,从而在未知的混乱环境中无碰撞导航的方法。我们首先通过在不同类型的混乱环境以及Cartpole摇摆任务中对2D自主导航进行广泛的模拟,从而验证我们提出的控制策略的效率和鲁棒性。我们通过现实世界实验进一步证明了log-mppi在未知的杂物环境中执行基于2D网格的无碰撞导航的适用性,表明其优越性可用于局部成本量,而无需增加优化的额外复杂性问题。一个展示现实世界和仿真结果的视频可在https://youtu.be/_ugwqefjsn0上获得。
translated by 谷歌翻译
时间序列数据收集之间的因果发现可以帮助诊断症状的原因,并希望在发生故障之前防止故障。然而,可靠的因果发现可能非常具有挑战性,特别是当数据采集率变化(即,不均匀的数据采样)时,或在存在丢失的数据点(例如,稀疏数据采样)时。为了解决这些问题,我们提出了一个由两个部分组成的新系统,第一部分填充了具有高斯进程回归的缺失数据,第二部分利用了回声状态网络,即储层计算机(即,用于混沌的类型系统建模)对于因果发现。我们评估我们提出的系统对其他三个现成的因果发现算法的性能,即结构期望 - 最大化,子采样的线性自动回归绝对系数,以及使用田纳西州伊斯曼的传染媒介自回归的多变量格兰杰因果关系化学数据集;我们报告了它们对应的Matthews相关系数(MCC)和接收器操作特征曲线(ROC),并表明所提出的系统优于现有的算法,展示了我们在缺失条目中发现复杂系统中的因果关系的可行性。
translated by 谷歌翻译
在纳米网络上实现的分子通信(MC)在能效,可靠性和稳健性方面具有极具吸引力的特性。即使,令人难以置信的慢速分子扩散和高变形环境的影响仍然未知。通信系统的分析与设计通常依赖于开发描述通信信道的数学模型。然而,底层频道模型在某些系统中未知,例如MC系统,其中化学信号用于传输信息。在这些情况下,需要一种新的分析和设计方法。在本文中,我们专注于MC系统的一个关键方面,建模MC接收信号直到时间T,并证明使用来自ML的工具使其承诺培训可以在频道模型的任何信息中执行的训练器。机器学习(ml)是智能方法之一,在域中显示了有希望的结果。本文适用Azure机器学习(Azure ML),用于柔性路面维护回归问题和解决方案。对于预测,四个参数用作输入:接收器半径,发射器半径,接收器和发射器之间的距离,以及扩散系数,而输出是接收信号的地图(平均平均精度)。 Azure M1使能够从数据和体验中学习的算法并完成任务而无需编码。在已建立的Azure ML中,选择了回归算法,例如增强决策树回归,贝叶斯线性回归,神经网络和决策林回归。选择最佳性能作为最优性标准。最后,显示了在本地PC上的开发人员使用的基于基于基于工具(Python)上的Azure M1工具的潜在益处的比较
translated by 谷歌翻译
使用本机LUT作为独立培训推理运营商的FPGA特定的DNN架构已被证明实现了有利的区域准确性和能量准确性权衡。该领域的第一个工作Lutnet,对标准DNN基准测试表现出最先进的性能。在本文中,我们提出了学习的基于LUT的拓扑结构的优化,从而导致更高效率的设计,而不是通过直接使用现成的手工设计的网络。本类架构的现有实现需要手动规范的每拉特的输入数,K。选择合适的k先验是具有挑战性的,并且在甚至高粒度下这样做,例如,如此。每个层,是一种耗时和错误的过程,可以留下FPGA的空间灵活性欠缺。此外,先验工作请参阅随机连接的LUT输入,不保证网络拓扑的良好选择。为了解决这些问题,我们提出了逻辑收缩,一种细粒度的网格剪枝方法,使K将自动学习,用于针对FPGA推理的神经网络中的每一个LUT。通过删除确定为低于重要性的LUT输入,我们的方法会增加所得加速器的效率。我们的GPU友好的LUT输入拆卸解决方案能够在培训期间加工大型拓扑,可忽略不计的放缓。通过逻辑收缩,我们可以分别更好地完成CNV网络的最佳Lutnet实现的区域和能源效率,分别将CIFAR-10分别达到1.54倍和1.31倍,同时匹配其精度。该实现也达到2.71倍的区域效率同样准确,严重修剪的BNN。在具有双重净架构的Imagenet上,逻辑收缩的就业导致综合后面积减少2.67倍VS Lutnet,允许以前在今天最大的FPGA上实现的实施。
translated by 谷歌翻译
本文介绍了我们提交给WMT21共享新闻翻译任务的受限轨道。我们专注于三个相对低的资源语言对孟加拉,从印地语,英语往返Hausa,以及来自Zulu的Xhosa。为了克服相对低行数据的限制,我们使用采用并行和单晶体数据的多任务目标训练多语言模型。此外,我们使用后退转换增强数据。我们还培养了一种双语模型,包括后退转换和知识蒸馏,然后使用序列到序列映射来组合两种模型。我们看到迄今为止英语和来自Hausa的Bleu Point的相对收益约为70%,以及与双语基线相比,孟加拉和从Zulu的孟加拉和从Zulu的相对改善约25%。
translated by 谷歌翻译