智能论文笔记

Hardware Acceleration of Lane Detection Algorithm: A GPU Versus FPGA Comparison

Mohamed Alshemi , Sherif Saif , Mohamed Taher

分类：计算机视觉

2022-12-19

A Complete Computer vision system can be divided into two main categories: detection and classification. The Lane detection algorithm is a part of the computer vision detection category and has been applied in autonomous driving and smart vehicle systems. The lane detection system is responsible for lane marking in a complex road environment. At the same time, lane detection plays a crucial role in the warning system for a car when departs the lane. The implemented lane detection algorithm is mainly divided into two steps: edge detection and line detection. In this paper, we will compare the state-of-the-art implementation performance obtained with both FPGA and GPU to evaluate the trade-off for latency, power consumption, and utilization. Our comparison emphasises the advantages and disadvantages of the two systems.

translated by 谷歌翻译

hARMS: A Hardware Acceleration Architecture for Real-Time Event-Based Optical Flow

Daniel C. Stumpp , Himanshu Akolkar , Alan D. George , Ryad B. Benosman

分类：计算机视觉

2021-12-13

基于事件的视觉传感器基于视觉场景的变化产生具有高时间分辨率的异步事件流。随着事件的生成，这些传感器的特性允许精确快速地计算光学流量。对于从事件数据计算光学流的现有解决方案未能由于孔径问题而无法捕获真正的运动方向，请勿使用传感器的高时间分辨率，或者在嵌入式平台上实时运行太昂贵。在这项研究中，我们首先提供了我们之前的算法，武器（光圈稳健的多尺度流）的更快版本。新的优化软件版本（农场）显着提高了传统CPU的吞吐量。此外，我们呈现危害，一种农场算法的硬件实现，允许实时计算低功耗，嵌入式平台上的真实流量。建议的危害架构针对混合系统的片上器件，旨在最大限度地提高可配置性和吞吐量。硬件架构和农场算法是用异步的神经形态处理而开发的，放弃了事件帧的常用使用，而是仅使用不同事件的小历史运行，允许独立于传感器分辨率进行缩放。与现有方法相比，处理范例的这种变化将流量方向的估计变为高达73％，并在选择的基准配置上显示出危害最高为1.21 Mevent / s的危害。此吞吐量使实时性能能够实现迄今为止迄今为止最快速的基于活动的事件的光流的实现。

translated by 谷歌翻译

Real-Time GPU-Accelerated Machine Learning Based Multiuser Detection for 5G and Beyond

Matthias Mehlhose , Daniel Schäufele , Daniyal Amir Awan , Guillermo Marcus , Nikolaus Binder , Martin Kasparick , Renato L. G. Cavalcante , Sławomir Stańczak , Alexander Keller

分类：机器学习 | (统计)机器学习

2022-01-13

Adaptive partial linear beamforming meets the need of 5G and future 6G applications for high flexibility and adaptability. Choosing an appropriate tradeoff between conflicting goals opens the recently proposed multiuser (MU) detection method. Due to their high spatial resolution, nonlinear beamforming filters can significantly outperform linear approaches in stationary scenarios with massive connectivity. However, a dramatic decrease in performance can be expected in high mobility scenarios because they are very susceptible to changes in the wireless channel. The robustness of linear filters is required, considering these changes. One way to respond appropriately is to use online machine learning algorithms. The theory of algorithms based on the adaptive projected subgradient method (APSM) is rich, and they promise accurate tracking capabilities in dynamic wireless environments. However, one of the main challenges comes from the real-time implementation of these algorithms, which involve projections on time-varying closed convex sets. While the projection operations are relatively simple, their vast number poses a challenge in ultralow latency (ULL) applications where latency constraints must be satisfied in every radio frame. Taking non-orthogonal multiple access (NOMA) systems as an example, this paper explores the acceleration of APSM-based algorithms through massive parallelization. The result is a GPUaccelerated real-time implementation of an orthogonal frequency-division multiplexing (OFDM)based transceiver that enables detection latency of less than one millisecond and therefore complies with the requirements of 5G and beyond. To meet the stringent physical layer latency requirements, careful co-design of hardware and software is essential, especially in virtualized wireless systems with hardware accelerators.

translated by 谷歌翻译

Parallel Discrete Convolutions on Adaptive Particle Representations of Images

Joel Jonsson , Bevan L. Cheeseman , Suryanarayana Maddu , Krzysztof Gonciarz , Ivo F. Sbalzarini

分类：计算机视觉

2021-12-07

我们在并行计算机架构上的图像的自适应粒子表示（APR）上的离散卷积运算符的本机实现数据结构和算法。 APR是一个内容 - 自适应图像表示，其本地地将采样分辨率局部调整到图像信号。已经开发为大，稀疏图像的像素表示的替代方案，因为它们通常在荧光显微镜中发生。已经显示出降低存储，可视化和处理此类图像的存储器和运行时成本。然而，这要求图像处理本身在APRS上运行，而无需中间恢复为像素。然而，设计高效和可扩展的APR-Native图像处理原语是APR的不规则内存结构的复杂性。这里，我们提供了使用可以在离散卷积方面配制的各种算法有效和本地地处理APR图像所需的算法建筑块。我们表明APR卷积自然地导致缩放 - 自适应算法，可在多核CPU和GPU架构上有效地平行化。与基于像素的算法和概念性数据的卷积相比，我们量化了加速度。我们在单个NVIDIA GeForce RTX 2080 Gaming GPU上实现了最多1 TB / s的像素等效吞吐量，而不是基于像素的实现的存储器最多两个数量级。

translated by 谷歌翻译

Fast 2D Convolutions and Cross-Correlations Using Scalable Architectures

Cesar Carranza , Daniel Llamocca , Marios Pattichis

分类：计算机视觉

2021-12-24

稿件描述了快速且可扩展的架构和相关算法，用于计算卷曲和交叉相关。基本思想是将2D卷积和互相关与转换域中的1D卷积和交叉相关的集合。这是通过使用用于通用内核的离散定期氡变换（DPRT）来实现，并且使用SVD-LU分解对于低级核。该方法使用可以安装在现代FPGA和Zynq-SoC设备中的可扩展架构。基于不同类型的可用资源，对于$ p \ times P $块，2D卷积和交叉相关可以仅在$ O（P）$时钟周期中计算，最高$ O（P ^ 2）$时钟周期。因此，性能和所需数字和资源类型之间存在权衡。我们使用现代可编程设备（Virtex-7和Zynq-SoC）提供所提出的架构的实现。根据所需资源的金额和类型，我们表明提出的方法显着优于现有方法。

translated by 谷歌翻译

Real-Time High-Quality Stereo Matching System on a GPU

Qiong Chang , Tsutomu Maruyama

分类：计算机视觉

2022-12-01

In this paper, we propose a low error rate and real-time stereo vision system on GPU. Many stereo vision systems on GPU have been proposed to date. In those systems, the error rates and the processing speed are in trade-off relationship. We propose a real-time stereo vision system on GPU for the high resolution images. This system also maintains a low error rate compared to other fast systems. In our approach, we have implemented the cost aggregation (CA), cross-checking and median filter on GPU in order to realize the real-time processing. Its processing speed is 40 fps for 1436x992 pixels images when the maximum disparity is 145, and its error rate is the lowest among the GPU systems which are faster than 30 fps.

translated by 谷歌翻译

E3NE: An End-to-End Framework for Accelerating Spiking Neural Networks with Emerging Neural Encoding on FPGAs

Daniel Gerlinghoff , Zhehui Wang , Xiaozhe Gu , Rick Siow Mong Goh , Tao Luo

分类：神经与进化计算

2021-11-19

编译器框架对于广泛使用基于FPGA的深度学习加速器来说是至关重要的。它们允许研究人员和开发人员不熟悉硬件工程，以利用域特定逻辑所获得的性能。存在传统人工神经网络的各种框架。然而，没有多大的研究努力已经进入创建针对尖刺神经网络（SNNS）进行优化的框架。这种新一代的神经网络对于在边缘设备上部署AI的越来越有趣，其具有紧密的功率和资源约束。我们的端到端框架E3NE为FPGA自动生成高效的SNN推理逻辑。基于Pytorch模型和用户参数，它应用各种优化，并评估基于峰值的加速器固有的权衡。多个水平的并行性和新出现的神经编码方案的使用导致优于先前的SNN硬件实现的效率。对于类似的型号，E3NE使用的硬件资源的少于50％，功率较低20％，同时通过幅度降低延迟。此外，可扩展性和通用性允许部署大规模的SNN模型AlexNet和VGG。

translated by 谷歌翻译

Efficient Compilation and Mapping of Fixed Function Combinational Logic onto Digital Signal Processors Targeting Neural Network Inference and Utilizing High-level Synthesis

Soheil Nazar Shahsavani , Arash Fayyazi , Mahdi Nazemi , Massoud Pedram

分类：机器学习

2022-07-30

最新的努力改善了满足当今应用程序要求的神经网络（NN）加速器的性能，这引起了基于逻辑NN推理的新趋势，该趋势依赖于固定功能组合逻辑。将如此大的布尔函数与许多输入变量和产品项绘制到现场可编程门阵列（FPGA）上的数字信号处理器（DSP）需要一个新颖的框架，考虑到此过程中DSP块的结构和可重构性。本文中提出的方法将固定功能组合逻辑块映射到一组布尔功能，其中与每个功能相对应的布尔操作映射到DSP设备，而不是FPGA上的查找表（LUTS），以利用高性能，DSP块的低潜伏期和并行性。％本文还提出了一种用于NNS编译和映射的创新设计和优化方法，并利用固定功能组合逻辑与DSP进行了使用高级合成流的FPGA上的DSP。％我们在几个\ revone {DataSets}上进行的实验评估和选定的NNS与使用DSP的基于ART FPGA的NN加速器相比，根据推理潜伏期和输出准确性，证明了我们框架的可比性。

translated by 谷歌翻译

Streaming Encoding Algorithms for Scalable Hyperdimensional Computing

Anthony Thomas , Behnam Khaleghi , Gopi Krishna Jha , Nageen Himayat , Ravi Iyer , Nilesh Jain , Tajana Rosing

分类：机器学习 | 神经与进化计算

2022-09-20

高维计算（HDC）是用于数据表示和学习的范式，起源于计算神经科学。HDC将数据表示为高维，低精度向量，可用于学习或召回等各种信息处理任务。高维空间的映射是HDC中的一个基本问题，现有方法在输入数据本身是高维时会遇到可伸缩性问题。在这项工作中，我们探索了一个基于哈希的流媒体编码技术。我们正式表明，这些方法在学习应用程序的性能方面具有可比的保证，同时比现有替代方案更有效。我们在一个流行的高维分类问题上对这些结果进行了实验验证，并表明我们的方法很容易扩展到非常大的数据集。

translated by 谷歌翻译

Batch Processing and Data Streaming Fourier-based Convolutional Neural Network Accelerator

Zibo Hu , Shurui Li , Russell L. T. Schwartz , Maria Solyanik-Gorgone , Mario Miscuglio , Puneet Gupta , Volker J. Sorger

分类：机器学习

2021-12-23

具有最小延迟的人工神经网络的决策对于诸如导航，跟踪和实时机器动作系统之类的许多应用来说是至关重要的。这要求机器学习硬件以高吞吐量处理多维数据。不幸的是，处理卷积操作是数据分类任务的主要计算工具，遵循有挑战性的运行时间复杂性缩放法。然而，在傅立叶光学显示器 - 光处理器中同心地实现卷积定理，使得不迭代的O（1）运行时复杂度以超过1,000×1,000大矩阵的数据输入。在此方法之后，这里我们展示了具有傅里叶卷积神经网络（FCNN）加速器的数据流多核图像批处理。我们将大规模矩阵的图像批量处理显示为傅立叶域中的数字光处理模块执行的被动的2000万点产品乘法。另外，我们通过利用多种时空衍射令并进一步并行化该光学FCNN系统，从而实现了最先进的FCNN加速器的98倍的产量改进。综合讨论与系统能力边缘工作相关的实际挑战突出了傅立叶域和决议缩放法律的串扰问题。通过利用展示技术中的大规模平行性加速卷积带来了基于VAN Neuman的机器学习加速度。

translated by 谷歌翻译

CoCoPIE XGen: A Full-Stack AI-Oriented Optimizing Framework

Xiaofeng Li , Bin Ren , Xipeng Shen , Yanzhi Wang

分类：机器学习 | 人工智能 | 计算机视觉

2022-06-21

对将AI功能从云上的数据中心转移到边缘或最终设备的需求越来越大，这是由在智能手机，AR/VR设备，自动驾驶汽车和各种汽车上运行的快速实时AI的应用程序举例说明的。物联网设备。然而，由于DNN计算需求与边缘或最终设备上的计算能力之间的较大增长差距，这种转变受到了严重的阻碍。本文介绍了XGEN的设计，这是DNN的优化框架，旨在弥合差距。 XGEN将横切共同设计作为其一阶考虑。它的全栈AI面向AI的优化包括在DNN软件堆栈的各个层的许多创新优化，所有这些优化都以合作的方式设计。独特的技术使XGEN能够优化各种DNN，包括具有极高深度的DNN（例如Bert，GPT，其他变形金刚），并生成代码比现有DNN框架中的代码快几倍，同时提供相同的准确性水平。

translated by 谷歌翻译

Billion-scale similarity search with GPUs

Jeff Johnson , Matthijs Douze , Hervé Jégou

分类：

2017-02-28

Similarity search finds application in specialized database systems handling complex data such as images or videos, which are typically represented by high-dimensional features and require specific indexing structures. This paper tackles the problem of better utilizing GPUs for this task. While GPUs excel at data-parallel tasks, prior approaches are bottlenecked by algorithms that expose less parallelism, such as k-min selection, or make poor use of the memory hierarchy.We propose a design for k-selection that operates at up to 55% of theoretical peak performance, enabling a nearest neighbor implementation that is 8.5× faster than prior GPU state of the art. We apply it in different similarity search scenarios, by proposing optimized design for brute-force, approximate and compressed-domain search based on product quantization. In all these setups, we outperform the state of the art by large margins. Our implementation enables the construction of a high accuracy k-NN graph on 95 million images from the Yfcc100M dataset in 35 minutes, and of a graph connecting 1 billion vectors in less than 12 hours on 4 Maxwell Titan X GPUs. We have open-sourced our approach 1 for the sake of comparison and reproducibility.

translated by 谷歌翻译

Compilation and Optimizations for Efficient Machine Learning on Embedded Systems

Xiaofan Zhang , Yao Chen , Cong Hao , Sitao Huang , Yuhong Li , Deming Chen

分类：机器学习

2022-06-06

深神经网络（DNNS）在各种机器学习（ML）应用程序中取得了巨大成功，在计算机视觉，自然语言处理和虚拟现实等中提供了高质量的推理解决方案。但是，基于DNN的ML应用程序也带来计算和存储要求的增加了很多，对于具有有限的计算/存储资源，紧张的功率预算和较小形式的嵌入式系统而言，这尤其具有挑战性。挑战还来自各种特定应用的要求，包括实时响应，高通量性能和可靠的推理准确性。为了应对这些挑战，我们介绍了一系列有效的设计方法，包括有效的ML模型设计，定制的硬件加速器设计以及硬件/软件共同设计策略，以启用嵌入式系统上有效的ML应用程序。

translated by 谷歌翻译

Two Sparsities Are Better Than One: Unlocking the Performance Benefits of Sparse-Sparse Networks

Kevin Lee Hunter , Lawrence Spracklen , Subutai Ahmad

分类：机器学习 | 人工智能 | 神经与进化计算

2021-12-27

原则上，稀疏的神经网络应该比传统的密集网络更有效。大脑中的神经元表现出两种类型的稀疏性;它们稀疏地相互连接和稀疏活跃。当组合时，这两种类型的稀疏性，称为重量稀疏性和激活稀疏性，提出了通过两个数量级来降低神经网络的计算成本。尽管存在这种潜力，但今天的神经网络只使用重量稀疏提供适度的性能益处，因为传统的计算硬件无法有效地处理稀疏网络。在本文中，我们引入了互补稀疏性，这是一种显着提高现有硬件对双稀疏网络性能的新技术。我们证明我们可以实现高性能运行的重量稀疏网络，我们可以通过结合激活稀疏性来乘以这些加速。采用互补稀疏性，我们显示出对FPGA的推断的吞吐量和能效提高了100倍。我们分析了典型的商业卷积网络等各种内核的可扩展性和资源权衡，例如Resnet-50和MobileNetv2。我们的互补稀疏性的结果表明，重量加激活稀疏性可以是有效的缩放未来AI模型的有效组合。

translated by 谷歌翻译

DFX: A Low-latency Multi-FPGA Appliance for Accelerating Transformer-based Text Generation

Seongmin Hong , Seungjae Moon , Junsoo Kim , Sungjae Lee , Minsub Kim , Dongsoo Lee , Joo-Young Kim

分类：机器学习

2022-09-22

变形金刚是一种深入学习语言模型，用于数据中心中的自然语言处理（NLP）服务。在变压器模型中，生成的预训练的变压器（GPT）在文本生成或自然语言生成（NLG）中取得了显着的性能，它需要在摘要阶段处理大型输入上下文，然后是产生一个生成阶段的一次单词。常规平台（例如GPU）专门用于在摘要阶段平行处理大型输入，但是由于其顺序特征，它们的性能在生成阶段显着降低。因此，需要一个有效的硬件平台来解决由文本生成的顺序特征引起的高潜伏期。在本文中，我们提出了DFX，这是一种多FPGA加速器，该设备在摘要和发电阶段中执行GPT-2模型端到端，并具有低延迟和高吞吐量。 DFX使用模型并行性和优化的数据流，这是模型和硬件感知的设备之间快速同时执行执行。其计算核心根据自定义说明运行，并提供GPT-2操作端到端。我们在四个Xilinx Alveo U280 FPGAS上实现了建议的硬件体系结构，并利用了高带宽内存（HBM）的所有频道，以及用于高硬件效率的最大计算资源数量。 DFX在现代GPT-2模型上实现了四个NVIDIA V100 GPU的5.58倍加速度和3.99倍的能效。 DFX的成本效益比GPU设备更具成本效益，这表明它是云数据中心中文本生成工作负载的有前途解决方案。

translated by 谷歌翻译

Fast and Scalable Computation of the Forward and Inverse Discrete Periodic Radon Transform

Cesar Carranza , Daniel Llamocca , Marios Pattichis

分类：计算机视觉

2021-12-24

离散定期氡变换（DPRT）已广泛用于涉及从投影的图像重建的应用中使用。此稿件引入了一种快速且可扩展的方法来计算基于使用的前进和逆DPRT：（i）固定点加法器树的并行阵列，（ii）循环移位寄存器，以消除访问外部存储器的需要在选择加法器树的输入数据时，（iii）基于图像块的DPRT计算方法，可以将所提出的架构适合于可用资源，并且（iv）在一个或几个时钟周期中计算的快速转换不依赖于输入图像的大小。结果，对于$ n \ times n $ image（$ n $ prime），所提出的方法可以计算每个时钟周期的$ n ^ {2} $加法。与先前的方法相比，可扩展方法为不同数量的计算资源提供了最快的已知实现。例如，对于251美元\ times 251 $ Image，对于收缩实施的需要约25次触发器，我们将可扩展的DPRT更快地计算36倍。对于最快的情况，我们介绍了优化的体系结构，可以在$ 2n + \ lett \ lceil \ log_ {2} n \ rectle \ rceil + 1 $和$ 2n + 3 \ left \ lceil \ log_ {分别为2} n \ rceil + b + 2 $周期，其中$ b $是用于表示每个输入像素的比特数。另一方面，可扩展的DPRT方法需要比收缩机实现更多的1位添加，并在速度和额外的1位添加之间提供权衡。所有提议的DPRT架构都以VHDL实施并使用FPGA实施进行验证。

translated by 谷歌翻译

Optimization of FPGA-based CNN Accelerators Using Metaheuristics

Sadiq M. Sait , Aiman El-Maleh , Mohammad Altakrouri , Ahmad Shawahna

分类：神经与进化计算 | 计算机视觉

2022-09-22

近年来，卷积神经网络（CNN）证明了它们在许多领域解决问题的能力，并且以前无法进行准确性。但是，这带有广泛的计算要求，这使得普通CPU无法提供所需的实时性能。同时，FPGA对加速CNN推断的兴趣激增。这是由于他们有能力创建具有不同级别的并行性的自定义设计。此外，与GPU相比，FPGA提供每瓦的性能更好。基于FPGA的CNN加速器的当前趋势是实现多个卷积层处理器（CLP），每个处理器都针对一层层量身定制。但是，CNN体系结构的日益增长的复杂性使得优化目标FPGA设备上可用的资源，以使最佳性能更具挑战性。在本文中，我们提出了CNN加速器和随附的自动设计方法，该方法采用元启发式学来分区可用的FPGA资源来设计多CLP加速器。具体而言，提出的设计工具采用模拟退火（SA）和禁忌搜索（TS）算法来查找所需的CLP数量及其各自的配置，以在给定的目标FPGA设备上实现最佳性能。在这里，重点是关键规格和硬件资源，包括数字信号处理器，阻止RAM和芯片内存储器带宽。提出了使用四个众所周知的基准CNN的实验结果和比较，表明所提出的加速框架既令人鼓舞又有前途。基于SA-/TS的多CLP比在加速Alexnet，Squeezenet 1.1，VGGNET和Googlenet架构上的最新单个/多CLP方法高1.31x-2.37倍高2.37倍。和VC709 FPGA板。

translated by 谷歌翻译

FastStamp: Accelerating Neural Steganography and Digital Watermarking of Images on FPGAs

Shehzeen Hussain , Nojan Sheybani , Paarth Neekhara , Xinqiao Zhang , Javier Duarte , Farinaz Koushanfar

分类：计算机视觉 | 人工智能

2022-09-26

隐肌和数字水印是隐藏图像像素中可回收数据的任务。基于深神经网络（DNN）的图像隐肌和水印技术正在迅速取代传统的手工工程管道。基于DNN的水印技术已大大提高了嵌入式水印的消息能力，不可识别性和鲁棒性。但是，这种改进是以水印编码器神经网络的计算开销增加为代价的。在这项工作中，我们设计了第一个加速器平台FastStamp，用于执行基于DNN的密封造影和硬件图像的数字水印。我们首先提出了一个参数有效的DNN模型，用于嵌入图像像素中的可回收位串。我们提出的模型可以与先前最新DNN的水印方法的成功指标相匹配，同时在记忆足迹方面的速度明显更快，更轻。然后，我们设计了一个基于FPGA的加速器框架，以通过利用数据并行性和自定义计算路径来进一步改善模型吞吐量和功耗。 FastStamp允许将硬件签名嵌入图像中，以建立媒体真实性和数字媒体的所有权。与先前基于DNN的水印编码器实施同时消耗更少的功率的GPU实现相比，我们的最佳设计的推断速度更快68倍。

translated by 谷歌翻译

LPYOLO: Low Precision YOLO for Face Detection on FPGA

Bestami Günay , Sefa Burak Okcu , Hasan Şakir Bilge

分类：计算机视觉 | 机器学习

2022-07-21

近年来，边缘计算设备和人工智能应用程序的数量过多。在边缘计算中，决策过程和计算从服务器转移到边缘设备。因此，需要便宜和低电源设备。 FPGA具有非常低的功率，倾向于进行平行操作和用于运行卷积神经网络（CNN）的非常合适的设备，这是人工智能应用程序的基本单位。监视系统上的面部检测是安全市场上最期待的应用。在这项工作中，重新设计了Tinyyolov3体系结构并部署了面部检测。它是一种基于CNN的对象检测方法，并为嵌入式系统开发。 Pynq-Z2被选为具有低端Xilinx Zynq 7020 System-On-Chip（SOC）的目标板。重新设计的TinyYolov3模型是用Brevitas库以许多位宽度精度定义的，Brevitas库将基本的CNN层和激活以整数量化形式。然后，使用宽面数据集对模型进行了量化结构的训练。为了减少延迟和功耗，FPGA的ONCHIP内存被配置为整个网络参数的存储，最后一个激活函数被修改为重新定制的Harttanh而不是Sigmoid。同样，高度的并行性应用于FPGA的逻辑资源。使用FINN Framework和Finn-HLS库将模型转换为基于HLS的应用程序，其中包括C ++中的图层定义。后来，该模型被合成和部署。 SOC的CPU采用多线程机制，负责预处理，后处理和TCP/IP流操作。因此，使用4位精确模型可实现2.4瓦总板的功耗，每秒18帧（FPS）吞吐量和0.757地图精度率。

translated by 谷歌翻译

Flexible Performant GEMM Kernels on GPUs

Thomas Faingnaert , Tim Besard , Bjorn De Sutter

分类：机器学习

2020-09-25

一般矩阵乘法或GEMM内核在高性能计算和机器学习中占据中心位置。最近的NVIDIA GPU包括Gemm加速器，如Nvidia的张量核心。他们的剥削受到双语言问题的阻碍：它需要低级编程，这意味着低程序员的工作效率或使用只提供有限组件集的库。由于建立的组件方面的REPRASING算法经常引入开销，因此图书馆缺乏灵活性限制了探索新算法的自由。因此，使用GEMMS的研究人员无法立即享受编程生产力，高性能和研究灵活性。在本文中，我们解决了这个问题。我们在科学朱莉娅编程语言中展示了三组抽象和接口来编程宝石。界面和抽象共同设计用于研究人员的需求和朱莉娅的特征，以实现足够的担忧和灵活性的充分分离，以便在不支付性能价格的情况下轻松地扩展基本宝石。将我们的Gemms与最先进的图书馆Cublas和Cutlass进行比较，我们证明我们的性能在图书馆的相同球场中，并且在某些情况下甚至超过它，而无需在CUDA C ++中编写单行代码或者组装，而不面临灵活限制。

translated by 谷歌翻译