BRINSCALES神经形态计算系统目前通过千兆 - 以太网网络技术连接到计算集群。这方便目前使用的实验模式,其中神经元网络在大多数晶片模块上覆盖。当建模较大尺寸的网络时,例如全尺寸的皮质微电路模型,必须考虑将晶片模块连接到更大网络的神经元。这可以使用扩展网络技术来完成,该技术提供高带宽和低延迟,以及低开销分组协议格式。
translated by 谷歌翻译
Distributed deep learning (DDL) systems strongly depend on network performance. Current electronic packet switched (EPS) network architectures and technologies suffer from variable diameter topologies, low-bisection bandwidth and over-subscription affecting completion time of communication and collective operations. We introduce a near-exascale, full-bisection bandwidth, all-to-all, single-hop, all-optical network architecture with nanosecond reconfiguration called RAMP, which supports large-scale distributed and parallel computing systems (12.8~Tbps per node for up to 65,536 nodes). For the first time, a custom RAMP-x MPI strategy and a network transcoder is proposed to run MPI collective operations across the optical circuit switched (OCS) network in a schedule-less and contention-less manner. RAMP achieves 7.6-171$\times$ speed-up in completion time across all MPI operations compared to realistic EPS and OCS counterparts. It can also deliver a 1.3-16$\times$ and 7.8-58$\times$ reduction in Megatron and DLRM training time respectively} while offering 42-53$\times$ and 3.3-12.4$\times$ improvement in energy consumption and cost respectively.
translated by 谷歌翻译
RDMA超过融合以太网(ROCE),由于其与常规以太网的织物的兼容性,对数据中心网络具有重要的吸引力。但是,RDMA协议仅在(几乎)无损网络上有效,这强调了拥塞控制对ROCE网络的重要作用。不幸的是,基于优先流量控制(PFC)的本地ROCE拥塞控制方案遭受了许多缺点,例如不公平,线路阻滞和僵局。因此,近年来,已经提出许多计划为ROCE网络提供额外的拥塞控制,以最大程度地减少PFC缺点。但是,这些方案是针对一般数据中心环境提出的。与使用商品硬件构建并运行通用工作负载的一般数据中心相反,高性能分布式培训平台部署高端加速器和网络组件,并专门使用集体(全能,全能,全能)运行培训工作负载)通信库进行通信。此外,这些平台通常具有一个私人网络,将其通信流量与其他数据中心流量分开。可扩展的拓扑意识集体算法固有地设计旨在避免造成的模式并最佳地平衡流量。这些独特的功能需要重新审视先前提出的通用数据中心环境的拥塞控制方案。在本文中,我们彻底分析了在分布式培训平台上运行时的一些SOTA ROCE拥塞控制方案与PFC。我们的结果表明,先前提出的ROCE拥塞控制计划对培训工作负载的端到端表现几乎没有影响,这激发了根据分布式培训平台和分布式培训平台和特征的设计优化但低空的拥塞控制计划的必要性工作负载。
translated by 谷歌翻译
沟通效率在加速深神经网络(DNN)的分布式训练中起着重要作用。 All-Reduce是减少分布式DNN培训中模型参数的关键沟通原始性。大多数现有的全减少算法都是为传统的电气互连系统设计的,该系统无法满足大型DNN分布式培训的通信要求。电气互连的有希望的替代方案之一是光学互连,可以提供高带宽,低传输延迟和低功率成本。我们提出了一个称为WRHT(波长重复使用的层次树)的有效方案,用于在光学互连系统中实现全降压操作,该系统可以利用WDM(波长多路复用)来减少分布式数据 - 偏置DNN训练的通信时间。我们进一步得出了最少的通信步骤和通信时间,以实现使用WRHT的全面减少。仿真结果表明,与在光学互连系统中模拟的三种传统的全减少算法相比,WRHT的通信时间分别减少了75.59%,49.25%和70.1%。仿真结果还表明,与电气互连系统中的两种现有的全减速算法相比,WRHT可以将所有还原操作的通信时间减少86.69%和84.71%。
translated by 谷歌翻译
神经形态视觉是一个快速增长的领域,在自动驾驶汽车的感知系统中有许多应用。不幸的是,由于传感器的工作原理,事件流中有很大的噪声。在本文中,我们提出了一种基于IIR滤波器矩阵的新算法,用于过滤此类噪声和硬件体系结构,该算法允许使用SOC FPGA加速。我们的方法具有非常好的过滤效率,无法相关噪声 - 删除了超过99%的嘈杂事件。已经对几个事件数据集进行了测试,并增加了随机噪声。我们设计了硬件体系结构,以减少FPGA内部BRAM资源的利用。这使得每秒的潜伏期非常低,最多可达3858元MERP的事件。在模拟和Xilinx Zynx Zynx Ultrascale+ MPSOC+ MPSOC芯片上,拟议的硬件体系结构在Mercury+ XU9模块上进行了验证。
translated by 谷歌翻译
许多微体系式优化为深度神经网络解锁了巨大的处理能力,从而促进了AI革命。随着这种优化的精疲力尽,现代AI的增长现在是通过培训系统的性能,尤其是其数据流动的。我们没有专注于单个加速器,而是研究了全系统规模的大规模培训的数据移动特征。基于我们的工作量分析,我们设计了HammingMesh,这是一种新颖的网络拓扑,以低成本提供高的带宽,并具有很高的工作计划灵活性。具体而言,HammingMesh可以支持具有两个并行性的两个维度的深度学习培训工作的完整带宽和隔离。此外,它还为通用流量的高全球带宽提供支持。因此,HammingMesh将为未来的大规模深度学习系统供电,并具有极端的带宽要求。
translated by 谷歌翻译
大型ML型号和数据集已经需要使用多GPU系统进行分布式模型培训。为了利用多GPU系统提供的权力,消除GPU间通信中的瓶颈至关重要 - 互连异构性质的问题挑战。在这项工作中,我们呈现TACCL,这是用于大规模多GPU系统的集体通信原语的合成器。 TACCL将异形拓扑和输入大小进行编码为合成问题,以生成优化的通信算法。 TACCL建立在标准的NVIDIA集体通信库(NCCL)之上,允许它成为PYTORCH等框架中GPU通信的替代品,具有最小的变化。 TACCL为全球,AllToAll和ALLERDUCE等通信基元生成算法,该算法高达3美元的速度超过NCCL。使用TACCL的算法加快了专家模型内部混合物的端到端培训,以17 \%$。通过将优化问题分解成零件并利用多GPU拓扑中的对称性,TACCL在不到3分钟内合成高达80-GPU的集体,比其他基于综合的状态快至少两个数量级 - 艺术集体通信图书馆。
translated by 谷歌翻译
新颖的智能环境,如智能家居,智能城市和智能交通,正在推动在边缘设备部署深神经网络(DNN)的兴趣越来越兴趣。不幸的是,在资源受限的边缘设备上部署DNN构成了巨大的挑战。如果模拟器可以与深度学习框架互动,它可以促进在边缘深度学习的研究。现有的仿真框架(如MATLAB,NS-3等)尚未扩展以支持边缘学习的模拟。为了支持边缘节点上的大规模培训模拟,我们提出了一种基于离散的Edge学习模拟器。它包括深度学习模块和网络仿真模块。具体而言,它使模拟作为深度学习的环境。我们的框架是通用的,可以在部署深度学习模型之前在各种深度学习问题中使用。在本文中,我们提供了基于离散的学习模拟器的设计和实现细节,并呈现了所提出的模拟器的说明性用例。
translated by 谷歌翻译
通信系统是自主UAV系统设计的关键部分。它必须解决不同的考虑因素,包括UAV的效率,可靠性和移动性。此外,多UAV系统需要通信系统,以帮助在UAV的团队中提供信息共享,任务分配和协作。在本文中,我们审查了在考虑在电力线检查行业的应用程序时支持无人机团队的通信解决方案。我们提供候选无线通信技术的审查{用于支持UAV应用程序中的通信。综述了这些候选技术的性能测量和无人机相关的频道建模。提出了对构建UAV网状网络的当前技术的讨论。然后,我们分析机器人通信中间件,ROS和ROS2的结构,界面和性能。根据我们的审查,提出了通信系统中每层候选解决方案的特征和依赖性。
translated by 谷歌翻译
编程微控制器涉及使用并发和反应的硬件和外围设备的低级接口。这些程序通常使用并发语言扩展(如$ \ texttt {freertos tasks} $和$ \ texttt {sevaphores} $),以c和组装的混合编写,导致不安全,回调驱动,容易出错和困难 - 维护代码。我们通过介绍$ \ texttt {sensevm} $ - 一个字节码解释的虚拟机来解决这一挑战,该虚拟机提供了一种基于邮件传递的$ \ Textit {高阶并发} $型号,用于Microctroller编程。该模型将同步操作视为类似于功能语言的一流函数的一流价值(称为$ \ texttt {events} $)。这主要允许程序员撰写和量身定制自己的并发抽象,另外,摘要摘要不安全的内存操作,共享内存并发模型中的常见,从而使微控制器程序更安全,可组合和更容易维护。我们的VM通过低级$ \ Textit {Bridge} $界面进行便携式,内置嵌入式OS - Zephyr。桥梁由所有驱动程序实现,并设计成使得响应于软件消息或硬件中断的编程仍然是均匀的并且无法区分。在本文中,我们通过以CAML的功能语言编写的示例演示了VM的功能,在$ \ texttt {nrf52840} $和$ \ texttt {stm32f4} $微控制器上运行。
translated by 谷歌翻译
分布式机器人系统在很大程度上依赖于支持它的Publish-Subscriber通信范式和中间件框架,例如机器人操作系统(ROS),以有效地实现模块化计算图。 ROS 2执行程序是一个处理ROS 2消息的高级任务调度程序,是性能瓶颈。我们扩展了ROS2_Tracing,这是一个带有仪器和用于实时跟踪ROS 2的工具的框架,并在分布式ROS 2系统中分析和可视化消息流的分析和可视化。我们的方法检测输入和输出消息之间的一对多因果关系,包括通过简单的用户级注释,包括间接因果链接。我们在合成和真实机器人系统上验证了我们的方法,并证明了其低运行时开销。此外,可以进一步利用基本的中间执行表示数据库来提取其他指标和高级结果。这可以提供有价值的时机和调度信息,以进一步研究和改善ROS 2执行者,并优化任何ROS 2系统。源代码可在以下网址获得:https://github.com/christophebedard/ros2-message-flow-analysis。
translated by 谷歌翻译
安全的数字无线通信水下已成为一个关键问题,因为海上运营转向采用机器人资产的异质组合,并且随着数字系统的安全性在所有领域都受到挑战。同时,水下信号编码和物理层选项的增殖提供了更大的带宽和灵活性,但主要没有互操作性所需的标准。我们在这里解决了对安全的基本要求,即对资产身份的确认也称为身份验证。我们建议,实施,验证和验证基于第一个数字水下通信标准的身份验证协议。我们的计划主要适用于在海上石油和天然气设施周围运行的AUV,也适用于将来可能还具有声学调制解调器的其他水下设备。它使包括命令和控制在内的沟通更加安全,并为开发更复杂的安全机制提供了基础。
translated by 谷歌翻译
Search and rescue, wildfire monitoring, and flood/hurricane impact assessment are mission-critical services for recent IoT networks. Communication synchronization, dependability, and minimal communication jitter are major simulation and system issues for the time-based physics-based ROS simulator, event-based network-based wireless simulator, and complex dynamics of mobile and heterogeneous IoT devices deployed in actual environments. Simulating a heterogeneous multi-robot system before deployment is difficult due to synchronizing physics (robotics) and network simulators. Due to its master-based architecture, most TCP/IP-based synchronization middlewares use ROS1. A real-time ROS2 architecture with masterless packet discovery synchronizes robotics and wireless network simulations. A velocity-aware Transmission Control Protocol (TCP) technique for ground and aerial robots using Data Distribution Service (DDS) publish-subscribe transport minimizes packet loss, synchronization, transmission, and communication jitters. Gazebo and NS-3 simulate and test. Simulator-agnostic middleware. LOS/NLOS and TCP/UDP protocols tested our ROS2-based synchronization middleware for packet loss probability and average latency. A thorough ablation research replaced NS-3 with EMANE, a real-time wireless network simulator, and masterless ROS2 with master-based ROS1. Finally, we tested network synchronization and jitter using one aerial drone (Duckiedrone) and two ground vehicles (TurtleBot3 Burger) on different terrains in masterless (ROS2) and master-enabled (ROS1) clusters. Our middleware shows that a large-scale IoT infrastructure with a diverse set of stationary and robotic devices can achieve low-latency communications (12% and 11% reduction in simulation and real) while meeting mission-critical application reliability (10% and 15% packet loss reduction) and high-fidelity requirements.
translated by 谷歌翻译
近年来,物联网设备的数量越来越快,这导致了用于管理,存储,分析和从不同物联网设备的原始数据做出决定的具有挑战性的任务,尤其是对于延时敏感的应用程序。在车辆网络(VANET)环境中,由于常见的拓扑变化,车辆的动态性质使当前的开放研究发出更具挑战性,这可能导致车辆之间断开连接。为此,已经在5G基础设施上计算了云和雾化的背景下提出了许多研究工作。另一方面,有多种研究提案旨在延长车辆之间的连接时间。已经定义了车辆社交网络(VSN)以减少车辆之间的连接时间的负担。本调查纸首先提供了关于雾,云和相关范例,如5G和SDN的必要背景信息和定义。然后,它将读者介绍给车辆社交网络,不同的指标和VSN和在线社交网络之间的主要差异。最后,本调查调查了在展示不同架构的VANET背景下的相关工作,以解决雾计算中的不同问题。此外,它提供了不同方法的分类,并在雾和云的上下文中讨论所需的指标,并将其与车辆社交网络进行比较。与VSN和雾计算领域的新研究挑战和趋势一起讨论了相关相关工程的比较。
translated by 谷歌翻译
并行系统中的通信施加了显着的开销,这往往是并联机器学习中的瓶颈。为了减轻其中一些开销,在本文中,我们提出了Eventgrad - 一种具有事件触发通信的算法,用于并行机器学习中的随机梯度下降。该算法的主要思想是在并行机器学习中的随机梯度下降的标准实现中修改通信的需求,仅在某些迭代时仅在必要时进行通信。我们为我们所提出的算法的融合提供了理论分析。我们还实现了用于训练CiFar-10数据集的流行残余神经网络的数据并行培训的提议算法,并显示Evervgrad可以将通信负载降低到60%,同时保持相同的精度水平。此外,Evervgrad可以与其他方法(例如Top-K稀疏)组合,以进一步降低通信,同时保持精度。
translated by 谷歌翻译
事件摄像机是受到生物启发的动态视觉传感器,它们以高时间分辨率,高动态范围和低延迟响应图像强度的变化。这些传感器特性非常适合与智能视觉信标的广播视觉通信频道一起启用视觉目标跟踪,并在分布式机器人技术中应用。视觉信标可以通过对发射二极管(LED)的高频调节(例如车辆前大灯,物联网(IoT)LED,智能建筑灯等)来构建,这些灯光已经存在于许多真实世界中。事件摄像机的高时间分辨率特征使他们能够以基于经典的框架摄像机的速度捕获更高数据速率的视觉信号。在本文中,我们提出了一种具有LED调制和事件摄像头解调算法的新型智能视觉标准架构。我们定量评估我们原型型的智能视觉信标通信系统的LED传输速率,通信距离和消息传输精度之间的关系。所提出的方法在室内环境中最多可实现4 kbps,并且在100米的距离内以500桶的传输速率在阳光下以500 bps的速度实现了无损的传播,这表明了该技术在室外环境中的潜力。
translated by 谷歌翻译
软件体系结构定义了大型计算系统的蓝图,因此是设计和开发工作的关键部分。在移动机器人的背景下,对此任务进行了广泛的探索,从而导致了大量参考设计和实现。由于软件体系结构定义了实现所有组件的框架,因此自然是移动机器人系统的一个非常重要的方面。在本章中,我们概述了特定问题域(移动机器人系统)对软件框架强加的要求。我们讨论了一些当前的设计解决方案,提供了有关共同框架的历史观点,并概述了未来发展的方向。
translated by 谷歌翻译
分散算法是一种计算形式,通过依赖于直接连接代理之间的低成本通信的本地动态实现全局目标。在涉及分布式数据集的大规模优化任务中,分散算法显示出强大,有时优越,性能与中央节点的分布式算法。最近,发展分散的深度学习算法引起了极大的关注。它们被视为使用参数服务器或环形恢复协议的那些的低通信开销替代方案。但是,缺乏易于使用和高效的软件包仅在纸上保持了最分散的算法。为了填补差距,我们介绍了Bluefog,一个Python库进行了直接的,高性能的不同分散算法的实现。基于各种通信操作的统一抽象,Bluefog提供直观的接口来实现分散的算法的频谱,从使用静态无向图的那些,用于使用动态和定向图形的同步操作进行异步操作。 Bluefog还采用了多种系统级加速技术,以进一步优化深度学习任务的性能。在主流DNN培训任务中,Bluefog达到了更高的吞吐量,并实现了一个总体上的吞吐量1.2 \ times \ sim 1.8 \ times $ speedup,这是一个基于环 - allyuce的最先进的分布式深度学习包。 Bluefog是https://github.com/bluefog-lib/bluefog的开源。
translated by 谷歌翻译
Loihi is a 60-mm 2 chip fabricated in Intel's 14-nm process that advances the state-of-the-art modeling of spiking neural networks in silicon. It integrates a wide range of novel features for the field, such as hierarchical connectivity, dendritic compartments, synaptic delays, and, most importantly, programmable synaptic learning rules. Running a spiking convolutional form of the Locally Competitive Algorithm, Loihi can solve LASSO optimization problems with over three orders of magnitude superior energy-delay product compared to conventional solvers running on a CPU isoprocess/voltage/area. This provides an unambiguous example of spike-based computation, outperforming all known conventional solutions.Neuroscience offers a bountiful source of inspiration for novel hardware architectures and algorithms. Through their complex interactions at large scales, biological neurons exhibit an impressive range of behaviors and properties that we currently struggle to model with modern analytical tools, let alone replicate with our design and manufacturing technology. Some of the magic that we see in the brain undoubtedly stems from exotic device and material properties that will remain out of our fabs' reach for
translated by 谷歌翻译
5G及以后的移动网络将以前所未有的规模支持异质用例,从而要求自动控制和优化针对单个用户需求的网络功能。当前的蜂窝体系结构不可能对无线电访问网络(RAN)进行这种细粒度控制。为了填补这一空白,开放式运行范式及其规范引入了一个带有抽象的开放体系结构,该架构可以启用闭环控制并提供数据驱动和智能优化RAN在用户级别上。这是通过在网络边缘部署在近实时RAN智能控制器(接近RT RIC)上的自定义RAN控制应用程序(即XAPP)获得的。尽管有这些前提,但截至今天,研究界缺乏用于构建数据驱动XAPP的沙箱,并创建大型数据集以有效的AI培训。在本文中,我们通过引入NS-O-RAN来解决此问题,NS-O-RAN是一个软件框架,该框架将现实世界中的生产级近距离RIC与NS-3上的基于3GPP的模拟环境集成在一起,从而实现了XAPPS和XAPPS的开发自动化的大规模数据收集和深入强化学习驱动的控制策略的测试,以在用户级别的优化中进行优化。此外,我们提出了第一个特定于用户的O-RAN交通转向(TS)智能移交框架。它使用随机的合奏混合物,结合了最先进的卷积神经网络体系结构,以最佳地为网络中的每个用户分配服务基站。我们的TS XAPP接受了NS-O-RAN收集的超过4000万个数据点的培训,该数据点在近距离RIC上运行,并控制其基站。我们在大规模部署中评估了性能,这表明基于XAPP的交换可以使吞吐量和频谱效率平均比传统的移交启发式方法提高50%,而动机性开销较少。
translated by 谷歌翻译