我们在并行计算机架构上的图像的自适应粒子表示(APR)上的离散卷积运算符的本机实现数据结构和算法。 APR是一个内容 - 自适应图像表示,其本地地将采样分辨率局部调整到图像信号。已经开发为大,稀疏图像的像素表示的替代方案,因为它们通常在荧光显微镜中发生。已经显示出降低存储,可视化和处理此类图像的存储器和运行时成本。然而,这要求图像处理本身在APRS上运行,而无需中间恢复为像素。然而,设计高效和可扩展的APR-Native图像处理原语是APR的不规则内存结构的复杂性。这里,我们提供了使用可以在离散卷积方面配制的各种算法有效和本地地处理APR图像所需的算法建筑块。我们表明APR卷积自然地导致缩放 - 自适应算法,可在多核CPU和GPU架构上有效地平行化。与基于像素的算法和概念性数据的卷积相比,我们量化了加速度。我们在单个NVIDIA GeForce RTX 2080 Gaming GPU上实现了最多1 TB / s的像素等效吞吐量,而不是基于像素的实现的存储器最多两个数量级。
translated by 谷歌翻译
最新的2D图像压缩方案依赖于卷积神经网络(CNN)的力量。尽管CNN为2D图像压缩提供了有希望的观点,但将此类模型扩展到全向图像并不简单。首先,全向图像具有特定的空间和统计特性,这些特性无法通过当前CNN模型完全捕获。其次,在球体上,基本的数学操作组成了CNN体系结构,例如翻译和采样。在本文中,我们研究了全向图像的表示模型的学习,并建议使用球体的HealPix均匀采样的属性来重新定义用于全向图像的深度学习模型中使用的数学工具。特别是,我们:i)提出了在球体上进行新的卷积操作的定义,以保持经典2D卷积的高表现力和低复杂性; ii)适应标准的CNN技术,例如步幅,迭代聚集和像素改组到球形结构域;然后iii)将我们的新框架应用于全向图像压缩的任务。我们的实验表明,与应用于等应角图像的类似学习模型相比,我们提出的球形溶液可带来更好的压缩增益,可以节省比特率的13.7%。同样,与基于图形卷积网络的学习模型相比,我们的解决方案支持更具表现力的过滤器,这些过滤器可以保留高频并提供压缩图像的更好的感知质量。这样的结果证明了拟议框架的效率,该框架为其他全向视觉任务任务打开了新的研究场所,以在球体歧管上有效实施。
translated by 谷歌翻译
Deep neural networks (DNNs) are currently widely used for many artificial intelligence (AI) applications including computer vision, speech recognition, and robotics. While DNNs deliver state-of-the-art accuracy on many AI tasks, it comes at the cost of high computational complexity. Accordingly, techniques that enable efficient processing of DNNs to improve energy efficiency and throughput without sacrificing application accuracy or increasing hardware cost are critical to the wide deployment of DNNs in AI systems.This article aims to provide a comprehensive tutorial and survey about the recent advances towards the goal of enabling efficient processing of DNNs. Specifically, it will provide an overview of DNNs, discuss various hardware platforms and architectures that support DNNs, and highlight key trends in reducing the computation cost of DNNs either solely via hardware design changes or via joint hardware design and DNN algorithm changes. It will also summarize various development resources that enable researchers and practitioners to quickly get started in this field, and highlight important benchmarking metrics and design considerations that should be used for evaluating the rapidly growing number of DNN hardware designs, optionally including algorithmic co-designs, being proposed in academia and industry.The reader will take away the following concepts from this article: understand the key design considerations for DNNs; be able to evaluate different DNN hardware implementations with benchmarks and comparison metrics; understand the trade-offs between various hardware architectures and platforms; be able to evaluate the utility of various DNN design techniques for efficient processing; and understand recent implementation trends and opportunities.
translated by 谷歌翻译
图像分割的随机沃克方法是半自动图像分割的流行工具,尤其是在生物医学领域。但是,它的线性渐近运行时间和内存要求使应用于增加大小不切实际的3D数据集。我们提出了一个分层框架,据我们所知,这是克服这些随机沃克算法的限制并实现sublinear的运行时间和持续的内存复杂性的尝试。该框架的目的是 - 与基线​​方法相比,而不是改善细分质量,以使交互式分割在核心外数据集中成为可能。确认该方法的合成数据和CT-ORG数据集进行了定量评估,其中确认了算法运行时间的预期改进,同时确认了高分段质量。即使对于数百千兆字节的大小,增量(即互动更新)运行时间也已在标准PC上以秒为单位。在一个小案例研究中,证明了当前生物医学研究对大型现实世界的适用性。在广泛使用的卷渲染和处理软件Voreen(https://www.uni-muenster.de/voreen/)的5.2版5.2版中,介绍方法的实现公开可用。
translated by 谷歌翻译
在过去十年中,已经开发出新的深度学习(DL)算法,工作负载和硬件来解决各种问题。尽管工作量和硬件生态系统的进步,DL系统的编程方法是停滞不前的。 DL工作负载从DL库中的高度优化,特定于平台和不灵活的内核,或者在新颖的操作员的情况下,通过具有强大性能的DL框架基元建立参考实现。这项工作介绍了Tensor加工基元(TPP),一个编程抽象,用于高效的DL工作负载的高效,便携式实现。 TPPS定义了一组紧凑而多才多艺的2D张镜操作员(或虚拟张量ISA),随后可以用作构建块,以在高维张量上构建复杂的运算符。 TPP规范是平台 - 不可行的,因此通过TPPS表示的代码是便携式的,而TPP实现是高度优化的,并且特定于平台。我们展示了我们使用独立内核和端到端DL&HPC工作负载完全通过TPPS表达的方法的效力和生存性,这在多个平台上优于最先进的实现。
translated by 谷歌翻译
这本数字本书包含在物理模拟的背景下与深度学习相关的一切实际和全面的一切。尽可能多,所有主题都带有Jupyter笔记本的形式的动手代码示例,以便快速入门。除了标准的受监督学习的数据中,我们将看看物理丢失约束,更紧密耦合的学习算法,具有可微分的模拟,以及加强学习和不确定性建模。我们生活在令人兴奋的时期:这些方法具有从根本上改变计算机模拟可以实现的巨大潜力。
translated by 谷歌翻译
神经网络在压缩体积数据以进行科学可视化方面表现出巨大的潜力。但是,由于训练和推断的高成本,此类体积神经表示仅应用于离线数据处理和非交互式渲染。在本文中,我们证明,通过同时利用现代的GPU张量核心,本地CUDA神经网络框架以及在线培训,我们可以使用体积神经表示来实现高性能和高效率交互式射线追踪。此外,我们的方法是完全概括的,可以适应时变的数据集。我们提出了三种用于在线培训的策略,每种策略都利用GPU,CPU和核心流程技术的不同组合。我们还开发了三个渲染实现,允许交互式射线跟踪与实时卷解码,示例流和幕后神经网络推断相结合。我们证明,我们的体积神经表示可以扩展到Terascale,以进行常规网格体积可视化,并可以轻松地支持不规则的数据结构,例如OpenVDB,非结构化,AMR和粒子体积数据。
translated by 谷歌翻译
我们介绍了Netket的版本3,机器学习工具箱适用于许多身体量子物理学。Netket围绕神经网络量子状态构建,并为其评估和优化提供有效的算法。这个新版本是基于JAX的顶部,一个用于Python编程语言的可差分编程和加速的线性代数框架。最重要的新功能是使用机器学习框架的简明符号来定义纯Python代码中的任意神经网络ANS \“凝固的可能性,这允许立即编译以及渐变的隐式生成自动化。Netket 3还带来了GPU和TPU加速器的支持,对离散对称组的高级支持,块以缩放多程度的自由度,Quantum动态应用程序的驱动程序,以及改进的模块化,允许用户仅使用部分工具箱是他们自己代码的基础。
translated by 谷歌翻译
从自主驾驶中的对象检测到细胞生物学中细胞形态的分析,需要在广泛的应用中提取区域提取。存在两种主要方法:凸船体提取,对于这些方法存在,并且存在精确有效的算法和凹形船体,它们更擅长捕获现实世界的形状,但没有单个解决方案。尤其是在均匀网格的背景下,凹面船体算法在很大程度上是近似的,牺牲区域的完整性,以实现空间和时间效率。在这项研究中,我们提出了一种新颖的算法,可以提供最大的顶点凹面壳,以最大的(即像素完美)分辨率,并且对于速度效率折衷方案而言是可调的。我们的方法在多个下游应用程序中提供了优势,包括数据压缩,检索,可视化和分析。为了证明我们方法的实际实用性,我们专注于图像压缩。我们通过对单个图像内的不同区域的上下文依赖性压缩(熵编码嘈杂和预测性编码的结构化区域编码)证明了显着改进。我们表明,这些改进范围从生物医学图像到自然图像。除了图像压缩之外,我们的算法还可以更广泛地应用于为数据检索,可视化和分析的广泛实用应用。
translated by 谷歌翻译
Lensless cameras are a class of imaging devices that shrink the physical dimensions to the very close vicinity of the image sensor by replacing conventional compound lenses with integrated flat optics and computational algorithms. Here we report a diffractive lensless camera with spatially-coded Voronoi-Fresnel phase to achieve superior image quality. We propose a design principle of maximizing the acquired information in optics to facilitate the computational reconstruction. By introducing an easy-to-optimize Fourier domain metric, Modulation Transfer Function volume (MTFv), which is related to the Strehl ratio, we devise an optimization framework to guide the optimization of the diffractive optical element. The resulting Voronoi-Fresnel phase features an irregular array of quasi-Centroidal Voronoi cells containing a base first-order Fresnel phase function. We demonstrate and verify the imaging performance for photography applications with a prototype Voronoi-Fresnel lensless camera on a 1.6-megapixel image sensor in various illumination conditions. Results show that the proposed design outperforms existing lensless cameras, and could benefit the development of compact imaging systems that work in extreme physical conditions.
translated by 谷歌翻译
实际图像的稀疏表示是成像应用的非常有效的方法,例如去噪。近年来,随着计算能力的增长,利用一个或多个图像提取的补丁内冗余的数据驱动策略,以增加稀疏性变得更加突出。本文提出了一种新颖的图像去噪算法,利用了由量子多体理论的图像依赖性的基础。基于补丁分析,通过类似于量子力学的术语来形式化局部图像邻域中的相似度测量,可以有效地保留真实图像的局部结构的量子力学中的相互作用。这种自适应基础的多功能性质将其应用范围扩展到图像无关或图像相关的噪声场景,而无需任何调整。我们对当代方法进行严格的比较,以证明所提出的算法的去噪能力,无论图像特征,噪声统计和强度如何。我们说明了超参数的特性及其对去噪性能的各自影响,以及自动化规则,可以在实验设置中选择其值的自动化规则,其实际设置不可用。最后,我们展示了我们对诸如医用超声图像检测应用等实际图像的方法处理实际图像的能力。
translated by 谷歌翻译
光学系统的可区分模拟可以与基于深度学习的重建网络结合使用,以通过端到端(E2E)优化光学编码器和深度解码器来实现高性能计算成像。这使成像应用程序(例如3D定位显微镜,深度估计和无透镜摄影)通过优化局部光学编码器。更具挑战性的计算成像应用,例如将3D卷压入单个2D图像的3D快照显微镜,需要高度非本地光学编码器。我们表明,现有的深网解码器具有局部性偏差,可防止这种高度非本地光学编码器的优化。我们使用全球内核傅里叶卷积神经网络(Fouriernets)基于浅神经网络体系结构的解码器来解决此问题。我们表明,在高度非本地分散镜头光学编码器捕获的照片中,傅立叶网络超过了现有的基于网络的解码器。此外,我们表明傅里叶可以对3D快照显微镜的高度非本地光学编码器进行E2E优化。通过将傅立叶网和大规模多GPU可区分的光学模拟相结合,我们能够优化非本地光学编码器170 $ \ times $ \ times $ tos 7372 $ \ times $ \ times $ \ times $比以前的最新状态,并证明了ROI的潜力-type特定的光学编码使用可编程显微镜。
translated by 谷歌翻译
在许多重要的科学和工程应用中发现了卷数据。渲染此数据以高质量和交互速率为苛刻的应用程序(例如虚拟现实)的可视化化,即使使用专业级硬件也无法实现。我们介绍了Fovolnet - 一种可显着提高数量数据可视化的性能的方法。我们开发了一种具有成本效益的渲染管道,该管道稀疏地对焦点进行了量度,并使用深层神经网络重建了全帧。 FOVEATED渲染是一种优先考虑用户焦点渲染计算的技术。这种方法利用人类视觉系统的属性,从而在用户视野的外围呈现数据时节省了计算资源。我们的重建网络结合了直接和内核预测方法,以产生快速,稳定和感知令人信服的输出。凭借纤细的设计和量化的使用,我们的方法在端到端框架时间和视觉质量中都优于最先进的神经重建技术。我们对系统的渲染性能,推理速度和感知属性进行了广泛的评估,并提供了与竞争神经图像重建技术的比较。我们的测试结果表明,Fovolnet始终在保持感知质量的同时,在传统渲染上节省了大量时间。
translated by 谷歌翻译
使用FASS-MVS,我们提出了一种具有表面感知半全局匹配的快速多视图立体声的方法,其允许从UAV捕获的单眼航空视频数据中快速深度和正常地图估计。反过来,由FASS-MVS估计的数据促进在线3D映射,这意味着在获取或接收到图像数据时立即和递增地生成场景的3D地图。 FASS-MVS由分层处理方案组成,其中深度和正常数据以及相应的置信度分数以粗略的方式估计,允许有效地处理由倾斜图像所固有的大型场景深度低无人机。实际深度估计采用用于致密多图像匹配的平面扫描算法,以产生深度假设,通过表面感知半全局优化来提取实际深度图,从而减少了SGM的正平行偏压。给定估计的深度图,然后通过将深度图映射到点云中并计算狭窄的本地邻域内的普通向量来计算像素 - 方面正常信息。在彻底的定量和消融研究中,我们表明,由FASS-MV计算的3D信息的精度接近离线多视图立体声的最先进方法,误差甚至没有一个幅度而不是科麦。然而,同时,FASS-MVS的平均运行时间估计单个深度和正常地图的距离小于ColMAP的14%,允许在1-中执行全高清图像的在线和增量处理2 Hz。
translated by 谷歌翻译
本文的目的是描述一种从贝叶斯推理的观点来描述一种新的非参数降噪技术,其可以自动提高一个和二维数据的信噪比,例如例如,例如,天文图像和光谱。该算法迭代地评估数据的可能的平滑版本,平滑模型,获得与嘈杂测量统计上兼容的底层信号的估计。迭代基于最后一个顺利模型的证据和$ \ Chi ^ 2 $统计数据,并且我们将信号的预期值计算为整个平滑模型的加权平均值。在本文中,我们解释了算法的数学形式主义和数值实现,我们在利用真正的天文观测的电池对峰值信号,结构相似性指数和时间有效载荷来评估其性能。我们完全自适应的贝叶斯算法用于数据分析(Fabada)产生结果,没有任何参数调谐,与标准图像处理算法相当,其参数基于要恢复的真实信号进行了优化,在实际应用中不可能。诸如BM3D的最先进的非参数方法,以高信噪比提供稍微更好的性能,而我们的算法对于极其嘈杂的数据显着更准确(高于20-40 \%$相对错误,在天文领域特别兴趣的情况)。在此范围内,通过我们的重建获得的残差的标准偏差可能变得比原始测量值低的数量级。复制本报告中显示的所有结果所需的源代码,包括该方法的实现,在https://github.com/pablolyanala/fabada公开使用
translated by 谷歌翻译
原则上,稀疏的神经网络应该比传统的密集网络更有效。大脑中的神经元表现出两种类型的稀疏性;它们稀疏地相互连接和稀疏活跃。当组合时,这两种类型的稀疏性,称为重量稀疏性和激活稀疏性,提出了通过两个数量级来降低神经网络的计算成本。尽管存在这种潜力,但今天的神经网络只使用重量稀疏提供适度的性能益处,因为传统的计算硬件无法有效地处理稀疏网络。在本文中,我们引入了互补稀疏性,这是一种显着提高现有硬件对双稀疏网络性能的新技术。我们证明我们可以实现高性能运行的重量稀疏网络,我们可以通过结合激活稀疏性来乘以这些加速。采用互补稀疏性,我们显示出对FPGA的推断的吞吐量和能效提高了100倍。我们分析了典型的商业卷积网络等各种内核的可扩展性和资源权衡,例如Resnet-50和MobileNetv2。我们的互补稀疏性的结果表明,重量加激活稀疏性可以是有效的缩放未来AI模型的有效组合。
translated by 谷歌翻译
我们提出了一种新颖的方法,该方法将基于机器学习的交互式图像分割结合在一起,使用Supersoxels与聚类方法结合了用于自动识别大型数据集中类似颜色的图像的聚类方法,从而使分类器的指导重复使用。我们的方法解决了普遍的颜色可变性的问题,并且在生物学和医学图像中通常不可避免,这通常会导致分割恶化和量化精度,从而大大降低了必要的训练工作。效率的这种提高促进了大量图像的量化,从而为高通量成像中的最新技术进步提供了交互式图像分析。所呈现的方法几乎适用于任何图像类型,并代表通常用于图像分析任务的有用工具。
translated by 谷歌翻译
一般矩阵乘法或GEMM内核在高性能计算和机器学习中占据中心位置。最近的NVIDIA GPU包括Gemm加速器,如Nvidia的张量核心。他们的剥削受到双语言问题的阻碍:它需要低级编程,这意味着低程序员的工作效率或使用只提供有限组件集的库。由于建立的组件方面的REPRASING算法经常引入开销,因此图书馆缺乏灵活性限制了探索新算法的自由。因此,使用GEMMS的研究人员无法立即享受编程生产力,高性能和研究灵活性。在本文中,我们解决了这个问题。我们在科学朱莉娅编程语言中展示了三组抽象和接口来编程宝石。界面和抽象共同设计用于研究人员的需求和朱莉娅的特征,以实现足够的担忧和灵活性的充分分离,以便在不支付性能价格的情况下轻松地扩展基本宝石。将我们的Gemms与最先进的图书馆Cublas和Cutlass进行比较,我们证明我们的性能在图书馆的相同球场中,并且在某些情况下甚至超过它,而无需在CUDA C ++中编写单行代码或者组装,而不面临灵活限制。
translated by 谷歌翻译
近年来,在平衡(超级)图分配算法的设计和评估中取得了重大进展。我们调查了过去十年的实用算法的趋势,用于平衡(超级)图形分区以及未来的研究方向。我们的工作是对先前有关该主题的调查的更新。特别是,该调查还通过涵盖了超图形分区和流算法来扩展先前的调查,并额外关注并行算法。
translated by 谷歌翻译
a) original (b) hole+constraints (c) hole filled (d) constraints (e) constrained retarget (f) reshuffleFigure 1: Structural image editing. Left to right: (a) the original image; (b) a hole is marked (magenta) and we use line constraints (red/green/blue) to improve the continuity of the roofline; (c) the hole is filled in; (d) user-supplied line constraints for retargeting;(e) retargeting using constraints eliminates two columns automatically; and (f) user translates the roof upward using reshuffling.
translated by 谷歌翻译