使用深度学习模型对敏感用户数据的处理是一个获得最近吸引力的领域。现有工作利用了同构加密(HE)方案来启用加密数据的计算。早期工作是加密货币,需要250秒才能进行一项MNIST推断。这种方法的主要局限性是在He-compypted Ciphertext上执行操作所需的类似FFT的操作。其他人建议使用模型修剪和有效的数据表示来减少所需的操作数量。我们专注于通过提出对CNN推断期间中间张量的表示的更改来改善现有工作。我们在MNIST和CIFAR-10数据集上构建和评估私有CNN,并在用于推广架构的推断的操作数量上减少了两倍。
translated by 谷歌翻译
同态加密(HE),允许对加密数据(Ciphertext)进行计算,而无需首先解密,因此可以实现对云中隐私性的应用程序的安全性缓慢的卷积神经网络(CNN)推断。为了减少推理潜伏期,一种方法是将多个消息打包到单个密文中,以减少密文的数量并支持同型多态多重蓄能(HMA)操作的大量并行性。尽管HECNN的推断速度更快,但主流包装方案密集的包装(密度)和卷积包装(Convpack)仍将昂贵的旋转开销引入了昂贵的旋转开销,这延长了HECNN的推断潜伏期,以实现更深和更广泛的CNN体​​系结构。在本文中,我们提出了一种名为FFCONV的低级分解方法,该方法专门用于有效的密文填料,用于减少旋转台面和HMA操作。 FFCONV近似于低级分解卷积的A D X D卷积层,其中D X D低率卷积具有较少的通道,然后是1 x 1卷积以恢复通道。 D X D低级别卷积带有密度,导致旋转操作显着降低,而1 x 1卷积的旋转开销接近零。据我们所知,FFCONV是能够同时减少densepack和Convpack产生的旋转头顶的第一项工作,而无需将其他特殊块引入HECNN推理管道。与先前的Art Lola和Falcon相比,我们的方法分别将推理潜伏期降低了88%和21%,其精度在MNIST和CIFAR-10上具有可比的精度。
translated by 谷歌翻译
保留保护解决方案使公司能够在履行政府法规的同时将机密数据卸载到第三方服务。为了实现这一点,它们利用了各种密码技术,例如同性恋加密(HE),其允许对加密数据执行计算。大多数他计划以SIMD方式工作,数据包装方法可以显着影响运行时间和内存成本。找到导致最佳性能实现的包装方法是一个艰难的任务。我们提出了一种简单而直观的框架,摘要为用户提供包装决定。我们解释其底层数据结构和优化器,并提出了一种用于执行2D卷积操作的新算法。我们使用此框架来实现他友好的AlexNet版本,在三分钟内运行,比其他最先进的解决方案更快的数量级,只能使用他。
translated by 谷歌翻译
最近,基于云的图形卷积网络(GCN)在许多对隐私敏感的应用程序(例如个人医疗保健和金融系统)中表现出了巨大的成功和潜力。尽管在云上具有很高的推理准确性和性能,但在GCN推理中保持数据隐私,这对于这些实际应用至关重要,但仍未得到探索。在本文中,我们对此进行了初步尝试,并开发了$ \ textit {cryptogcn} $ - 基于GCN推理框架的同型加密(HE)。我们方法成功的关键是减少HE操作的巨大计算开销,这可能比明文空间中的同行高的数量级。为此,我们开发了一种方法,可以有效利用GCN推断中基质操作的稀疏性,从而大大减少计算开销。具体而言,我们提出了一种新型的AMA数据格式方法和相关的空间卷积方法,该方法可以利用复杂的图结构并在HE计算中执行有效的矩阵矩阵乘法,从而大大减少HE操作。我们还开发了一个合作式框架,该框架可以通过明智的修剪和GCN中激活模块的多项式近似来探索准确性,安全级别和计算开销之间的交易折扣。基于NTU-Xview骨架关节数据集,即,据我们所知,最大的数据集对同型的评估,我们的实验结果表明,$ \ textit {cryptogcn} $均优胜于最先进的解决方案。同构操作的延迟和数量,即在延迟上达到3.10 $ \ times $加速,并将总代态操作数量减少77.4 \%,而准确度的较小精度损失为1-1.5 $ \%$。
translated by 谷歌翻译
在这项工作中,我们提出了一种新颖的矩阵编码方法,该方法对于神经网络特别方便,使用同构加密以隐私性的方式进行预测。基于这种编码方法,我们实施了一个卷积神经网络,以通过加密进行手写图像分类。对于两个矩阵$ a $和$ b $以执行同型乘法,其背后的主要想法是,在一个简单的版本中,分别将矩阵$ a $和矩阵$ b $的转置分别加密到两个密文中。通过其他操作,可以有效地通过加密的矩阵来计算同型矩阵乘法。对于卷积操作,我们提前跨越每个卷积内核到与输入图像相同大小的矩阵空间,以生成几个密文,后来将它们与密文加密输入图像一起使用,以计算一些最终的最终卷积结果。我们积累了所有这些中间结果,从而完成了卷积操作。在具有40 VCPU的公共云中,我们在MNIST测试数据集上的卷积神经网络实现需要$ \ sim $ 287秒,以计算十个可能的32个大小的加密图像$ 28 \ times 28 $同时。数据所有者只需要上传一个Ciphertext($ \ sim 19.8 $ MB),将这32张图像加密到公共云。
translated by 谷歌翻译
神经网络的外包计算允许用户访问艺术模型的状态,而无需投资专门的硬件和专业知识。问题是用户对潜在的隐私敏感数据失去控制。通过同性恋加密(HE)可以在加密数据上执行计算,而不会显示其内容。在这种知识的系统化中,我们深入了解与隐私保留的神经网络相结合的方法。我们将更改分类为神经网络模型和架构,使其在他和这些变化的影响方面提供影响。我们发现众多挑战是基于隐私保留的深度学习,例如通过加密方案构成的计算开销,可用性和限制。
translated by 谷歌翻译
保存隐私的神经网络(NN)推理解决方案最近在几种提供不同的延迟带宽权衡的解决方案方面获得了重大吸引力。其中,许多人依靠同态加密(HE),这是一种对加密数据进行计算的方法。但是,与他们的明文对应物相比,他的操作即使是最先进的计划仍然很慢。修剪NN模型的参数是改善推理潜伏期的众所周知的方法。但是,在明文上下文中有用的修剪方法可能对HE案的改善几乎可以忽略不计,这在最近的工作中也证明了这一点。在这项工作中,我们提出了一套新颖的修剪方法,以减少潜伏期和记忆要求,从而将明文修剪方法的有效性带到HE中。至关重要的是,我们的建议采用两种关键技术,即。堆积模型权重的置换和扩展,使修剪能够明显更多的密封性下文并分别恢复大部分精度损失。我们证明了我们的方法在完全连接的层上的优势,其中使用最近提出的称为瓷砖张量的包装技术填充了权重,该技术允许在非相互作用模式下执行Deep NN推断。我们在各种自动编码器架构上评估了我们的方法,并证明,对于MNIST上的小均值重建损失为1.5*10^{ - 5},我们将HE-SEAMABLE推断的内存要求和延迟减少了60%。
translated by 谷歌翻译
胶囊网络(CAPSNET)是图像处理的新兴趋势。与卷积神经网络相反,CAPSNET不容易受到对象变形的影响,因为对象的相对空间信息在整个网络中保存。但是,它们的复杂性主要与胶囊结构和动态路由机制有关,这使得以其原始形式部署封闭式以由小型微控制器(MCU)供电的设备几乎是不合理的。在一个智力从云到边缘迅速转移的时代,这种高复杂性对在边缘的采用capsnets的采用构成了严重的挑战。为了解决此问题,我们提出了一个API,用于执行ARM Cortex-M和RISC-V MCUS中的量化capsnet。我们的软件内核扩展了ARM CMSIS-NN和RISC-V PULP-NN,以用8位整数作为操作数支持胶囊操作。随之而来的是,我们提出了一个框架,以执行CAPSNET的训练后量化。结果显示,记忆足迹的减少近75%,准确性损失范围从0.07%到0.18%。在吞吐量方面,我们的ARM Cortex-M API可以分别在仅119.94和90.60毫秒(MS)的中型胶囊和胶囊层执行(STM32H7555ZIT6U,Cortex-M7 @ 480 MHz)。对于GAP-8 SOC(RISC-V RV32IMCXPULP @ 170 MHz),延迟分别降至7.02和38.03 ms。
translated by 谷歌翻译
本文提出了一种非相互作用的端到端解决方案,用于使用完全同构加密(FHE)的生物识别模板的安全融合和匹配。给定一对加密的特征向量,我们执行以下密码操作,i)特征串联,ii)通过学习的线性投影降低融合和尺寸,iii)缩放到单位$ \ ell_2 $ -norm和iv)匹配分数计算。我们的方法被称为heft(生物识别模板的同派加密融合),是定制设计的,以克服FHE所施加的独特约束,即缺乏对非偏心操作的支持。从推论的角度来看,我们系统地探索了不同的数据包装方案,以进行计算有效的线性投影,并引入多项式近似来进行比例归一化。从训练的角度来看,我们引入了一种了解线性投影矩阵的FHE感知算法,以减轻近似归一化引起的错误。与各自的UNIBIOMETICTAINS相比,对面部和语音生物识别技术的模板融合和匹配的实验评估表明,(I)将生物识别验证性能提高了11.07%和9.58%的AUROC,同时将特征向量压缩为16(512d至32d), ,(ii)融合了一对加密的特征向量,并计算出在884毫秒内的1024个画廊的匹配分数。代码和数据可在https://github.com/human-analysis/crypted-biometric-fusion上获得
translated by 谷歌翻译
卷积神经网络(CNNS)已被广泛应用。但随着CNN的成长,算术运算和内存占用的数量也增加。此外,典型的非线性激活函数不允许连续层编码的操作的相关性,通过组合它们来防止简化中间步骤。我们提出了一种新的激活函数,允许CNN的顺序层之间的关联性。即使我们的激活函数是非线性的,它也可以通过欧几里德几何形状的共形模型中的一系列线性操作来表示。在此域中,操作,但不限于卷积,平均池和丢失保持线性。我们利用关联性来组合所有的“保形层”并使推理的成本持续,而不管网络的深度如何。
translated by 谷歌翻译
原则上,稀疏的神经网络应该比传统的密集网络更有效。大脑中的神经元表现出两种类型的稀疏性;它们稀疏地相互连接和稀疏活跃。当组合时,这两种类型的稀疏性,称为重量稀疏性和激活稀疏性,提出了通过两个数量级来降低神经网络的计算成本。尽管存在这种潜力,但今天的神经网络只使用重量稀疏提供适度的性能益处,因为传统的计算硬件无法有效地处理稀疏网络。在本文中,我们引入了互补稀疏性,这是一种显着提高现有硬件对双稀疏网络性能的新技术。我们证明我们可以实现高性能运行的重量稀疏网络,我们可以通过结合激活稀疏性来乘以这些加速。采用互补稀疏性,我们显示出对FPGA的推断的吞吐量和能效提高了100倍。我们分析了典型的商业卷积网络等各种内核的可扩展性和资源权衡,例如Resnet-50和MobileNetv2。我们的互补稀疏性的结果表明,重量加激活稀疏性可以是有效的缩放未来AI模型的有效组合。
translated by 谷歌翻译
ML-AS-A-Service继续增长,对非常强大的隐私保证的需求也在继续增长。安全推断已成为潜在的解决方案,其中加密原始图允许推理不向用户向用户揭示用户的输入或模型的权重。例如,模型提供商可以是一家诊断公司,该公司已经培训了一种最先进的Densenet-121模型来解释胸部X射线,并且用户可以在医院成为患者。尽管对于这种环境,确保推理原则上是可行的,但没有现有的技术使其大规模实用。 Cryptflow2框架提供了一种潜在的解决方案,其能力自动,正确地将清晰文本推理转换为安全模型的推断。但是,从Cryptflow2产生的安全推断在不切实际上很昂贵:在Densenet-121上解释单个X射线需要几乎3TB的通信。在本文中,我们解决了针对三项贡献的安全推断效率低下的重大挑战。首先,我们证明安全推理中的主要瓶颈是大型线性层,可以通过选择网络骨干的选择来优化,并使用用于有效的清晰文本推理开发的操作员。这一发现和强调与许多最近的作品偏离,这些作品着重于在执行较小网络的安全推断时优化非线性激活层。其次,基于对瓶颈卷积层的分析,我们设计了一个更有效的倒入替代品的X操作器。第三,我们表明,快速的Winograd卷积算法进一步提高了安全推断的效率。结合使用,这三个优化被证明对在CHEXPERT数据集中训练的X射线解释问题非常有效。
translated by 谷歌翻译
With the increased usage of AI accelerators on mobile and edge devices, on-device machine learning (ML) is gaining popularity. Thousands of proprietary ML models are being deployed today on billions of untrusted devices. This raises serious security concerns about model privacy. However, protecting model privacy without losing access to the untrusted AI accelerators is a challenging problem. In this paper, we present a novel on-device model inference system, ShadowNet. ShadowNet protects the model privacy with Trusted Execution Environment (TEE) while securely outsourcing the heavy linear layers of the model to the untrusted hardware accelerators. ShadowNet achieves this by transforming the weights of the linear layers before outsourcing them and restoring the results inside the TEE. The non-linear layers are also kept secure inside the TEE. ShadowNet's design ensures efficient transformation of the weights and the subsequent restoration of the results. We build a ShadowNet prototype based on TensorFlow Lite and evaluate it on five popular CNNs, namely, MobileNet, ResNet-44, MiniVGG, ResNet-404, and YOLOv4-tiny. Our evaluation shows that ShadowNet achieves strong security guarantees with reasonable performance, offering a practical solution for secure on-device model inference.
translated by 谷歌翻译
当今的大多数计算机视觉管道都是围绕深神经网络构建的,卷积操作需要大部分一般的计算工作。与标准算法相比,Winograd卷积算法以更少的MAC计算卷积,当使用具有2x2尺寸瓷砖$ F_2 $的版本时,3x3卷积的操作计数为2.25倍。即使收益很大,Winograd算法具有较大的瓷砖尺寸,即$ f_4 $,在提高吞吐量和能源效率方面具有更大的潜力,因为它将所需的MAC降低了4倍。不幸的是,具有较大瓷砖尺寸的Winograd算法引入了数值问题,这些问题阻止了其在整数域特异性加速器上的使用和更高的计算开销,以在空间和Winograd域之间转换输入和输出数据。为了解锁Winograd $ F_4 $的全部潜力,我们提出了一种新颖的Tap-Wise量化方法,该方法克服了使用较大瓷砖的数值问题,从而实现了仅整数的推断。此外,我们介绍了以功率和区域效率的方式处理Winograd转换的自定义硬件单元,并展示了如何将此类自定义模块集成到工业级,可编程的DSA中。对大量最先进的计算机视觉基准进行了广泛的实验评估表明,Tap-Wise量化算法使量化的Winograd $ F_4 $网络几乎与FP32基线一样准确。 Winograd增强的DSA可实现高达1.85倍的能源效率,最高可用于最先进的细分和检测网络的端到端速度高达1.83倍。
translated by 谷歌翻译
我们提出了一种方法,可以针对加密域中的大型画廊搜索探针(或查询)图像表示。我们要求探针和画廊图像以固定长度表示形式表示,这对于从学习的网络获得的表示是典型的。我们的加密方案对如何获得固定长度表示不可知,因此可以应用于任何应用域中的任何固定长度表示。我们的方法被称为HERS(同派加密表示搜索),是通过(i)压缩表示其估计的固有维度的表示,而准确性的最小损失(ii)使用拟议的完全同质加密方案和(iii)有效地加密压缩表示形式(ii)直接在加密域中直接搜索加密表示的画廊,而不会解密它们。大型面部,指纹和对象数据集(例如ImageNet)上的数值结果表明,在加密域中,首次准确且快速的图像搜索是可行的(500秒; $ 275 \ times $ 275 \ times $ speed胜过状态 - 与1亿个画廊的加密搜索有关)。代码可从https://github.com/human-analysis/hers-ecrypted-image-search获得。
translated by 谷歌翻译
We introduce Group equivariant Convolutional Neural Networks (G-CNNs), a natural generalization of convolutional neural networks that reduces sample complexity by exploiting symmetries. G-CNNs use G-convolutions, a new type of layer that enjoys a substantially higher degree of weight sharing than regular convolution layers. G-convolutions increase the expressive capacity of the network without increasing the number of parameters. Group convolution layers are easy to use and can be implemented with negligible computational overhead for discrete groups generated by translations, reflections and rotations. G-CNNs achieve state of the art results on CI-FAR10 and rotated MNIST.
translated by 谷歌翻译
Most modern convolutional neural networks (CNNs) used for object recognition are built using the same principles: Alternating convolution and max-pooling layers followed by a small number of fully connected layers. We re-evaluate the state of the art for object recognition from small images with convolutional networks, questioning the necessity of different components in the pipeline. We find that max-pooling can simply be replaced by a convolutional layer with increased stride without loss in accuracy on several image recognition benchmarks. Following this finding -and building on other recent work for finding simple network structures -we propose a new architecture that consists solely of convolutional layers and yields competitive or state of the art performance on several object recognition datasets (CIFAR-10, CIFAR-100, ImageNet). To analyze the network we introduce a new variant of the "deconvolution approach" for visualizing features learned by CNNs, which can be applied to a broader range of network structures than existing approaches.
translated by 谷歌翻译
我们使用所述环境中常用的量化实施了安全多方计算(MPC)中神经网络的培训。我们是第一个呈现MNIST分类器纯粹在MPC中训练的MNIST分类器,该分类器占据通过宣传计算训练的相同卷积神经网络准确性的0.2%。更具体地说,我们已经训练了一个在3.5小时内具有两个卷积和两个密集层至99.2%精度的网络(精度为99%的小时)。我们还为CIFAR-10实施了Alexnet,该Alexnet在几个小时内收敛。我们开发了用于指示和平方根逆的新方案。最后,我们在多达十个政党的一系列MPC安全模型中介绍了实验,包括诚实和不诚实的多数以及半honest和恶意安全。
translated by 谷歌翻译
卷积神经网络(CNN)已广泛用于各个领域并发挥了重要作用。卷积运营商是卷积神经网络的基本组成部分,也是网络培训和推理的最耗时的一部分。近年来,研究人员提出了几种快速卷积算法,包括FFT和Winograd。其中,Winograd卷积显着降低了卷积中的乘法操作,并且还比FFT卷积占据了更少的内存空间。因此,Winograd卷积迅速成为几年内快速卷积实施的首选。目前,卷积算法没有系统概述。本文旨在填补此差距,并为后续研究人员提供详细的参考。本文总结了从算法扩展,算法优化,实现和应用的三个方面的WinoGrad卷积的发展,最后在可能的未来方向上进行了简单的展望。
translated by 谷歌翻译
由于存储器和计算资源有限,部署在移动设备上的卷积神经网络(CNNS)是困难的。我们的目标是通过利用特征图中的冗余来设计包括CPU和GPU的异构设备的高效神经网络,这很少在神经结构设计中进行了研究。对于类似CPU的设备,我们提出了一种新颖的CPU高效的Ghost(C-Ghost)模块,以生成从廉价操作的更多特征映射。基于一组内在的特征映射,我们使用廉价的成本应用一系列线性变换,以生成许多幽灵特征图,可以完全揭示内在特征的信息。所提出的C-Ghost模块可以作为即插即用组件,以升级现有的卷积神经网络。 C-Ghost瓶颈旨在堆叠C-Ghost模块,然后可以轻松建立轻量级的C-Ghostnet。我们进一步考虑GPU设备的有效网络。在建筑阶段的情况下,不涉及太多的GPU效率(例如,深度明智的卷积),我们建议利用阶段明智的特征冗余来制定GPU高效的幽灵(G-GHOST)阶段结构。舞台中的特征被分成两个部分,其中使用具有较少输出通道的原始块处理第一部分,用于生成内在特征,另一个通过利用阶段明智的冗余来生成廉价的操作。在基准测试上进行的实验证明了所提出的C-Ghost模块和G-Ghost阶段的有效性。 C-Ghostnet和G-Ghostnet分别可以分别实现CPU和GPU的准确性和延迟的最佳权衡。代码可在https://github.com/huawei-noah/cv-backbones获得。
translated by 谷歌翻译