Neural networks are susceptible to data inference attacks such as the membership inference attack, the adversarial model inversion attack and the attribute inference attack, where the attacker could infer useful information such as the membership, the reconstruction or the sensitive attributes of a data sample from the confidence scores predicted by the target classifier. In this paper, we propose a method, namely PURIFIER, to defend against membership inference attacks. It transforms the confidence score vectors predicted by the target classifier and makes purified confidence scores indistinguishable in individual shape, statistical distribution and prediction label between members and non-members. The experimental results show that PURIFIER helps defend membership inference attacks with high effectiveness and efficiency, outperforming previous defense methods, and also incurs negligible utility loss. Besides, our further experiments show that PURIFIER is also effective in defending adversarial model inversion attacks and attribute inference attacks. For example, the inversion error is raised about 4+ times on the Facescrub530 classifier, and the attribute inference accuracy drops significantly when PURIFIER is deployed in our experiment.
translated by 谷歌翻译
大型变压器模型在各种自然语言处理(NLP)任务上显示出令人鼓舞的性能。尽管AI社区已将模型量表扩展到了万亿个参数级别,但由于延迟,吞吐量和内存约束,仍不确定100亿参数模型的实际部署。在本文中,我们提出了Energonai,以解决单个或多GPU系统上有效部署1000亿参数变压器模型的挑战。 Energonai采用层次结构控制器系统体系结构来协调多个设备并有效支持不同的并行模式。它将子模型的执行委托给单个控制器样式的多个工人,并以多控制器样式的工人之间的工人之间的张量并行性和管道并行性。在新的架构上,我们提出了三种技术,即非阻滞管道并行性,分布式冗余计算消除和同行记忆池。 Energonai使用户能够编程复杂的并行代码与串行编码相同。与FertransFormer相比,我们已经证明,Energonai在延迟和吞吐量方面具有较高的性能。在我们的实验中,Energonai可以在张量并行性,管道并行性的10%可伸缩性中实现37%的潜伏期降低,并通过使用较大的异质记忆空间以有限的性能降低的成本来提高对单个GPU推断的模型量表。
translated by 谷歌翻译
对于诊断各种疾病的诊断,对睡眠阶段进行分类至关重要。但是,现有的自动诊断方法主要采用“金标准”局部脑图(EEG)或医院中多摄像机仪(PSG)机器的其他单型模式传感信号,这些信号昂贵,导入且因此不适合保健点监测在家。为了在家中启用睡眠阶段监控,我们在本文中分析了红外视频与脑电图信号之间的关系,并提出了一项新任务:通过将有用的知识从EEG信号提炼到视觉视频,使用红外视频对睡眠阶段进行分类。为了为该应用程序建立可靠的跨模式基准,我们开发了一个新的数据集,称为通过红外视频和脑电图($ s^3ve $)看到您的睡眠阶段。 $ s^3ve $是一个大型数据集,包括用于睡眠阶段分类的同步红外视频和脑电图信号,包括105个主题和154,573个视频剪辑,长度超过1100小时。我们的贡献不仅限于数据集,而且还涉及一种新型的跨模式蒸馏基线模型,即结构感知的对比度蒸馏(SACD),以将脑电图知识提升为红外视频特征。 SACD在我们的$ S^3ve $和现有的跨模式蒸馏基准上都达到了最先进的表演。基准方法和基线方法都将被释放给社区。我们希望在睡眠阶段分类中提高更多注意力并促进更多的发展,更重要的是,从临床信号/媒体到传统媒体的跨模式蒸馏。
translated by 谷歌翻译
加强学习(RL)为决策提供了一个强大的框架,但是其实践中的应用通常需要精心设计的奖励功能。对抗性模仿学习(AIL)阐明了自动策略获取,而无需从环境中访问奖励信号。在这项工作中,我们提出了自动编码的对抗模仿学习(AEAIL),这是一个强大而可扩展的AIL框架。为了从演示中诱导专家政策,AEAIL利用自动编码器的重建误差作为奖励信号,该奖励信号比以前的基于歧视者提供了更多的优化策略信息。随后,我们使用派生的目标函数来训练自动编码器和代理策略。实验表明,与穆约科克环境中的最先进方法相比,我们的AEAIL表现优越。更重要的是,当专家演示嘈杂时,AEAIL表现出更好的鲁棒性。具体而言,我们的方法分别获得了$ 16.4 \%$ $和$ 47.2 \%$相对改进的总体,而最佳基线Fairl和PWIL分别在清洁和嘈杂的专家数据上。视频结果,开源代码和数据集可在https://sites.google.com/view/auto-encoding-imitation中找到。
translated by 谷歌翻译
异质的面部识别(HFR)旨在匹配不同域(例如,可见到近红外图像)的面孔,该面孔已被广泛应用于身份验证和取证方案。但是,HFR是一个具有挑战性的问题,因为跨域差异很大,异质数据对有限和面部属性变化很大。为了应对这些挑战,我们从异质数据增强的角度提出了一种新的HFR方法,该方法称为面部合成,具有身份 - 属性分解(FSIAD)。首先,身份属性分解(IAD)将图像截取到与身份相关的表示和与身份无关的表示(称为属性)中,然后降低身份和属性之间的相关性。其次,我们设计了一个面部合成模块(FSM),以生成大量具有分离的身份和属性的随机组合的图像,以丰富合成图像的属性多样性。原始图像和合成图像均被用于训练HFR网络,以应对挑战并提高HFR的性能。在五个HFR数据库上进行的广泛实验验证了FSIAD的性能比以前的HFR方法更高。特别是,FSIAD以vr@far = 0.01%在LAMP-HQ上获得了4.8%的改善,这是迄今为止最大的HFR数据库。
translated by 谷歌翻译
It has been witnessed that learned image compression has outperformed conventional image coding techniques and tends to be practical in industrial applications. One of the most critical issues that need to be considered is the non-deterministic calculation, which makes the probability prediction cross-platform inconsistent and frustrates successful decoding. We propose to solve this problem by introducing well-developed post-training quantization and making the model inference integer-arithmetic-only, which is much simpler than presently existing training and fine-tuning based approaches yet still keeps the superior rate-distortion performance of learned image compression. Based on that, we further improve the discretization of the entropy parameters and extend the deterministic inference to fit Gaussian mixture models. With our proposed methods, the current state-of-the-art image compression models can infer in a cross-platform consistent manner, which makes the further development and practice of learned image compression more promising.
translated by 谷歌翻译
零射门学习(ZSL)旨在通过将语义知识从看见课程转移到看不见者来识别新颖的课程。从不同类别之间共享的属性描述中学到的语义知识,该属性描述是用于本地化代表歧视区域特征的对象属性的强子指数,从而实现了显着的视觉语义交互。尽管基于注意的模型已经尝试学习单个图像中的这种区域特征,但是通常忽略视觉特征的可转换性和辨别性属性定位。在本文中,我们提出了一个属性引导的变压器网络,称为Transzero,以改进视觉特征,并在ZSL中鉴定鉴别的视觉嵌入表示。具体而言,Transzero采用特征增强编码器来缓解想象集和ZSL基准之间的交叉数据集偏压,并通过减少区域特征之间的缠结的相对几何关系来提高视觉特征的可转换性。为了学习地区增强的可视功能,Transzero使用视觉语义解码器来在语义属性信息的指导下本地化与给定图像中的每个属性最相关的图像区域。然后,用于在视觉语义嵌入网络中进行有效的视觉语义交互来实现局部增强的视觉特征和语义向量。广泛的实验表明,Transzero在三个ZSL基准上实现了新的最新状态。该代码可用于:\ url {https://github.com/shiming-chen/transzero}。
translated by 谷歌翻译
理解和预测代理的未来轨迹对于行为分析,机器人导航,自动驾驶汽车和其他相关应用至关重要。先前的方法主要将轨迹预测视为时间序列的产生。与它们不同的是,这项工作在“垂直”视图中研究了代理的轨迹,即来自光谱域的建模和预测轨迹。轨迹光谱中的不同频带可以分层反映不同尺度上的代理运动偏好。低频和高频部分可以分别代表其粗糙运动趋势和细胞运动变化。因此,我们提出了一个层次网络v $^2 $ -NET,其中包含两个子网络,以层次模型并预测具有轨迹谱的代理的轨迹。粗级关键点估计子网络首先预测了代理轨迹在几个“密钥”频率部分上的“最小”频谱。然后,高级频谱插值子网络插值将这些光谱重建最终预测。实验结果表明,在ETH-COY基准和Stanford Drone DataSet上,V $^2 $ -NET的竞争力和优势。
translated by 谷歌翻译
With the advancement in computing and robotics, it is necessary to develop fluent and intuitive methods for interacting with digital systems, augmented/virtual reality (AR/VR) interfaces, and physical robotic systems. Hand motion recognition is widely used to enable these interactions. Hand configuration classification and MCP joint angle detection is important for a comprehensive reconstruction of hand motion. sEMG and other technologies have been used for the detection of hand motions. Forearm ultrasound images provide a musculoskeletal visualization that can be used to understand hand motion. Recent work has shown that these ultrasound images can be classified using machine learning to estimate discrete hand configurations. Estimating both hand configuration and MCP joint angles based on forearm ultrasound has not been addressed in the literature. In this paper, we propose a CNN based deep learning pipeline for predicting the MCP joint angles. The results for the hand configuration classification were compared by using different machine learning algorithms. SVC with different kernels, MLP, and the proposed CNN have been used to classify the ultrasound images into 11 hand configurations based on activities of daily living. Forearm ultrasound images were acquired from 6 subjects instructed to move their hands according to predefined hand configurations. Motion capture data was acquired to get the finger angles corresponding to the hand movements at different speeds. Average classification accuracy of 82.7% for the proposed CNN and over 80% for SVC for different kernels was observed on a subset of the dataset. An average RMSE of 7.35 degrees was obtained between the predicted and the true MCP joint angles. A low latency (6.25 - 9.1 Hz) pipeline has been proposed for estimating both MCP joint angles and hand configuration aimed at real-time control of human-machine interfaces.
translated by 谷歌翻译
速度控制预测是驾驶员行为分析中一个具有挑战性的问题,旨在预测驾驶员在控制车速(例如制动或加速度)中的未来行动。在本文中,我们尝试仅使用以自我为中心的视频数据来应对这一挑战,与使用第三人称视图数据或额外的车辆传感器数据(例如GPS或两者)的文献中的大多数作品相比。为此,我们提出了一个基于新型的图形卷积网络(GCN)网络,即Egospeed-net。我们的动机是,随着时间的推移,对象的位置变化可以为我们提供非常有用的线索,以预测未来的速度变化。我们首先使用完全连接的图形图将每个类的对象之间的空间关系建模,并在其上应用GCN进行特征提取。然后,我们利用一个长期的短期内存网络将每个类别的此类特征随着时间的流逝融合到矢量中,加入此类矢量并使用多层perceptron分类器预测速度控制动作。我们在本田研究所驾驶数据集上进行了广泛的实验,并证明了Egospeed-NET的出色性能。
translated by 谷歌翻译