值得信赖的强化学习算法应有能力解决挑战性的现实问题,包括{Robustly}处理不确定性,满足{安全}的限制以避免灾难性的失败,以及在部署过程中{prencepentiming}以避免灾难性的失败}。这项研究旨在概述这些可信赖的强化学习的主要观点,即考虑其在鲁棒性,安全性和概括性上的内在脆弱性。特别是,我们给出严格的表述,对相应的方法进行分类,并讨论每个观点的基准。此外,我们提供了一个前景部分,以刺激有希望的未来方向,并简要讨论考虑人类反馈的外部漏洞。我们希望这项调查可以在统一的框架中将单独的研究汇合在一起,并促进强化学习的可信度。
translated by 谷歌翻译
安全的加强学习(RL)旨在学习在将其部署到关键安全应用程序中之前满足某些约束的政策。以前的原始双重风格方法遭受了不稳定性问题的困扰,并且缺乏最佳保证。本文从概率推断的角度克服了问题。我们在政策学习过程中介绍了一种新颖的期望最大化方法来自然纳入约束:1)在凸优化(E-step)后,可以以封闭形式计算可证明的最佳非参数变异分布; 2)基于最佳变异分布(M-step),在信任区域内改进了策略参数。提出的算法将安全的RL问题分解为凸优化阶段和监督学习阶段,从而产生了更稳定的培训性能。对连续机器人任务进行的广泛实验表明,所提出的方法比基线获得了更好的约束满意度和更好的样品效率。该代码可在https://github.com/liuzuxin/cvpo-safe-rl上找到。
translated by 谷歌翻译
Federated Learning (FL) is pervasive in privacy-focused IoT environments since it enables avoiding privacy leakage by training models with gradients instead of data. Recent works show the uploaded gradients can be employed to reconstruct data, i.e., gradient leakage attacks, and several defenses are designed to alleviate the risk by tweaking the gradients. However, these defenses exhibit weak resilience against threatening attacks, as the effectiveness builds upon the unrealistic assumptions that deep neural networks are simplified as linear models. In this paper, without such unrealistic assumptions, we present a novel defense, called Refiner, instead of perturbing gradients, which refines ground-truth data to craft robust data that yields sufficient utility but with the least amount of privacy information, and then the gradients of robust data are uploaded. To craft robust data, Refiner promotes the gradients of critical parameters associated with robust data to close ground-truth ones while leaving the gradients of trivial parameters to safeguard privacy. Moreover, to exploit the gradients of trivial parameters, Refiner utilizes a well-designed evaluation network to steer robust data far away from ground-truth data, thereby alleviating privacy leakage risk. Extensive experiments across multiple benchmark datasets demonstrate the superior defense effectiveness of Refiner at defending against state-of-the-art threats.
translated by 谷歌翻译
Few-shot relation extraction (FSRE) aims at recognizing unseen relations by learning with merely a handful of annotated instances. To generalize to new relations more effectively, this paper proposes a novel pipeline for the FSRE task based on queRy-information guided Attention and adaptive Prototype fuSion, namely RAPS. Specifically, RAPS first derives the relation prototype by the query-information guided attention module, which exploits rich interactive information between the support instances and the query instances, in order to obtain more accurate initial prototype representations. Then RAPS elaborately combines the derived initial prototype with the relation information by the adaptive prototype fusion mechanism to get the integrated prototype for both train and prediction. Experiments on the benchmark dataset FewRel 1.0 show a significant improvement of our method against state-of-the-art methods.
translated by 谷歌翻译
Recent methods for deep metric learning have been focusing on designing different contrastive loss functions between positive and negative pairs of samples so that the learned feature embedding is able to pull positive samples of the same class closer and push negative samples from different classes away from each other. In this work, we recognize that there is a significant semantic gap between features at the intermediate feature layer and class labels at the final output layer. To bridge this gap, we develop a contrastive Bayesian analysis to characterize and model the posterior probabilities of image labels conditioned by their features similarity in a contrastive learning setting. This contrastive Bayesian analysis leads to a new loss function for deep metric learning. To improve the generalization capability of the proposed method onto new classes, we further extend the contrastive Bayesian loss with a metric variance constraint. Our experimental results and ablation studies demonstrate that the proposed contrastive Bayesian metric learning method significantly improves the performance of deep metric learning in both supervised and pseudo-supervised scenarios, outperforming existing methods by a large margin.
translated by 谷歌翻译
在皮肤病学诊断中,移动皮肤病学助理收集的私人数据存在于患者的分布式移动设备上。联合学习(FL)可以使用分散数据来训练模型,同时保持数据本地化。现有的FL方法假设所有数据都有标签。但是,由于高标签成本,医疗数据通常没有完整的标签。自我监督的学习(SSL)方法,对比度学习(CL)和蒙版自动编码器(MAE)可以利用未标记的数据来预先培训模型,然后用有限的标签进行微调。但是,组合SSL和FL有独特的挑战。例如,CL需要不同的数据,但每个设备仅具有有限的数据。对于MAE而言,尽管基于视觉变压器(VIT)的MAE在集中学习中具有更高的准确性,但尚未研究MAE在未标记数据的FL中的性能。此外,服务器和客户端之间的VIT同步与传统CNN不同。因此,需要设计特殊的同步方法。在这项工作中,我们提出了两个联邦自制的学习框架,用于具有有限标签的皮肤病学诊断。第一个具有较低的计算成本,适用于移动设备。第二个具有高精度,适合高性能服务器。根据CL,我们提出了与功能共享(FedClf)的联合对比度学习。共享功能可用于不同的对比信息,而无需共享原始数据以获得隐私。根据MAE,我们提出了Fedmae。知识拆分将所学的全球知识与每个客户分开。只有全球知识才能汇总为更高的概括性能。关于皮肤病学数据集的实验表明,所提出的框架的精度优于最先进的框架。
translated by 谷歌翻译
知识图(kg)嵌入是一种主流方法,用于推理不完整的kg。但是,受其固有浅层和静态体系结构的限制,它们几乎无法处理对复杂逻辑查询的不断上升,这些查询包括逻辑运算符,估算的边缘,多个源实体和未知的中间实体。在这项工作中,我们通过掩盖的预训练和微调策略介绍了知识图变压器(kgtransformer)。我们设计了一种kg三重变换方法,以使变压器能够处理kg,这是通过稀疏(MOE)稀疏激活的混合物进一步增强的。然后,我们将复杂的逻辑查询作为掩盖预测提出,并引入了两阶段掩盖的预训练策略,以提高可转移性和概括性。在两个基准上进行的广泛实验表明,KGTRANSFORMER可以始终超过基于KG的基准和九个内域和室外推理任务的高级编码。此外,KGTRANSFORMER可以通过提供解释给定答案的完整推理路径来解释性。
translated by 谷歌翻译
在不同模型中,对抗性示例(AES)的可传递性对于黑盒对抗攻击至关重要,在黑框对抗攻击中,攻击者无法访问有关黑盒模型的信息。但是,制作的AE总是表现出差的可转移性。在本文中,通过将AES作为模型的概括能力的可传递性,我们揭示了Vanilla Black-Box攻击通过解决最大似然估计(MLE)问题来制作AES。对于MLE,结果可能是特定于模型的本地最佳最佳,当可用数据较小时,即限制了AE的可传递性。相比之下,我们将可转移的AES重新构建为最大化后验概率估计问题,这是一种有效的方法,可以提高结果有限的结果的概括。由于贝叶斯后推断通常很棘手,因此开发了一种简单而有效的方法称为MaskBlock以近似估计。此外,我们表明该配方框架是各种攻击方法的概括版本。广泛的实验说明了面具可以显着提高制作的对抗性例子的可转移性,最多可以提高20%。
translated by 谷歌翻译
神经网络的不透明度导致其脆弱性发生后门攻击,其中触发了感染神经元的隐藏注意力,以覆盖对攻击者选择的神经元的正常预测。在本文中,我们提出了一种新型的后门防御方法,以标记和净化后门神经网络中受感染的神经元。具体来说,我们首先定义了一个名为良性显着性的新指标。通过将一阶梯度组合以保持神经元之间的连接,良性显着性可以鉴定出比后门防御中常用度量的高精度的感染神经元。然后,提出了一种新的自适应正则化(AR)机制,以通过微调来帮助净化这些被鉴定的感染神经元。由于能够适应不同参数幅度的能力,与神经元纯化中的共同正则化机制相比,AR可以提供更快,更稳定的收敛性。广泛的实验结果表明,我们的方法可以消除具有可忽略的性能降解的神经网络中的后门。
translated by 谷歌翻译
有监督的深度学习需要大量标记的数据才能实现高性能。但是,在医学成像分析中,每个站点可能只有有限的数据和标签,这使得学习无效。联合学习(FL)可以从分散数据中学习共享模型。但是传统的FL需要全标签的数据进行培训,这非常昂贵。自我监督的对比学习(CL)可以从未标记的数据中学习进行预训练,然后进行微调,以有限的注释。但是,在FL中采用CL时,每个站点上的数据多样性有限,使联合对比度学习(FCL)无效。在这项工作中,我们提出了两个联合自制的学习框架,用于体积医学图像分割,并有限注释。第一个具有高精度,并适合高性能服务器,并具有高速连接。第二个具有较低的通信成本,适用于移动设备。在第一个框架中,在FCL期间交换了功能,以向每个站点提供各种对比度数据,以使本地CL保持原始数据的私密性。全局结构匹配将不同站点之间的统一特征空间保持一致。在第二个框架中,为了降低功能交换的通信成本,我们提出了一种优化的方法FCLOPT,该方法不依赖于负样本。为了减少模型下载的通信,我们提出了预测目标网络参数的预测目标网络更新(PTNU)。基于PTNU,我们建议距离预测(DP)以删除目标网络的大多数上传。在心脏MRI数据集上的实验表明,与最先进的技术相比,提出的两个框架显着改善了分割和泛化性能。
translated by 谷歌翻译