网络系统中的一个重要问题是检测和删除所谓的恶意节点。在这种情况下,一个关键的考虑因素是检测中的不确定性,加上对网络连接的考虑,这会导致错误地移除良性节点以及无法移除恶意节点而产生间接成本。最近提出的解决这个问题的方法直接解决了这些问题,但具有显着的局限性:它假定决策者对网络上节点的联合恶意概率有准确的了解。这在实践中显然不是这种情况,这种分布有限的证据是最好的估计。为了解决这个问题,我们提出了用于最佳节点移除的分布式鲁棒框架。虽然问题是NP-Hard,但我们提出了一种原理算法技术,可以基于二元性与半定规划松弛相结合来近似解决它。综合使用理论和实证分析,使用合成数据和实际数据,提供了强有力的证据证明非算法方法非常有效,特别是比现有技术更强大。
translated by 谷歌翻译
尽管卷积神经网络在广泛的域中取得了相当大的成功,但最近的研究表明这些域很容易受到小对偶扰动的影响,通常称为对抗性的例子。此外,这些示例已显示出从一个模型到另一个模型的非常便携或可转移,从而实现非常成功的黑盒攻击。我们从两个维度探讨了可转移性和鲁棒性的问题:首先,考虑传统的$ l_p $正则化的影响以及用线性支持向量机(SVM)替换toplayer,其次,将正则化模型组合成一个集合的价值。我们表明,用不同的正则化器训练的模型提出了可转移性的障碍,关于包含整体的模型的部分信息也是如此。
translated by 谷歌翻译
Machine learning (ML) techniques are increasingly common in security applications, such as malware and intrusion detection. However, ML models are often susceptible to evasion attacks, in which an adversary makes changes to the input (such as malware) in order to avoid being detected. A conventional approach to evaluate ML robustness to such attacks, as well as to design robust ML, is by considering simplified feature-space models of attacks, where the attacker changes ML features directly to effect evasion, while minimizing or constraining the magnitude of this change. We investigate the effectiveness of this approach to designing robust ML in the face of attacks that can be realized in actual malware (realizable attacks). We demonstrate that in the context of structure-based PDF malware detection, such techniques appear to have limited effectiveness, but they are effective with content-based detectors. In either case, we show that augmenting the feature space models with conserved features (those that cannot be unilaterally modified without compromising malicious functionality) significantly improves performance. Finally, we show that feature space models enable generalized robustness when faced with a variety of realizable attacks, as compared to classifiers which are tuned to be robust to a specific realizable attack.
translated by 谷歌翻译
开发高性能机器学习模型的关键因素是足够大的数据集的可用性。这项工作的动机是软件即服务(SaaS)公司中出现的应用程序,其中存在来自多个客户公司的众多类似但不相交的数据集。由于隐私问题,在没有明确聚合客户数据集的情况下克服数据不足的挑战,一种解决方案是为每个客户收集更多数据,另一种解决方案是私下聚合来自每个客户数据培训模型的信息。在这项工作中,提出了两种私有模型聚合方法,可以将在其他公司数据集上训练的模型转移到具有有限标记数据的新公司,同时保护每个客户公司的基础个人敏感信息。提出的两种方法基于最先进的私有学习算法:基于差分私有化的基于随机梯度下降和近似极小扰动。我们凭经验表明,通过利用差异私有技术,我们可以启用私有模型聚合和增强数据实用性,同时为隐私提供可证明的数学保证。因此,所提出的方法为SaaS公司及其客户提供了重要的商业价值,特别是作为冷启动问题的解决方案。
translated by 谷歌翻译