材料科学家越来越多地采用机器学习(ML)来做出潜在的重要决策,例如材料的发现,开发,优化,合成和表征。然而,尽管ML在商业应用中表现出色,但在应用时存在一些独特的挑战。 ML在材料科学中的应用。在这样的背景下,这项工作的贡献是双重的。首先,我们在从未表达/不平衡的材料数据中学习时,找出现有ML技术的常见缺陷。具体而言,我们表明,在平衡数据的情况下,评估ML模型质量的标准方法会破坏并导致误导性结论。此外,我们发现模型的自信度得分不可信,模型内省方法(使用简单模型)没有帮助,因为它们导致预测性能的损失(可靠性 - 可解释性权衡)。其次,为了克服这些挑战,我们提出了一个通用的可解释和可靠的机器学习框架。具体而言,我们提出了一种新型管道,该管道采用更简单模型的集合来可靠地预测材料特性。我们还提出了转移学习技术,并表明通过利用不同材料属性之间的相关性可以克服由于模型简单性造成的性能损失。还提出了新的评估度量和信任分数,以更好地量化预测中的信心。为了提高解释性,我们在我们的框架中添加了一个基本原理生成器组件,它提供了模型级和决策级解释。最后,我们展示了我们的技术在两个应用中的多功能性:1)预测结晶化合物的性质,和2)识别新的可能稳定的太阳能电池材料。
translated by 谷歌翻译
尽管对生成对抗性网络(GAN)越来越感兴趣,但从理论和实际角度来看,训练GAN仍然是一个具有挑战性的问题。为了应对这一挑战,在本文中,我们提出了一种利用真实数据的独特几何结构的新方法,尤其是流形信息。更具体地说,我们设计了一种通过添加称为流量调节器的附加正则化项来规范GANtraining的方法。流形正则化器迫使发生器尊重实际数据流形的独特几何结构并生成高质量数据。此外,我们在理论上证明在任何一类GAN(包括DCGAN和Wasserstein GAN)中添加该正则化项导致在泛化方面的性能提高,存在均衡和稳定性。初步实验表明,所提出的流量规划有助于避免模式崩溃并导致稳定的训练。
translated by 谷歌翻译
解决逆问题仍然是计算机视觉中的核心挑战。现有技术要么使用有关损坏的先验知识明确地构建逆映射,要么使用大量示例直接学习逆。然而,在实践中,腐败的性质可能是未知的,因此规范推理合理解决方案的问题具有挑战性。另一方面,收集任务特定的训练数据对于已知的损坏是繁琐的,对于未知的腐败是不可能的。我们提出了MimicGAN,一种无监督的技术,以生成对抗网络(GAN)的形式解决基于图像先验的一般反转问题。使用GAN之前,我们证明人们可以通过代理网络可靠地恢复解决方案确定的反问题,该代理网络在测试时学会了腐败。我们的系统在不需要监督培训的情况下连续估计出腐败和清洁图像,同时在盲图恢复方面表现优于现有基线。我们还证明了MimicGAN改进了最近基于GAN的对抗adversarialattacks的防御,并且代表了当今最强大的测试时间防御之一。
translated by 谷歌翻译
我们研究了在硬标签黑盒设置中找到通用(图像不可知)扰动tofool机器学习(ML)分类器(例如,神经网络,决策发束)的问题。最近在白盒设置中对抗ML的工作(模型参数已知)已经表明,许多最先进的图像分类器容易受到普遍的对抗性扰动:固定的人类不易察觉的扰动,当添加到任何图像时,会导致它Kurakin等[2016],Szegedy等人高概率地错误分类。 [2013],陈等人。 [2017a],Carlini和Wagner [2017]。本文考虑了一个更加实际和具有挑战性的问题,即在模糊(或黑盒)环境中发现这种普遍的扰动。更具体地说,我们使用零阶优化算法在没有显示模型信息时发现这种通用的对抗性扰动 - 除了攻击者可以进行查询以探测分类器。我们进一步假设查询的输出是所有类的连续值置信度,并考虑输出是硬标签决策的情况。令人惊讶的是,我们发现,即使在这些极端模糊的制度中,最先进的ML分类器也可以通过向任何自然图像添加单个人类不可察觉的图像扰动来愚弄具有非常高的概率。在硬标签黑盒设置中令人惊讶的普遍扰动的存在引起了严重的安全问题,存在通用噪声向量的存在,攻击者可能利用它来破解大多数自然图像上的分类器。
translated by 谷歌翻译
机器学习和相关领域的共同挑战是需要使用少量样本来有效地探索高维参数空间。典型示例是深度学习中的超参数优化和预测建模任务中的采样挖掘。所有这些问题都是在不知道目标函数的情况下对空间进行采样,以及在自适应反馈循环中使用来自先前评估的信息的利用。最近的重点主要集中在开发上,而探索是通过拉丁超立方体或甚至均匀随机抽样等简单设计完成的。在本文中,我们引入了最佳的空间填充样本设计,以有效地探索高维空间。具体而言,我们提出了一个新的参数化样本设计系列,称为空间填充光谱设计,并引入了一个框架来选择给定样本大小和尺寸的最佳设计。此外,我们提出了一种有效的算法来合成给定的光谱设计。最后,我们评估了数据空间和模型空间应用中光谱设计的性能。数据空间探索的目标是恢复高维空间中的复杂回归函数。模型空间探索着重于为给定的神经网络架构选择超参数。我们的实证研究表明,所提出的方法始终优于最先进的技术,特别是对于较小的设计。
translated by 谷歌翻译
深度量度学习旨在学习嵌入式功能,模拟为神经网络。这种嵌入功能通常使语义上的相似性接近,而不同的图像在学习的嵌入空间中相互远离。最近,ensemble已应用于深度度量学习toyield最先进的结果。作为整体的一个重要方面,学习者应该在其特征嵌入中具有多样性。为此,我们提出了一种基于注意力的集合,它使用多个注意力掩模,以便每个学习者可以照顾对象的不同部分。我们还提出了发散损失,它鼓励学习者之间的多样性。该方法应用于深度量学习的标准基准测试,实验结果表明,该方法在图像检索任务中具有显着的优势,优于最先进的方法。
translated by 谷歌翻译