There is increasing adoption of artificial intelligence in drug discovery. However, existing works use machine learning to mainly utilize the chemical structures of molecules yet ignore the vast textual knowledge available in chemistry. Incorporating textual knowledge enables us to realize new drug design objectives, adapt to text-based instructions, and predict complex biological activities. We present a multi-modal molecule structure-text model, MoleculeSTM, by jointly learning molecule's chemical structures and textual descriptions via a contrastive learning strategy. To train MoleculeSTM, we construct the largest multi-modal dataset to date, namely PubChemSTM, with over 280K chemical structure-text pairs. To demonstrate the effectiveness and utility of MoleculeSTM, we design two challenging zero-shot tasks based on text instructions, including structure-text retrieval and molecule editing. MoleculeSTM possesses two main properties: open vocabulary and compositionality via natural language. In experiments, MoleculeSTM obtains the state-of-the-art generalization ability to novel biochemical concepts across various benchmarks.
translated by 谷歌翻译
轨迹预测对于自动驾驶汽车(AV)是必不可少的,以计划正确且安全的驾驶行为。尽管许多先前的作品旨在达到更高的预测准确性,但很少有人研究其方法的对抗性鲁棒性。为了弥合这一差距,我们建议研究数据驱动的轨迹预测系统的对抗性鲁棒性。我们设计了一个基于优化的对抗攻击框架,该框架利用精心设计的可区分动态模型来生成逼真的对抗轨迹。从经验上讲,我们基于最先进的预测模型的对抗性鲁棒性,并表明我们的攻击使通用指标和计划感知指标的预测错误增加了50%以上和37%。我们还表明,我们的攻击可以导致AV在模拟中驶离道路或碰撞到其他车辆中。最后,我们演示了如何使用对抗训练计划来减轻对抗性攻击。
translated by 谷歌翻译
预训练的视觉模型(例如,剪辑)在许多下游任务中显示出有希望的零弹性概括,并具有正确设计的文本提示。最近的作品不依赖手工设计的提示,而是使用下游任务的培训数据来学习提示。虽然有效,但针对领域数据的培训却降低了模型的概括能力,使其无法看到新领域。在这项工作中,我们提出了测试时间提示调整(TPT),该方法可以通过单个测试样本即时学习自适应提示。对于图像分类,TPT通过使用置信度选择最小化熵来优化提示,以便模型在每个测试样本的不同增强视图上都具有一致的预测。在评估对自然分布变化的概括时,TPT平均将零击的TOP-1精度提高了3.6%,超过了先前需要其他特定于任务的训练数据的迅速调整方法。在评估看不见类别的跨数据集泛化时,TPT与使用其他培训数据的最先进方法相当。项目页面:https://azshue.github.io/tpt。
translated by 谷歌翻译
通过生成模型生成具有特定化学和生物学特性的新分子已成为药物发现的有希望的方向。但是,现有的方法需要大型数据集进行广泛的培训/微调,在现实世界中通常无法使用。在这项工作中,我们提出了一个新的基于检索的框架,用于可控分子生成。我们使用一系列的示例分子,即(部分)满足设计标准的分子,以引导预先训练的生成模型转向满足给定设计标准的合成分子。我们设计了一种检索机制,该机制将示例分子与输入分子融合在一起,该分子受到一个新的自我监督目标训练,该目标可以预测输入分子的最近邻居。我们还提出了一个迭代改进过程,以动态更新生成的分子和检索数据库,以更好地泛化。我们的方法不可知生成模型,不需要特定于任务的微调。关于从简单设计标准到设计与SARS-COV-2主蛋白酶结合的铅化合物的具有挑战性的现实世界情景的各种任务,我们证明了我们的方法外推出了远远超出检索数据库,并且比检索数据库更高,并且比更高的性能和更广泛的适用性以前的方法。
translated by 谷歌翻译
3D点云正在成为许多现实世界应用中的关键数据表示形式,例如自动驾驶,机器人技术和医学成像。尽管深度学习的成功进一步加速了物理世界中3D点云的采用,但深度学习因其易受对抗性攻击的脆弱性而臭名昭著。在这项工作中,我们首先确定最先进的经验防御,对抗性训练,由于梯度混淆,在适用于3D点云模型方面有一个重大限制。我们进一步提出了PointDP,这是一种纯化策略,利用扩散模型来防御3D对抗攻击。我们对六个代表性3D点云体系结构进行了广泛的评估,并利用10+强和适应性攻击来证明其较低的稳健性。我们的评估表明,在强烈攻击下,PointDP比最新的纯化方法实现了明显更好的鲁棒性。在不久的将来将包括与PointDP合并的随机平滑验证结果的结果。
translated by 谷歌翻译
使用深神经网络(DNN)的轨迹预测是自主驾驶(AD)系统的重要组成部分。但是,这些方法容易受到对抗攻击的影响,从而导致严重的后果,例如碰撞。在这项工作中,我们确定了两种关键要素,以捍卫轨迹预测模型,以防止(1)设计有效的对抗训练方法,以及(2)添加特定领域的数据增强以减轻清洁数据的性能降低。我们证明,与经过干净数据训练的模型相比,我们的方法能够在对抗数据上的性能提高46%,而在干净数据上只有3%的性能退化。此外,与现有的强大方法相比,我们的方法可以在对抗性示例中提高21%的性能,而在清洁数据上可以提高9%。我们的健壮模型与计划者一起评估,以研究其下游影响。我们证明我们的模型可以大大降低严重的事故率(例如碰撞和越野驾驶)。
translated by 谷歌翻译
通过使用预训练模型的转移学习已成为机器学习社区的增长趋势。因此,在线发布了许多预培训模型,以促进进一步的研究。但是,它引起了人们对这些预训练模型是否会泄露其培训数据的隐私敏感信息的广泛担忧。因此,在这项工作中,我们的目标是回答以下问题:“我们可以有效地从这些预训练的模型中恢复私人信息吗?检索这种敏感信息的足够条件是什么?”我们首先探索不同的统计信息,这些信息可以将私人培训分布与其他分布区分开。根据我们的观察,我们提出了一个新颖的私人数据重建框架Secretgen,以有效地恢复私人信息。与以前可以恢复私人数据的方法与目标恢复实例的真实预测相比,SecretGen不需要此类先验知识,从而使其更加实用。我们在各种情况下对不同数据集进行了广泛的实验,以将Secretgen与其他基线进行比较,并提供系统的基准,以更好地了解不同的辅助信息和优化操作的影响。我们表明,如果没有关于真实班级预测的先验知识,SecretGen能够与利用此类先验知识的私人数据相比恢复具有相似性能的私人数据。如果给出了先验知识,SecretGen将显着优于基线方法。我们还提出了几个定量指标,以进一步量化预培训模型的隐私脆弱性,这将有助于对对隐私敏感应用程序的模型选择。我们的代码可在以下网址提供:https://github.com/ai-secure/secretgen。
translated by 谷歌翻译
Recent studies show that Vision Transformers(ViTs) exhibit strong robustness against various corruptions. Although this property is partly attributed to the self-attention mechanism, there is still a lack of systematic understanding. In this paper, we examine the role of self-attention in learning robust representations. Our study is motivated by the intriguing properties of the emerging visual grouping in Vision Transformers, which indicates that self-attention may promote robustness through improved mid-level representations. We further propose a family of fully attentional networks (FANs) that strengthen this capability by incorporating an attentional channel processing design. We validate the design comprehensively on various hierarchical backbones. Our model achieves a state-of-the-art 87.1% accuracy and 35.8% mCE on ImageNet-1k and ImageNet-C with 76.8M parameters. We also demonstrate state-of-the-art accuracy and robustness in two downstream tasks: semantic segmentation and object detection. Code is available at: https://github.com/NVlabs/FAN.
translated by 谷歌翻译
关于视觉关系的推理对于人类如何解释视觉世界至关重要。对于当前的深度学习算法,这项任务仍然具有挑战性,因为它需要共同解决三个关键技术问题:1)识别对象实体及其属性,2)推断实体对之间的语义关系,以及3)将新颖的对象关系组合推广到新颖的对象组合,即。 ,系统的概括。在这项工作中,我们使用视觉变压器(VIT)作为视觉推理的基础模型,并更好地利用定义为对象实体及其关系的概念来提高VIT的推理能力。具体来说,我们介绍了一种新颖的概念词典,以允许使用概念键在训练时间进行灵活的图像检索。该词典实现了两个新的概念引导辅助任务:1)促进关系推理的全局任务,以及2)促进语义中心对象对应学习的本地任务。为了检查视觉推理模型的系统概括,我们引入了标准HICO和GQA基准测试的系统分裂。我们显示了最终的模型,概念引导的视觉变压器(或简称为简短)在原始拆分中显着优于HICO和GQA的先验方法,在系统拆分中的方法为16%和13%。我们的消融分析还揭示了我们的模型与多个VIT变体和与参数的鲁棒性的兼容性。
translated by 谷歌翻译
数据增强是一种提高深神经网络(DNN)的鲁棒性的简单而有效的方法。多样性和硬度是数据增强的两个互补维度,以实现稳健性。例如,Augmix探讨了各种增强套的随机组成,以增强更广泛的覆盖,而对抗性培训产生过态度硬质样品以发现弱点。通过此激励,我们提出了一个数据增强框架,被称为奥古曼克,统一多样性和硬度的两个方面。 Augmax首先将多个增强运算符进行随机样本,然后学习所选操作员的对抗性混合物。作为更强大的数据增强形式,奥格梅纳队导致了一个明显的增强输入分布,使模型培训更具挑战性。为了解决这个问题,我们进一步设计了一个解散的归一化模块,称为Dubin(双批次和实例规范化),其解除了奥古曼克斯出现的实例 - 明智的特征异质性。实验表明,Augmax-Dubin将显着改善分配的鲁棒性,优于现有技术,在CiFar10-C,CiFar100-C,微小Imagenet-C和Imagenet-C上以3.03%,3.49%,1.82%和0.71%。可提供代码和预磨料模型:https://github.com/vita-group/augmax。
translated by 谷歌翻译