大型未标记语料库上的预训练的变压器语言模型已产生了最新的最先进的结果,从而导致了自然语言处理,有机分子设计和蛋白质序列的产生。但是,尚未应用这种模型来学习无机材料的组成模式。在这里,我们使用在ICSD,OQMD中存放的材料和材料项目数据库中扩展的公式培训了七种现代变压器模型(GPT,GPT-2,GPT-2,GPT-NEO,GPT-NEO,GPT-J,BLMM,BART和ROBERTA) 。六个不同的数据集,具有/输出非电荷 - 中性或平衡的电负性样品用于对性能进行基准测试,并发现现代变压器模型的产生偏见,以生成材料组成的生成设计。我们的广泛实验表明,基于因果语言模型的材料变形金刚可以产生高达97.54 \%的化学有效材料组合物,即充电中性,而91.40 \%的电负性平衡,与基线相比,它的富集高6倍以上伪随机抽样算法。这些模型还表现出了很高的新颖性,并且它们在新材料发现中的潜力已经证明了它们的能力恢复了留出的材料。我们还发现,可以通过使用精选的训练集(例如高带盖材料)训练模型来量身定制生成的样品的性能。我们的实验还表明,不同模型在生成样品的属性方面都有自己的喜好,并且其运行时间复杂性差异很大。我们已经应用了材料变压器模型来发现一套使用DFT计算验证的新材料。
translated by 谷歌翻译
Oxidation states are the charges of atoms after their ionic approximation of their bonds, which have been widely used in charge-neutrality verification, crystal structure determination, and reaction estimation. Currently only heuristic rules exist for guessing the oxidation states of a given compound with many exceptions. Recent work has developed machine learning models based on heuristic structural features for predicting the oxidation states of metal ions. However, composition based oxidation state prediction still remains elusive so far, which is more important in new material discovery for which the structures are not even available. This work proposes a novel deep learning based BERT transformer language model BERTOS for predicting the oxidation states of all elements of inorganic compounds given only their chemical composition. Our model achieves 96.82\% accuracy for all-element oxidation states prediction benchmarked on the cleaned ICSD dataset and achieves 97.61\% accuracy for oxide materials. We also demonstrate how it can be used to conduct large-scale screening of hypothetical material compositions for materials discovery.
translated by 谷歌翻译
自我监督的神经语言模型最近在有机分子和蛋白质序列的生成设计中发现了广泛的应用,以及用于下游结构分类和功能预测的表示学习。但是,大多数现有的分子设计深度学习模型通常都需要一个大数据集并具有黑盒架构,这使得很难解释其设计逻辑。在这里,我们提出了生成分子变压器(GMTRANSFORMER),这是一种用于分子生成设计的概率神经网络模型。我们的模型建立在最初用于文本处理的空白填充语言模型上,该模型在学习具有高质量生成,可解释性和数据效率的“分子语法”方面具有独特的优势。与其他基线相比,我们的模型在摩西数据集上的基准测试后获得了高新颖性和SCAF。概率生成步骤具有修补分子设计的潜力,因为它们有能力推荐如何通过学习的隐式分子化学指导,并通过解释来修饰现有分子。可以在https://github.com/usccolumbia/gmtransformer上自由访问源代码和数据集
translated by 谷歌翻译
产生稳定材料的周期性结构是材料设计界的长期挑战。这个任务很难,因为稳定的材料只存在于原子的所有可能的周期性布置的低维子空间中:1)坐标必须位于量子力学限定的局部能量最小,而2)全球稳定性也需要遵循结构不同原子类型之间的复杂,但特定的粘合偏好。现有方法未能纳入这些因素,并且经常缺乏适当的侵略者。我们提出了一种晶体扩散变分性AutoEncoder(CDVAE),其捕获材料稳定性的物理感应偏差。通过从稳定材料的数据分布中学习,解码器在扩散过程中产生材料,其将原子坐标朝向较低能量状态移动并更新原子类型以满足邻居之间的粘接偏好。我们的模型还明确地编码了周期性边界的交互,尊重置换,转换,旋转和周期性修正。我们在三个任务中显着优于过去的方法:1)重建输入结构,2)产生有效,多样化和现实的材料和3)产生优化特定性质的材料。我们还为更广泛的机器学习界提供了几个标准数据集和评估指标。
translated by 谷歌翻译
发现新材料是一项艰巨的挑战,对人类社会的进步至关重要。基于反复试验实验和计算模拟的常规方法是劳动密集型或昂贵的,取决于专家的启发式知识,成功的方式很大。最近,通过从已知材料数据集中学习隐式知识来生成材料的生成设计模型。但是,这些模型要么适用于特定的材料系统,要么由于其未能将物理规则纳入其模型训练过程而较低。在这里,我们提出了一种基于深度学习的物理学指导的晶体生成模型(PGCGM),以实现具有高结构多样性(多达20种不同空间组)的有效生成材料设计。我们模型的高性能表明了其捕获和利用晶体的对称约束和邻居原子之间的成对原子距离约束的能力。使用数据增强和空间原子聚类和合并,我们的PGCGM模型将整体生成有效性的性能提高了700 \%以上,与FTCP相比,FTCP是最先进的结构生成器之一,与45 \%相比,我们的整体生成有效性性能提高了。我们以前的立方体模型。新生成的晶体材料在原子空间分布和组成多样性方面也显示出更高的质量。我们通过密度功能理论(DFT)计算进一步验证了新的晶体结构。 2,000个中的1,869材料成功地优化了,其中39.6%的形成能量为阴性,5.3 \%的能量库船长小于0.25 eV/原子,表明它们的热力学稳定性和潜在的合成性。 1,869个晶体结构已沉积到卡罗来纳州材料数据库\ url {www.carolinamatdb.org}。
translated by 谷歌翻译
产生具有良好稳定性特性的候选晶体结构的有效算法可以在数据驱动的材料发现中起关键作用。在这里,我们表明,晶体扩散变异自动编码器(CDVAE)能够生成高化学和结构多样性和形成能量的二维(2D)材料,这些材料反映了训练结构。具体来说,我们在2615 2D材料上训练CDVAE,其能量上方的凸壳$ \ delta h _ {\ mathrm {hull}} <0.3 $ ev/atom,并生成我们使用密度功能理论(DFT)放松的5003材料。我们还通过系统的元素替代训练结构生成14192个新晶体。我们发现,生成模型和晶格装饰方法是互补和产量材料具有相似稳定性的材料,但晶体结构和化学成分非常不同。总共我们发现11630预测了新的2D材料,其中8599个具有$ \ delta h _ {\ mathrm {hull}} <0.3 $ ev/Atom作为种子结构,而2004年,2004年在Convex Hull的50 MEV之内合成。所有材料的松弛原子结构都可以在开放计算2D材料数据库(C2DB)中获得。我们的工作将CDVAE确定为有效且可靠的晶体生成机器,并显着扩大了2D材料的空间。
translated by 谷歌翻译
数据驱动的生成机器学习模型最近被出现为最有希望的新材料发现方法之一。虽然发电机型号可以产生数百万候选者,但训练快速准确的机器学习模型至关重要,以滤除具有所需特性的稳定,可合成的材料。然而,通过缺乏不稳定或不合益的样本严重阻碍了构建监督回归或分类筛查模型的努力,这通常不会收集和沉积在诸如ICSD和材料项目(MP)的材料数据库中。与此同时,这些数据库中有很多未标记的数据。在这里,我们提出了一个半监控的深度神经网络(TSDNN)模型,用于高性能形成能量和合成性预测,通过其独特的教师 - 学生双网络架构实现,并有效利用大量未标记数据。对于基于能量基于能量的稳定性筛选,与基线CGCNN回归模型相比,我们的半监控分类器实现了绝对的10.3 \%的准确性改进。对于合成性预测,我们的模型显着增加了基准PU学习从87.9 \%到97.9 \%的真正阳性率使用1/49型号参数。为了进一步证明我们模型的有效性,我们将我们的TSDNN-Energy和Tsdnn-InsteSizability模型与我们的Cubicgan发生器组合起来,以发现新型稳定的立方体结构。我们的模型中的1000个推荐的候选样品,其中512个具有由我们的DFT形成能量计算验证的负面形成能量。我们的实验结果表明,我们的半监督深度神经网络可以在大型生成材料设计中显着提高筛选准确性。
translated by 谷歌翻译
发现更适合特定目的的新材料是提高人类生活质量的重要问题。这里,提出了一种神经网络,其建议基于对化学语言的深刻理解符合一些所需条件的神经网络(生成的化学变压器,GCT)。 GCT中的注意机制允许更深入地了解超出化学语言本身的局限性的分子结构,这使得语义不连续性稀疏地对角色造成了注意力。通过定量评估所生成的分子的质量,研究了语言模型对逆分子设计问题的重要性。 GCT产生高度现实的化学串,满足化学和语言语法规则。从生成的字符串解析的分子同时满足多个目标属性并因单个条件集而变化。通过加速所需物质发现的过程,这些进展将有助于提高人类生活质量。
translated by 谷歌翻译
The prediction of protein structures from sequences is an important task for function prediction, drug design, and related biological processes understanding. Recent advances have proved the power of language models (LMs) in processing the protein sequence databases, which inherit the advantages of attention networks and capture useful information in learning representations for proteins. The past two years have witnessed remarkable success in tertiary protein structure prediction (PSP), including evolution-based and single-sequence-based PSP. It seems that instead of using energy-based models and sampling procedures, protein language model (pLM)-based pipelines have emerged as mainstream paradigms in PSP. Despite the fruitful progress, the PSP community needs a systematic and up-to-date survey to help bridge the gap between LMs in the natural language processing (NLP) and PSP domains and introduce their methodologies, advancements and practical applications. To this end, in this paper, we first introduce the similarities between protein and human languages that allow LMs extended to pLMs, and applied to protein databases. Then, we systematically review recent advances in LMs and pLMs from the perspectives of network architectures, pre-training strategies, applications, and commonly-used protein databases. Next, different types of methods for PSP are discussed, particularly how the pLM-based architectures function in the process of protein folding. Finally, we identify challenges faced by the PSP community and foresee promising research directions along with the advances of pLMs. This survey aims to be a hands-on guide for researchers to understand PSP methods, develop pLMs and tackle challenging problems in this field for practical purposes.
translated by 谷歌翻译
实现一般逆设计可以通过用户定义的属性极大地加速对新材料的发现。然而,最先进的生成模型往往限于特定的组成或晶体结构。这里,我们提出了一种能够一般逆设计的框架(不限于给定的一组元件或晶体结构),其具有在实际和往复空间中编码晶体的广义可逆表示,以及来自变分的属性结构潜空间autoencoder(vae)。在三种设计情况下,该框架通过用户定义的形成能量,带隙,热电(TE)功率因数和组合产生142个新晶体。在训练数据库中缺席的这些生成的晶体通过第一原理计算验证。成功率(验证的第一原理验证的目标圆形晶体/数量的设计晶体)范围为7.1%和38.9%。这些结果表示利用生成模型朝着性质驱动的一般逆设计的重要步骤,尽管在与实验合成结合时仍然存在实际挑战。
translated by 谷歌翻译
动机:针对感兴趣的蛋白质的新颖化合物的发展是制药行业中最重要的任务之一。深层生成模型已应用于靶向分子设计,并显示出令人鼓舞的结果。最近,靶标特异性分子的产生被视为蛋白质语言与化学语言之间的翻译。但是,这种模型受相互作用蛋白质配对的可用性的限制。另一方面,可以使用大量未标记的蛋白质序列和化学化合物,并已用于训练学习有用表示的语言模型。在这项研究中,我们提出了利用预审核的生化语言模型以初始化(即温暖的开始)目标分子产生模型。我们研究了两种温暖的开始策略:(i)一种一阶段策略,其中初始化模型是针对靶向分子生成(ii)的两阶段策略进行培训的,该策略包含对分子生成的预处理,然后进行目标特定训练。我们还比较了两种生成化合物的解码策略:光束搜索和采样。结果:结果表明,温暖启动的模型的性能优于从头开始训练的基线模型。相对于基准广泛使用的指标,这两种拟议的温暖启动策略相互取得了相似的结果。然而,对许多新蛋白质生成的化合物进行对接评估表明,单阶段策略比两阶段策略更好地概括了。此外,我们观察到,在对接评估和基准指标中,梁搜索的表现优于采样,用于评估复合质量。可用性和实施​​:源代码可在https://github.com/boun-tabi/biochemical-lms-for-drug-design和材料中获得,并在Zenodo归档,网址为https://doi.org/10.5281/zenodo .6832145
translated by 谷歌翻译
人工智能(AI)在过去十年中一直在改变药物发现的实践。各种AI技术已在广泛的应用中使用,例如虚拟筛选和药物设计。在本调查中,我们首先概述了药物发现,并讨论了相关的应用,可以减少到两个主要任务,即分子性质预测和分子产生。然后,我们讨论常见的数据资源,分子表示和基准平台。此外,为了总结AI在药物发现中的进展情况,我们介绍了在调查的论文中包括模型架构和学习范式的相关AI技术。我们预计本调查将作为有兴趣在人工智能和药物发现界面工作的研究人员的指南。我们还提供了GitHub存储库(HTTPS:///github.com/dengjianyuan/survey_survey_au_drug_discovery),其中包含文件和代码,如适用,作为定期更新的学习资源。
translated by 谷歌翻译
In this work, we propose MEDICO, a Multi-viEw Deep generative model for molecule generation, structural optimization, and the SARS-CoV-2 Inhibitor disCOvery. To the best of our knowledge, MEDICO is the first-of-this-kind graph generative model that can generate molecular graphs similar to the structure of targeted molecules, with a multi-view representation learning framework to sufficiently and adaptively learn comprehensive structural semantics from targeted molecular topology and geometry. We show that our MEDICO significantly outperforms the state-of-the-art methods in generating valid, unique, and novel molecules under benchmarking comparisons. In particular, we showcase the multi-view deep learning model enables us to generate not only the molecules structurally similar to the targeted molecules but also the molecules with desired chemical properties, demonstrating the strong capability of our model in exploring the chemical space deeply. Moreover, case study results on targeted molecule generation for the SARS-CoV-2 main protease (Mpro) show that by integrating molecule docking into our model as chemical priori, we successfully generate new small molecules with desired drug-like properties for the Mpro, potentially accelerating the de novo design of Covid-19 drugs. Further, we apply MEDICO to the structural optimization of three well-known Mpro inhibitors (N3, 11a, and GC376) and achieve ~88% improvement in their binding affinity to Mpro, demonstrating the application value of our model for the development of therapeutics for SARS-CoV-2 infection.
translated by 谷歌翻译
在药物发现中,具有所需生物活性的新分子的合理设计是一项至关重要但具有挑战性的任务,尤其是在治疗新的靶家庭或研究靶标时。在这里,我们提出了PGMG,这是一种用于生物活化分子产生的药效团的深度学习方法。PGMG通过药理的指导提供了一种灵活的策略,以使用训练有素的变异自动编码器在各种情况下生成具有结构多样性的生物活性分子。我们表明,PGMG可以在给定药效团模型的情况下生成匹配的分子,同时保持高度的有效性,独特性和新颖性。在案例研究中,我们证明了PGMG在基于配体和基于结构的药物从头设计以及铅优化方案中生成生物活性分子的应用。总体而言,PGMG的灵活性和有效性使其成为加速药物发现过程的有用工具。
translated by 谷歌翻译
通过生成模型生成具有特定化学和生物学特性的新分子已成为药物发现的有希望的方向。但是,现有的方法需要大型数据集进行广泛的培训/微调,在现实世界中通常无法使用。在这项工作中,我们提出了一个新的基于检索的框架,用于可控分子生成。我们使用一系列的示例分子,即(部分)满足设计标准的分子,以引导预先训练的生成模型转向满足给定设计标准的合成分子。我们设计了一种检索机制,该机制将示例分子与输入分子融合在一起,该分子受到一个新的自我监督目标训练,该目标可以预测输入分子的最近邻居。我们还提出了一个迭代改进过程,以动态更新生成的分子和检索数据库,以更好地泛化。我们的方法不可知生成模型,不需要特定于任务的微调。关于从简单设计标准到设计与SARS-COV-2主蛋白酶结合的铅化合物的具有挑战性的现实世界情景的各种任务,我们证明了我们的方法外推出了远远超出检索数据库,并且比检索数据库更高,并且比更高的性能和更广泛的适用性以前的方法。
translated by 谷歌翻译
Despite significant progress of generative models in the natural sciences, their controllability remains challenging. One fundamentally missing aspect of molecular or protein generative models is an inductive bias that can reflect continuous properties of interest. To that end, we propose the Regression Transformer (RT), a novel method that abstracts regression as a conditional sequence modeling problem. This introduces a new paradigm of multitask language models which seamlessly bridge sequence regression and conditional sequence generation. We thoroughly demonstrate that, despite using a nominal-scale training objective, the RT matches or surpasses the performance of conventional regression models in property prediction tasks of small molecules, proteins and chemical reactions. Critically, priming the same model with continuous properties yields a highly competitive conditional generative model that outperforms specialized approaches in a substructure-constrained, property-driven molecule generation benchmark. Our dichotomous approach is facilitated by a novel, alternating training scheme that enables the model to decorate seed sequences by desired properties, e.g., to optimize reaction yield. In sum, the RT is the first report of a multitask model that concurrently excels at predictive and generative tasks in biochemistry. This finds particular application in property-driven, local exploration of the chemical or protein space and could pave the road toward foundation models in material design. The code to reproduce all experiments of the paper is available at: https://github.com/IBM/regression-transformer
translated by 谷歌翻译
数据驱动的机器学习方法有可能显着加速材料设计的速率,而不是传统的人类指导方法。这些方法将有助于识别或在生成模型的情况下,甚至可以创建具有一组指定功能特性的新型材料结构,然后在实验室中合成或隔离。对于晶体结构的产生,关键的瓶颈在于为机器学习模型开发合适的原子结构指纹或表示,类似于分子生成中使用的基于图或微笑的表示。但是,找到对翻译,旋转和排列不变的数据有效表示,而笛卡尔原子坐标仍然是可逆的,仍然是一个持续的挑战。在这里,我们通过采用具有所需的不变的现有的不可糊化表示并开发算法来通过使用自动分化的基于梯度的优化来重建原子坐标,从而提出了一种替代方法。然后,可以将其与生成机器学习模型耦合,该模型在表示空间内生成新材料,而不是在数据范围内的笛卡尔空间中生成新材料。在这项工作中,我们使用以原子为中心的对称函数来实现这种端到端的结构生成方法,作为表示和条件变化自动编码器作为生成模型。我们能够成功地生成亚纳米PT纳米颗粒的新颖和有效的原子结构,作为概念证明。此外,该方法可以很容易地扩展到任何合适的结构表示形式,从而为基于结构的生成提供了强大的,可推广的框架。
translated by 谷歌翻译
We discover a robust self-supervised strategy tailored towards molecular representations for generative masked language models through a series of tailored, in-depth ablations. Using this pre-training strategy, we train BARTSmiles, a BART-like model with an order of magnitude more compute than previous self-supervised molecular representations. In-depth evaluations show that BARTSmiles consistently outperforms other self-supervised representations across classification, regression, and generation tasks setting a new state-of-the-art on 11 tasks. We then quantitatively show that when applied to the molecular domain, the BART objective learns representations that implicitly encode our downstream tasks of interest. For example, by selecting seven neurons from a frozen BARTSmiles, we can obtain a model having performance within two percentage points of the full fine-tuned model on task Clintox. Lastly, we show that standard attribution interpretability methods, when applied to BARTSmiles, highlight certain substructures that chemists use to explain specific properties of molecules. The code and the pretrained model are publicly available.
translated by 谷歌翻译
机器学习潜力是分子模拟的重要工具,但是由于缺乏高质量数据集来训练它们的发展,它们的开发阻碍了它们。我们描述了Spice数据集,这是一种新的量子化学数据集,用于训练与模拟与蛋白质相互作用的药物样的小分子相关的潜在。它包含超过110万个小分子,二聚体,二肽和溶剂化氨基酸的构象。它包括15个元素,带电和未充电的分子以及广泛的共价和非共价相互作用。它提供了在{\ omega} b97m-d3(bj)/def2-tzVPPD理论水平以及其他有用的数量(例如多极矩和键阶)上计算出的力和能量。我们在其上训练一组机器学习潜力,并证明它们可以在化学空间的广泛区域中实现化学精度。它可以作为创建可转移的,准备使用潜在功能用于分子模拟的宝贵资源。
translated by 谷歌翻译
格子振动频率与许多重要的材料属性有关,例如热和导电性以及超导性。然而,使用密度泛函理论(DFT)方法的振动频率的计算计算过于计算地要求大量的材料筛选样本。在这里,我们提出了一种基于深度的基于神经网络的基于神经网络的算法,用于预测具有高精度的晶体结构的晶振频率。我们的算法使用零填充方案来解决振动频谱的变量尺寸。有关15,000和35552个样本的两个数据集的基准研究表明,汇总$ ^ 2 $分别分别达到0.554和0.724。我们的作品展示了深图神经网络的能力,除了输出尺寸是恒定的状态(DOS)和电子DOS的声子密度之外,还可以学习晶体结构的声光谱性能。
translated by 谷歌翻译