Oxidation states are the charges of atoms after their ionic approximation of their bonds, which have been widely used in charge-neutrality verification, crystal structure determination, and reaction estimation. Currently only heuristic rules exist for guessing the oxidation states of a given compound with many exceptions. Recent work has developed machine learning models based on heuristic structural features for predicting the oxidation states of metal ions. However, composition based oxidation state prediction still remains elusive so far, which is more important in new material discovery for which the structures are not even available. This work proposes a novel deep learning based BERT transformer language model BERTOS for predicting the oxidation states of all elements of inorganic compounds given only their chemical composition. Our model achieves 96.82\% accuracy for all-element oxidation states prediction benchmarked on the cleaned ICSD dataset and achieves 97.61\% accuracy for oxide materials. We also demonstrate how it can be used to conduct large-scale screening of hypothetical material compositions for materials discovery.
translated by 谷歌翻译
大型未标记语料库上的预训练的变压器语言模型已产生了最新的最先进的结果,从而导致了自然语言处理,有机分子设计和蛋白质序列的产生。但是,尚未应用这种模型来学习无机材料的组成模式。在这里,我们使用在ICSD,OQMD中存放的材料和材料项目数据库中扩展的公式培训了七种现代变压器模型(GPT,GPT-2,GPT-2,GPT-NEO,GPT-NEO,GPT-J,BLMM,BART和ROBERTA) 。六个不同的数据集,具有/输出非电荷 - 中性或平衡的电负性样品用于对性能进行基准测试,并发现现代变压器模型的产生偏见,以生成材料组成的生成设计。我们的广泛实验表明,基于因果语言模型的材料变形金刚可以产生高达97.54 \%的化学有效材料组合物,即充电中性,而91.40 \%的电负性平衡,与基线相比,它的富集高6倍以上伪随机抽样算法。这些模型还表现出了很高的新颖性,并且它们在新材料发现中的潜力已经证明了它们的能力恢复了留出的材料。我们还发现,可以通过使用精选的训练集(例如高带盖材料)训练模型来量身定制生成的样品的性能。我们的实验还表明,不同模型在生成样品的属性方面都有自己的喜好,并且其运行时间复杂性差异很大。我们已经应用了材料变压器模型来发现一套使用DFT计算验证的新材料。
translated by 谷歌翻译
数据驱动的生成机器学习模型最近被出现为最有希望的新材料发现方法之一。虽然发电机型号可以产生数百万候选者,但训练快速准确的机器学习模型至关重要,以滤除具有所需特性的稳定,可合成的材料。然而,通过缺乏不稳定或不合益的样本严重阻碍了构建监督回归或分类筛查模型的努力,这通常不会收集和沉积在诸如ICSD和材料项目(MP)的材料数据库中。与此同时,这些数据库中有很多未标记的数据。在这里,我们提出了一个半监控的深度神经网络(TSDNN)模型,用于高性能形成能量和合成性预测,通过其独特的教师 - 学生双网络架构实现,并有效利用大量未标记数据。对于基于能量基于能量的稳定性筛选,与基线CGCNN回归模型相比,我们的半监控分类器实现了绝对的10.3 \%的准确性改进。对于合成性预测,我们的模型显着增加了基准PU学习从87.9 \%到97.9 \%的真正阳性率使用1/49型号参数。为了进一步证明我们模型的有效性,我们将我们的TSDNN-Energy和Tsdnn-InsteSizability模型与我们的Cubicgan发生器组合起来,以发现新型稳定的立方体结构。我们的模型中的1000个推荐的候选样品,其中512个具有由我们的DFT形成能量计算验证的负面形成能量。我们的实验结果表明,我们的半监督深度神经网络可以在大型生成材料设计中显着提高筛选准确性。
translated by 谷歌翻译
发现新材料是一项艰巨的挑战,对人类社会的进步至关重要。基于反复试验实验和计算模拟的常规方法是劳动密集型或昂贵的,取决于专家的启发式知识,成功的方式很大。最近,通过从已知材料数据集中学习隐式知识来生成材料的生成设计模型。但是,这些模型要么适用于特定的材料系统,要么由于其未能将物理规则纳入其模型训练过程而较低。在这里,我们提出了一种基于深度学习的物理学指导的晶体生成模型(PGCGM),以实现具有高结构多样性(多达20种不同空间组)的有效生成材料设计。我们模型的高性能表明了其捕获和利用晶体的对称约束和邻居原子之间的成对原子距离约束的能力。使用数据增强和空间原子聚类和合并,我们的PGCGM模型将整体生成有效性的性能提高了700 \%以上,与FTCP相比,FTCP是最先进的结构生成器之一,与45 \%相比,我们的整体生成有效性性能提高了。我们以前的立方体模型。新生成的晶体材料在原子空间分布和组成多样性方面也显示出更高的质量。我们通过密度功能理论(DFT)计算进一步验证了新的晶体结构。 2,000个中的1,869材料成功地优化了,其中39.6%的形成能量为阴性,5.3 \%的能量库船长小于0.25 eV/原子,表明它们的热力学稳定性和潜在的合成性。 1,869个晶体结构已沉积到卡罗来纳州材料数据库\ url {www.carolinamatdb.org}。
translated by 谷歌翻译
计算催化和机器学习社区在开发用于催化剂发现和设计的机器学习模型方面取得了长足的进步。然而,跨越催化的化学空间的一般机器学习潜力仍然无法触及。一个重大障碍是在广泛的材料中获得访问培训数据的访问。缺乏数据的一类重要材料是氧化物,它抑制模型无法更广泛地研究氧气进化反应和氧化物电催化。为了解决这个问题,我们开发了开放的催化剂2022(OC22)数据集,包括62,521个密度功能理论(DFT)放松(〜9,884,504个单点计算),遍及一系列氧化物材料,覆盖范围,覆盖率和吸附物( *H, *o, *o, *o, *o, *o, * n, *c, *ooh, *oh, *oh2, *o2, *co)。我们定义广义任务,以预测催化过程中适用的总系统能量,发展几个图神经网络的基线性能(Schnet,Dimenet ++,Forcenet,Spinconv,Painn,Painn,Gemnet-DT,Gemnet-DT,Gemnet-OC),并提供预先定义的数据集分割以建立明确的基准,以实现未来的努力。对于所有任务,我们研究组合数据集是否会带来更好的结果,即使它们包含不同的材料或吸附物。具体而言,我们在Open Catalyst 2020(OC20)数据集和OC22上共同训练模型,或OC22上的微调OC20型号。在最一般的任务中,Gemnet-OC看到通过微调来提高了约32%的能量预测,通过联合训练的力预测提高了约9%。令人惊讶的是,OC20和较小的OC22数据集的联合培训也将OC20的总能量预测提高了约19%。数据集和基线模型是开源的,公众排行榜将遵循,以鼓励社区的持续发展,以了解总能源任务和数据。
translated by 谷歌翻译
磁性材料是许多技术的重要组成部分,可以推动生态过渡,包括电动机,风力涡轮机发生器和磁性制冷系统。因此,发现具有大磁矩的材料是越来越优先的。在这里,使用最先进的机器学习方法,我们扫描数十万现有材料的无机晶体结构数据库(ICSD),以找到那些铁磁并具有大的磁矩。晶体图卷积神经网络(CGCNN),材料图网络(MEGNET)和随机森林都培训了包含高吞吐量DFT预测结果的材料项目数据库。对于随机林,我们使用随机方法选择基于化学成分和晶体结构的近百个相关描述符。事实证明,为测试集提供与神经网络相当的测试集。这些不同机器学习方法之间的比较给出了对ICSD数据库预测的错误的估计。
translated by 谷歌翻译
自从人类文明的早期阶段以来已知的石榴石在现代技术中发现了重要的应用,包括磁性限制,Spintronics,锂电池等。绝大多数实验性的石榴石是氧化物,而探索(实验或理论)在其余的探索中是氧化物化学空间的范围受到限制。一个关键问题是石榴石结构具有较大的原始单位单元格,需要大量的计算资源。为了对新石榴石的完整化学空间进行全面搜索,我们将图形神经网络中的最新进展与高通量计算结合在一起。我们应用机器学习模型来在系统密度功能的计算之前识别电势(meta-)稳定的石榴石系统以验证预测。通过这种方式,我们发现了600多个三元石榴石,距凸壳以下的凸壳距离低于100〜MEV/ATOM,具有各种物理和化学性质。这包括硫化物,氮化物和卤化物石榴石。为此,我们分析电子结构,并讨论电子带隙和电荷平衡的值之间的联系。
translated by 谷歌翻译
格子振动频率与许多重要的材料属性有关,例如热和导电性以及超导性。然而,使用密度泛函理论(DFT)方法的振动频率的计算计算过于计算地要求大量的材料筛选样本。在这里,我们提出了一种基于深度的基于神经网络的基于神经网络的算法,用于预测具有高精度的晶体结构的晶振频率。我们的算法使用零填充方案来解决振动频谱的变量尺寸。有关15,000和35552个样本的两个数据集的基准研究表明,汇总$ ^ 2 $分别分别达到0.554和0.724。我们的作品展示了深图神经网络的能力,除了输出尺寸是恒定的状态(DOS)和电子DOS的声子密度之外,还可以学习晶体结构的声光谱性能。
translated by 谷歌翻译
电子密度$ \ rho(\ vec {r})$是用密度泛函理论(dft)计算地面能量的基本变量。除了总能量之外,$ \ rho(\ vec {r})$分布和$ \ rho(\ vec {r})$的功能通常用于捕获电子规模以功能材料和分子中的关键物理化学现象。方法提供对$ \ rho(\ vec {r})的可紊乱系统,其具有少量计算成本的复杂无序系统可以是对材料相位空间的加快探索朝向具有更好功能的新材料的逆设计的游戏更换者。我们为预测$ \ rho(\ vec {r})$。该模型基于成本图形神经网络,并且在作为消息传递图的一部分的特殊查询点顶点上预测了电子密度,但仅接收消息。该模型在多个数据组中进行测试,分子(QM9),液体乙烯碳酸酯电解质(EC)和Lixniymnzco(1-Y-Z)O 2锂离子电池阴极(NMC)。对于QM9分子,所提出的模型的准确性超过了从DFT获得的$ \ Rho(\ vec {r})$中的典型变异性,以不同的交换相关功能,并显示超出最先进的准确性。混合氧化物(NMC)和电解质(EC)数据集更好的精度甚至更好。线性缩放模型同时探测成千上万点的能力允许计算$ \ Rho(\ vec {r})$的大型复杂系统,比DFT快于允许筛选无序的功能材料。
translated by 谷歌翻译
光活性虹膜复合物的应用广泛,因为它们的应用从照明到光催化。但是,从精确度和计算成本的角度来看,这些复合物的激发状态性能预测挑战了从头开始方法,例如时间依赖性密度功能理论(TDDFT),使高吞吐量虚拟筛选(HTVS)复杂化。相反,我们利用低成本的机器学习(ML)模型来预测光活性虹膜复合物的激发状态特性。我们使用1,380个虹膜复合物的实验数据来训练和评估ML模型,并确定最佳和最可转移的模型,是从低成本密度功能理论紧密结合计算的电子结构特征训练的模型。使用这些模型,我们预测所考虑的三个激发态性能,即磷光的平均发射能,激发态寿命和发射光谱积分,具有具有或取代TDDFT的精度。我们进行特征重要性分析,以确定哪些虹膜复杂属性控制激发状态的特性,并通过明确的例子来验证这些趋势。为了证明如何将ML模型用于HTV和化学发现的加速度,我们策划了一组新型的假设虹膜络合物,并确定了新磷剂设计的有希望的配体。
translated by 谷歌翻译
蛋白质RNA相互作用对各种细胞活性至关重要。已经开发出实验和计算技术来研究相互作用。由于先前数据库的限制,尤其是缺乏蛋白质结构数据,大多数现有的计算方法严重依赖于序列数据,只有一小部分使用结构信息。最近,alphafold彻底改变了整个蛋白质和生物领域。可预应学,在即将到来的年份,也将显着促进蛋白质-RNA相互作用预测。在这项工作中,我们对该字段进行了彻底的审查,调查绑定站点和绑定偏好预测问题,并覆盖常用的数据集,功能和模型。我们还指出了这一领域的潜在挑战和机遇。本调查总结了过去的RBP-RNA互动领域的发展,并预见到了alphafold时代未来的发展。
translated by 谷歌翻译
在三维分子结构上运行的计算方法有可能解决生物学和化学的重要问题。特别地,深度神经网络的重视,但它们在生物分子结构域中的广泛采用受到缺乏系统性能基准或统一工具包的限制,用于与分子数据相互作用。为了解决这个问题,我们呈现Atom3D,这是一个新颖的和现有的基准数据集的集合,跨越几个密钥的生物分子。我们为这些任务中的每一个实施多种三维分子学习方法,并表明它们始终如一地提高了基于单维和二维表示的方法的性能。结构的具体选择对于性能至关重要,具有涉及复杂几何形状的任务的三维卷积网络,在需要详细位置信息的系统中表现出良好的图形网络,以及最近开发的设备越多的网络显示出显着承诺。我们的结果表明,许多分子问题符合三维分子学习的增益,并且有可能改善许多仍然过分曝光的任务。为了降低进入并促进现场进一步发展的障碍,我们还提供了一套全面的DataSet处理,模型培训和在我们的开源ATOM3D Python包中的评估工具套件。所有数据集都可以从https://www.atom3d.ai下载。
translated by 谷歌翻译
实现一般逆设计可以通过用户定义的属性极大地加速对新材料的发现。然而,最先进的生成模型往往限于特定的组成或晶体结构。这里,我们提出了一种能够一般逆设计的框架(不限于给定的一组元件或晶体结构),其具有在实际和往复空间中编码晶体的广义可逆表示,以及来自变分的属性结构潜空间autoencoder(vae)。在三种设计情况下,该框架通过用户定义的形成能量,带隙,热电(TE)功率因数和组合产生142个新晶体。在训练数据库中缺席的这些生成的晶体通过第一原理计算验证。成功率(验证的第一原理验证的目标圆形晶体/数量的设计晶体)范围为7.1%和38.9%。这些结果表示利用生成模型朝着性质驱动的一般逆设计的重要步骤,尽管在与实验合成结合时仍然存在实际挑战。
translated by 谷歌翻译
机器学习(ML)已经证明了用于准确和结晶材料的准确性能预测的承诺。为了化学结构的高度精确的ML型号的化学结构属性预测,需要具有足够样品的数据集。然而,获得昂贵的化学性质的获得和充分数据可以是昂贵的令人昂贵的,这大大限制了ML模型的性能。通过计算机视觉和黑暗语言处理中数据增强的成功,我们开发了奥古里希姆:数据八级化图书馆化学结构。引入了弃头晶系统和分子的增强方法,其可以对基于指纹的ML模型和图形神经网络(GNNS)进行脱颖而出。我们表明,使用我们的增强策略意义地提高了ML模型的性能,特别是在使用GNNS时,我们开发的增强件在训练期间可以用作广告插件模块,并在用不同的GNN实施时证明了有效性。模型通过Theauglichem图书馆。基于Python的封装我们实现了EugliChem:用于化学结构的数据增强库,可公开获取:https://github.com/baratilab/auglichem.1
translated by 谷歌翻译
The application of superconducting materials is becoming more and more widespread. Traditionally, the discovery of new superconducting materials relies on the experience of experts and a large number of "trial and error" experiments, which not only increases the cost of experiments but also prolongs the period of discovering new superconducting materials. In recent years, machine learning has been increasingly applied to materials science. Based on this, this manuscript proposes the use of XGBoost model to identify superconductors; the first application of deep forest model to predict the critical temperature of superconductors; the first application of deep forest to predict the band gap of materials; and application of a new sub-network model to predict the Fermi energy level of materials. Compared with our known similar literature, all the above algorithms reach state-of-the-art. Finally, this manuscript uses the above models to search the COD public dataset and identify 50 candidate superconducting materials with possible critical temperature greater than 90 K.
translated by 谷歌翻译
机器学习潜力是分子模拟的重要工具,但是由于缺乏高质量数据集来训练它们的发展,它们的开发阻碍了它们。我们描述了Spice数据集,这是一种新的量子化学数据集,用于训练与模拟与蛋白质相互作用的药物样的小分子相关的潜在。它包含超过110万个小分子,二聚体,二肽和溶剂化氨基酸的构象。它包括15个元素,带电和未充电的分子以及广泛的共价和非共价相互作用。它提供了在{\ omega} b97m-d3(bj)/def2-tzVPPD理论水平以及其他有用的数量(例如多极矩和键阶)上计算出的力和能量。我们在其上训练一组机器学习潜力,并证明它们可以在化学空间的广泛区域中实现化学精度。它可以作为创建可转移的,准备使用潜在功能用于分子模拟的宝贵资源。
translated by 谷歌翻译
产生具有良好稳定性特性的候选晶体结构的有效算法可以在数据驱动的材料发现中起关键作用。在这里,我们表明,晶体扩散变异自动编码器(CDVAE)能够生成高化学和结构多样性和形成能量的二维(2D)材料,这些材料反映了训练结构。具体来说,我们在2615 2D材料上训练CDVAE,其能量上方的凸壳$ \ delta h _ {\ mathrm {hull}} <0.3 $ ev/atom,并生成我们使用密度功能理论(DFT)放松的5003材料。我们还通过系统的元素替代训练结构生成14192个新晶体。我们发现,生成模型和晶格装饰方法是互补和产量材料具有相似稳定性的材料,但晶体结构和化学成分非常不同。总共我们发现11630预测了新的2D材料,其中8599个具有$ \ delta h _ {\ mathrm {hull}} <0.3 $ ev/Atom作为种子结构,而2004年,2004年在Convex Hull的50 MEV之内合成。所有材料的松弛原子结构都可以在开放计算2D材料数据库(C2DB)中获得。我们的工作将CDVAE确定为有效且可靠的晶体生成机器,并显着扩大了2D材料的空间。
translated by 谷歌翻译
We discover a robust self-supervised strategy tailored towards molecular representations for generative masked language models through a series of tailored, in-depth ablations. Using this pre-training strategy, we train BARTSmiles, a BART-like model with an order of magnitude more compute than previous self-supervised molecular representations. In-depth evaluations show that BARTSmiles consistently outperforms other self-supervised representations across classification, regression, and generation tasks setting a new state-of-the-art on 11 tasks. We then quantitatively show that when applied to the molecular domain, the BART objective learns representations that implicitly encode our downstream tasks of interest. For example, by selecting seven neurons from a frozen BARTSmiles, we can obtain a model having performance within two percentage points of the full fine-tuned model on task Clintox. Lastly, we show that standard attribution interpretability methods, when applied to BARTSmiles, highlight certain substructures that chemists use to explain specific properties of molecules. The code and the pretrained model are publicly available.
translated by 谷歌翻译
自我监督的神经语言模型最近在有机分子和蛋白质序列的生成设计中发现了广泛的应用,以及用于下游结构分类和功能预测的表示学习。但是,大多数现有的分子设计深度学习模型通常都需要一个大数据集并具有黑盒架构,这使得很难解释其设计逻辑。在这里,我们提出了生成分子变压器(GMTRANSFORMER),这是一种用于分子生成设计的概率神经网络模型。我们的模型建立在最初用于文本处理的空白填充语言模型上,该模型在学习具有高质量生成,可解释性和数据效率的“分子语法”方面具有独特的优势。与其他基线相比,我们的模型在摩西数据集上的基准测试后获得了高新颖性和SCAF。概率生成步骤具有修补分子设计的潜力,因为它们有能力推荐如何通过学习的隐式分子化学指导,并通过解释来修饰现有分子。可以在https://github.com/usccolumbia/gmtransformer上自由访问源代码和数据集
translated by 谷歌翻译
人工智能(AI)已被广泛应用于药物发现中,其主要任务是分子财产预测。尽管分子表示学习中AI技术的繁荣,但尚未仔细检查分子性质预测的一些关键方面。在这项研究中,我们对三个代表性模型,即随机森林,莫尔伯特和格罗弗进行了系统比较,该模型分别利用了三个主要的分子表示,扩展连接的指纹,微笑的字符串和分子图。值得注意的是,莫尔伯特(Molbert)和格罗弗(Grover)以自我监督的方式在大规模的无标记分子库中进行了预定。除了常用的分子基准数据集外,我们还组装了一套与阿片类药物相关的数据集进行下游预测评估。我们首先对标签分布和结构分析进行了数据集分析;我们还检查了阿片类药物相关数据集中的活动悬崖问题。然后,我们培训了4,320个预测模型,并评估了学习表示的有用性。此外,我们通过研究统计测试,评估指标和任务设置的效果来探索模型评估。最后,我们将化学空间的概括分解为施加间和支柱内的概括,并测量了预测性能,以评估两种设置下模型的普遍性。通过采取这种喘息,我们反映了分子财产预测的基本关键方面,希望在该领域带来更好的AI技术的意识。
translated by 谷歌翻译