实现一般逆设计可以通过用户定义的属性极大地加速对新材料的发现。然而,最先进的生成模型往往限于特定的组成或晶体结构。这里,我们提出了一种能够一般逆设计的框架(不限于给定的一组元件或晶体结构),其具有在实际和往复空间中编码晶体的广义可逆表示,以及来自变分的属性结构潜空间autoencoder(vae)。在三种设计情况下,该框架通过用户定义的形成能量,带隙,热电(TE)功率因数和组合产生142个新晶体。在训练数据库中缺席的这些生成的晶体通过第一原理计算验证。成功率(验证的第一原理验证的目标圆形晶体/数量的设计晶体)范围为7.1%和38.9%。这些结果表示利用生成模型朝着性质驱动的一般逆设计的重要步骤,尽管在与实验合成结合时仍然存在实际挑战。
translated by 谷歌翻译
数据驱动的机器学习方法有可能显着加速材料设计的速率,而不是传统的人类指导方法。这些方法将有助于识别或在生成模型的情况下,甚至可以创建具有一组指定功能特性的新型材料结构,然后在实验室中合成或隔离。对于晶体结构的产生,关键的瓶颈在于为机器学习模型开发合适的原子结构指纹或表示,类似于分子生成中使用的基于图或微笑的表示。但是,找到对翻译,旋转和排列不变的数据有效表示,而笛卡尔原子坐标仍然是可逆的,仍然是一个持续的挑战。在这里,我们通过采用具有所需的不变的现有的不可糊化表示并开发算法来通过使用自动分化的基于梯度的优化来重建原子坐标,从而提出了一种替代方法。然后,可以将其与生成机器学习模型耦合,该模型在表示空间内生成新材料,而不是在数据范围内的笛卡尔空间中生成新材料。在这项工作中,我们使用以原子为中心的对称函数来实现这种端到端的结构生成方法,作为表示和条件变化自动编码器作为生成模型。我们能够成功地生成亚纳米PT纳米颗粒的新颖和有效的原子结构,作为概念证明。此外,该方法可以很容易地扩展到任何合适的结构表示形式,从而为基于结构的生成提供了强大的,可推广的框架。
translated by 谷歌翻译
产生具有良好稳定性特性的候选晶体结构的有效算法可以在数据驱动的材料发现中起关键作用。在这里,我们表明,晶体扩散变异自动编码器(CDVAE)能够生成高化学和结构多样性和形成能量的二维(2D)材料,这些材料反映了训练结构。具体来说,我们在2615 2D材料上训练CDVAE,其能量上方的凸壳$ \ delta h _ {\ mathrm {hull}} <0.3 $ ev/atom,并生成我们使用密度功能理论(DFT)放松的5003材料。我们还通过系统的元素替代训练结构生成14192个新晶体。我们发现,生成模型和晶格装饰方法是互补和产量材料具有相似稳定性的材料,但晶体结构和化学成分非常不同。总共我们发现11630预测了新的2D材料,其中8599个具有$ \ delta h _ {\ mathrm {hull}} <0.3 $ ev/Atom作为种子结构,而2004年,2004年在Convex Hull的50 MEV之内合成。所有材料的松弛原子结构都可以在开放计算2D材料数据库(C2DB)中获得。我们的工作将CDVAE确定为有效且可靠的晶体生成机器,并显着扩大了2D材料的空间。
translated by 谷歌翻译
发现新材料是一项艰巨的挑战,对人类社会的进步至关重要。基于反复试验实验和计算模拟的常规方法是劳动密集型或昂贵的,取决于专家的启发式知识,成功的方式很大。最近,通过从已知材料数据集中学习隐式知识来生成材料的生成设计模型。但是,这些模型要么适用于特定的材料系统,要么由于其未能将物理规则纳入其模型训练过程而较低。在这里,我们提出了一种基于深度学习的物理学指导的晶体生成模型(PGCGM),以实现具有高结构多样性(多达20种不同空间组)的有效生成材料设计。我们模型的高性能表明了其捕获和利用晶体的对称约束和邻居原子之间的成对原子距离约束的能力。使用数据增强和空间原子聚类和合并,我们的PGCGM模型将整体生成有效性的性能提高了700 \%以上,与FTCP相比,FTCP是最先进的结构生成器之一,与45 \%相比,我们的整体生成有效性性能提高了。我们以前的立方体模型。新生成的晶体材料在原子空间分布和组成多样性方面也显示出更高的质量。我们通过密度功能理论(DFT)计算进一步验证了新的晶体结构。 2,000个中的1,869材料成功地优化了,其中39.6%的形成能量为阴性,5.3 \%的能量库船长小于0.25 eV/原子,表明它们的热力学稳定性和潜在的合成性。 1,869个晶体结构已沉积到卡罗来纳州材料数据库\ url {www.carolinamatdb.org}。
translated by 谷歌翻译
计算催化和机器学习社区在开发用于催化剂发现和设计的机器学习模型方面取得了长足的进步。然而,跨越催化的化学空间的一般机器学习潜力仍然无法触及。一个重大障碍是在广泛的材料中获得访问培训数据的访问。缺乏数据的一类重要材料是氧化物,它抑制模型无法更广泛地研究氧气进化反应和氧化物电催化。为了解决这个问题,我们开发了开放的催化剂2022(OC22)数据集,包括62,521个密度功能理论(DFT)放松(〜9,884,504个单点计算),遍及一系列氧化物材料,覆盖范围,覆盖率和吸附物( *H, *o, *o, *o, *o, *o, * n, *c, *ooh, *oh, *oh2, *o2, *co)。我们定义广义任务,以预测催化过程中适用的总系统能量,发展几个图神经网络的基线性能(Schnet,Dimenet ++,Forcenet,Spinconv,Painn,Painn,Gemnet-DT,Gemnet-DT,Gemnet-OC),并提供预先定义的数据集分割以建立明确的基准,以实现未来的努力。对于所有任务,我们研究组合数据集是否会带来更好的结果,即使它们包含不同的材料或吸附物。具体而言,我们在Open Catalyst 2020(OC20)数据集和OC22上共同训练模型,或OC22上的微调OC20型号。在最一般的任务中,Gemnet-OC看到通过微调来提高了约32%的能量预测,通过联合训练的力预测提高了约9%。令人惊讶的是,OC20和较小的OC22数据集的联合培训也将OC20的总能量预测提高了约19%。数据集和基线模型是开源的,公众排行榜将遵循,以鼓励社区的持续发展,以了解总能源任务和数据。
translated by 谷歌翻译
产生稳定材料的周期性结构是材料设计界的长期挑战。这个任务很难,因为稳定的材料只存在于原子的所有可能的周期性布置的低维子空间中:1)坐标必须位于量子力学限定的局部能量最小,而2)全球稳定性也需要遵循结构不同原子类型之间的复杂,但特定的粘合偏好。现有方法未能纳入这些因素,并且经常缺乏适当的侵略者。我们提出了一种晶体扩散变分性AutoEncoder(CDVAE),其捕获材料稳定性的物理感应偏差。通过从稳定材料的数据分布中学习,解码器在扩散过程中产生材料,其将原子坐标朝向较低能量状态移动并更新原子类型以满足邻居之间的粘接偏好。我们的模型还明确地编码了周期性边界的交互,尊重置换,转换,旋转和周期性修正。我们在三个任务中显着优于过去的方法:1)重建输入结构,2)产生有效,多样化和现实的材料和3)产生优化特定性质的材料。我们还为更广泛的机器学习界提供了几个标准数据集和评估指标。
translated by 谷歌翻译
在药物发现中,分子优化是在所需药物性质方面将药物候选改变为更好的阶梯。随着近期人工智能的进展,传统上的体外过程越来越促进了Silico方法。我们以硅方法提出了一种创新的,以通过深生成模型制定分子并制定问题,以便产生优化的分子图。我们的生成模型遵循基于片段的药物设计的关键思想,并通过修改其小碎片来优化分子。我们的模型了解如何识别待优化的碎片以及如何通过学习具有良好和不良性质的分子的差异来修改此类碎片。在优化新分子时,我们的模型将学习信号应用于在片段的预测位置解码优化的片段。我们还将多个这样的模型构造成管道,使得管道中的每个模型能够优化一个片段,因此整个流水线能够在需要时改变多个分子片段。我们将我们的模型与基准数据集的其他最先进的方法进行比较,并证明我们的方法在中等分子相似度约束下具有超过80%的性质改善,在高分子相似度约束下具有超过80%的财产改善。 。
translated by 谷歌翻译
这是一门专门针对STEM学生开发的介绍性机器学习课程。我们的目标是为有兴趣的读者提供基础知识,以在自己的项目中使用机器学习,并将自己熟悉术语作为进一步阅读相关文献的基础。在这些讲义中,我们讨论受监督,无监督和强化学习。注释从没有神经网络的机器学习方法的说明开始,例如原理分析,T-SNE,聚类以及线性回归和线性分类器。我们继续介绍基本和先进的神经网络结构,例如密集的进料和常规神经网络,经常性的神经网络,受限的玻尔兹曼机器,(变性)自动编码器,生成的对抗性网络。讨论了潜在空间表示的解释性问题,并使用梦和对抗性攻击的例子。最后一部分致力于加强学习,我们在其中介绍了价值功能和政策学习的基本概念。
translated by 谷歌翻译
Practical applications of mechanical metamaterials often involve solving inverse problems where the objective is to find the (multiple) microarchitectures that give rise to a given set of properties. The limited resolution of additive manufacturing techniques often requires solving such inverse problems for specific sizes. One should, therefore, find multiple microarchitectural designs that exhibit the desired properties for a specimen with given dimensions. Moreover, the candidate microarchitectures should be resistant to fatigue and fracture, meaning that peak stresses should be minimized as well. Such a multi-objective inverse design problem is formidably difficult to solve but its solution is the key to real-world applications of mechanical metamaterials. Here, we propose a modular approach titled 'Deep-DRAM' that combines four decoupled models, including two deep learning models (DLM), a deep generative model (DGM) based on conditional variational autoencoders (CVAE), and direct finite element (FE) simulations. Deep-DRAM (deep learning for the design of random-network metamaterials) integrates these models into a unified framework capable of finding many solutions to the multi-objective inverse design problem posed here. The integrated framework first introduces the desired elastic properties to the DGM, which returns a set of candidate designs. The candidate designs, together with the target specimen dimensions are then passed to the DLM which predicts their actual elastic properties considering the specimen size. After a filtering step based on the closeness of the actual properties to the desired ones, the last step uses direct FE simulations to identify the designs with the minimum peak stresses.
translated by 谷歌翻译
与靶蛋白具有高结合亲和力的药物样分子的产生仍然是药物发现中的一项困难和资源密集型任务。现有的方法主要采用强化学习,马尔可夫采样或以高斯过程为指导的深层生成模型,在生成具有高结合亲和力的分子时,通过基于计算量的物理学方法计算出的高结合亲和力。我们提出了对分子(豪华轿车)的潜在构成主义,它通过类似于Inceptionism的技术显着加速了分子的产生。豪华轿车采用序列的两个神经网络采用变异自动编码器生成的潜在空间和性质预测,从而使基于梯度的分子特性更快地基于梯度的反相比。综合实验表明,豪华轿车在基准任务上具有竞争力,并且在产生具有高结合亲和力的类似药物的化合物的新任务上,其最先进的技术表现出了最先进的技术,可针对两个蛋白质靶标达到纳摩尔范围。我们通过对绝对结合能的基于更准确的基于分子动力学的计算来证实这些基于对接的结果,并表明我们生成的类似药物的化合物之一的预测$ k_d $(结合亲和力的量度)为$ 6 \ cdot 10^ {-14} $ m针对人类雌激素受体,远远超出了典型的早期药物候选物和大多数FDA批准的药物的亲和力。代码可从https://github.com/rose-stl-lab/limo获得。
translated by 谷歌翻译
在药物发现中,具有所需生物活性的新分子的合理设计是一项至关重要但具有挑战性的任务,尤其是在治疗新的靶家庭或研究靶标时。在这里,我们提出了PGMG,这是一种用于生物活化分子产生的药效团的深度学习方法。PGMG通过药理的指导提供了一种灵活的策略,以使用训练有素的变异自动编码器在各种情况下生成具有结构多样性的生物活性分子。我们表明,PGMG可以在给定药效团模型的情况下生成匹配的分子,同时保持高度的有效性,独特性和新颖性。在案例研究中,我们证明了PGMG在基于配体和基于结构的药物从头设计以及铅优化方案中生成生物活性分子的应用。总体而言,PGMG的灵活性和有效性使其成为加速药物发现过程的有用工具。
translated by 谷歌翻译
在三维分子结构上运行的计算方法有可能解决生物学和化学的重要问题。特别地,深度神经网络的重视,但它们在生物分子结构域中的广泛采用受到缺乏系统性能基准或统一工具包的限制,用于与分子数据相互作用。为了解决这个问题,我们呈现Atom3D,这是一个新颖的和现有的基准数据集的集合,跨越几个密钥的生物分子。我们为这些任务中的每一个实施多种三维分子学习方法,并表明它们始终如一地提高了基于单维和二维表示的方法的性能。结构的具体选择对于性能至关重要,具有涉及复杂几何形状的任务的三维卷积网络,在需要详细位置信息的系统中表现出良好的图形网络,以及最近开发的设备越多的网络显示出显着承诺。我们的结果表明,许多分子问题符合三维分子学习的增益,并且有可能改善许多仍然过分曝光的任务。为了降低进入并促进现场进一步发展的障碍,我们还提供了一套全面的DataSet处理,模型培训和在我们的开源ATOM3D Python包中的评估工具套件。所有数据集都可以从https://www.atom3d.ai下载。
translated by 谷歌翻译
自从人类文明的早期阶段以来已知的石榴石在现代技术中发现了重要的应用,包括磁性限制,Spintronics,锂电池等。绝大多数实验性的石榴石是氧化物,而探索(实验或理论)在其余的探索中是氧化物化学空间的范围受到限制。一个关键问题是石榴石结构具有较大的原始单位单元格,需要大量的计算资源。为了对新石榴石的完整化学空间进行全面搜索,我们将图形神经网络中的最新进展与高通量计算结合在一起。我们应用机器学习模型来在系统密度功能的计算之前识别电势(meta-)稳定的石榴石系统以验证预测。通过这种方式,我们发现了600多个三元石榴石,距凸壳以下的凸壳距离低于100〜MEV/ATOM,具有各种物理和化学性质。这包括硫化物,氮化物和卤化物石榴石。为此,我们分析电子结构,并讨论电子带隙和电荷平衡的值之间的联系。
translated by 谷歌翻译
人工智能(AI)在过去十年中一直在改变药物发现的实践。各种AI技术已在广泛的应用中使用,例如虚拟筛选和药物设计。在本调查中,我们首先概述了药物发现,并讨论了相关的应用,可以减少到两个主要任务,即分子性质预测和分子产生。然后,我们讨论常见的数据资源,分子表示和基准平台。此外,为了总结AI在药物发现中的进展情况,我们介绍了在调查的论文中包括模型架构和学习范式的相关AI技术。我们预计本调查将作为有兴趣在人工智能和药物发现界面工作的研究人员的指南。我们还提供了GitHub存储库(HTTPS:///github.com/dengjianyuan/survey_survey_au_drug_discovery),其中包含文件和代码,如适用,作为定期更新的学习资源。
translated by 谷歌翻译
可拍照的分子显示了可以使用光访问的两个或多个异构体形式。将这些异构体的电子吸收带分开是选择性解决特定异构体并达到高光稳态状态的关键,同时总体红色转移带来的吸收带可以限制因紫外线暴露而限制材料损害,并增加了光疗法应用中的渗透深度。但是,通过合成设计将这些属性工程为系统仍然是一个挑战。在这里,我们提出了一条数据驱动的发现管道,用于由数据集策划和使用高斯过程的多任务学习支撑的分子照片开关。在对电子过渡波长的预测中,我们证明了使用来自四个Photoswitch转变波长的标签训练的多输出高斯过程(MOGP)产生相对于单任务模型的最强预测性能,并且在操作上超过了时间依赖时间依赖性的密度理论(TD) -dft)就预测的墙壁锁定时间而言。我们通过筛选可商购的可拍摄分子库来实验验证我们提出的方法。通过此屏幕,我们确定了几个图案,这些基序显示了它们的异构体的分离电子吸收带,表现出红移的吸收,并且适用于信息传输和光电学应用。我们的策划数据集,代码以及所有型号均可在https://github.com/ryan-rhys/the-photoswitch-dataset上提供
translated by 谷歌翻译
大型未标记语料库上的预训练的变压器语言模型已产生了最新的最先进的结果,从而导致了自然语言处理,有机分子设计和蛋白质序列的产生。但是,尚未应用这种模型来学习无机材料的组成模式。在这里,我们使用在ICSD,OQMD中存放的材料和材料项目数据库中扩展的公式培训了七种现代变压器模型(GPT,GPT-2,GPT-2,GPT-NEO,GPT-NEO,GPT-J,BLMM,BART和ROBERTA) 。六个不同的数据集,具有/输出非电荷 - 中性或平衡的电负性样品用于对性能进行基准测试,并发现现代变压器模型的产生偏见,以生成材料组成的生成设计。我们的广泛实验表明,基于因果语言模型的材料变形金刚可以产生高达97.54 \%的化学有效材料组合物,即充电中性,而91.40 \%的电负性平衡,与基线相比,它的富集高6倍以上伪随机抽样算法。这些模型还表现出了很高的新颖性,并且它们在新材料发现中的潜力已经证明了它们的能力恢复了留出的材料。我们还发现,可以通过使用精选的训练集(例如高带盖材料)训练模型来量身定制生成的样品的性能。我们的实验还表明,不同模型在生成样品的属性方面都有自己的喜好,并且其运行时间复杂性差异很大。我们已经应用了材料变压器模型来发现一套使用DFT计算验证的新材料。
translated by 谷歌翻译
贝叶斯优化(BO)是用于全局优化昂贵的黑盒功能的流行范式,但是在许多域中,该函数并不完全是黑色框。数据可能具有一些已知的结构(例如对称性)和/或数据生成过程可能是一个复合过程,除优化目标的值外,还可以产生有用的中间或辅助信息。但是,传统上使用的代孕模型,例如高斯工艺(GPS),随数据集大小的规模较差,并且不容易适应已知的结构。取而代之的是,我们使用贝叶斯神经网络,这是具有感应偏见的一类可扩展和灵活的替代模型,将BO扩展到具有高维度的复杂,结构化问题。我们证明了BO在物理和化学方面的许多现实问题,包括使用卷积神经网络对光子晶体材料进行拓扑优化,以及使用图神经网络对分子进行化学性质优化。在这些复杂的任务上,我们表明,就抽样效率和计算成本而言,神经网络通常优于GP作为BO的替代模型。
translated by 谷歌翻译
We report a method to convert discrete representations of molecules to and from a multidimensional continuous representation. This model allows us to generate new molecules for efficient exploration and optimization through open-ended spaces of chemical compounds.
translated by 谷歌翻译
数据驱动的生成机器学习模型最近被出现为最有希望的新材料发现方法之一。虽然发电机型号可以产生数百万候选者,但训练快速准确的机器学习模型至关重要,以滤除具有所需特性的稳定,可合成的材料。然而,通过缺乏不稳定或不合益的样本严重阻碍了构建监督回归或分类筛查模型的努力,这通常不会收集和沉积在诸如ICSD和材料项目(MP)的材料数据库中。与此同时,这些数据库中有很多未标记的数据。在这里,我们提出了一个半监控的深度神经网络(TSDNN)模型,用于高性能形成能量和合成性预测,通过其独特的教师 - 学生双网络架构实现,并有效利用大量未标记数据。对于基于能量基于能量的稳定性筛选,与基线CGCNN回归模型相比,我们的半监控分类器实现了绝对的10.3 \%的准确性改进。对于合成性预测,我们的模型显着增加了基准PU学习从87.9 \%到97.9 \%的真正阳性率使用1/49型号参数。为了进一步证明我们模型的有效性,我们将我们的TSDNN-Energy和Tsdnn-InsteSizability模型与我们的Cubicgan发生器组合起来,以发现新型稳定的立方体结构。我们的模型中的1000个推荐的候选样品,其中512个具有由我们的DFT形成能量计算验证的负面形成能量。我们的实验结果表明,我们的半监督深度神经网络可以在大型生成材料设计中显着提高筛选准确性。
translated by 谷歌翻译
尽管深度强化学习(RL)最近取得了许多成功,但其方法仍然效率低下,这使得在数据方面解决了昂贵的许多问题。我们的目标是通过利用未标记的数据中的丰富监督信号来进行学习状态表示,以解决这一问题。本文介绍了三种不同的表示算法,可以访问传统RL算法使用的数据源的不同子集使用:(i)GRICA受到独立组件分析(ICA)的启发,并训练深层神经网络以输出统计独立的独立特征。输入。 Grica通过最大程度地减少每个功能与其他功能之间的相互信息来做到这一点。此外,格里卡仅需要未分类的环境状态。 (ii)潜在表示预测(LARP)还需要更多的上下文:除了要求状态作为输入外,它还需要先前的状态和连接它们的动作。该方法通过预测当前状态和行动的环境的下一个状态来学习状态表示。预测器与图形搜索算法一起使用。 (iii)重新培训通过训练深层神经网络来学习国家表示,以学习奖励功能的平滑版本。该表示形式用于预处理输入到深度RL,而奖励预测指标用于奖励成型。此方法仅需要环境中的状态奖励对学习表示表示。我们发现,每种方法都有其优势和缺点,并从我们的实验中得出结论,包括无监督的代表性学习在RL解决问题的管道中可以加快学习的速度。
translated by 谷歌翻译