对于科学家来说,准确的密度功能的系统开发一直是数十年来的挑战。尽管机器学习(ML)在近似功能中的新兴应用,但所得的ML功能通常包含数十万个参数,这与常规的人类设计的符号符号函数构成了巨大的差距。我们提出了一个新的框架,符号功能进化搜索(SYFES),该搜索会自动以符号形式构造准确的功能,该功能比人类更便宜,并且比其他ML功能更易于评估,并且更易于整合到现有的密度功能理论代码。我们首先表明,没有先验知识,Syfes从头开始重建了已知的功能。然后,我们证明,从现有的功能性$ \ omega $ b9.7亿v演变,Syfes发现了一种新的功能性GAS22(Google Accelated Science 22),在主要组化学数据库的测试集中,大多数分子类型的表现更好( MGCDB84)。我们的框架为利用计算能力的新方向开发了符号密度函数的系统开发。
translated by 谷歌翻译
基于原子量表的材料建模在新材料的发展及其特性的理解中起着重要作用。粒子模拟的准确性由原子间电位确定,该电位允许计算原子系统的势能作为原子坐标和潜在的其他特性的函数。基于原理的临界电位可以达到任意水平的准确性,但是它们的合理性受其高计算成本的限制。机器学习(ML)最近已成为一种有效的方法,可以通过用经过电子结构数据培训的高效替代物代替昂贵的模型来抵消Ab始于原子电位的高计算成本。在当前大量方法中,符号回归(SR)正在成为一种强大的“白盒”方法,以发现原子质潜力的功能形式。这项贡献讨论了符号回归在材料科学(MS)中的作用,并对当前的方法论挑战和最新结果提供了全面的概述。提出了一种基于遗传编程的方法来建模原子能(由原子位置和相关势能的快照组成),并在从头算电子结构数据上进行了经验验证。
translated by 谷歌翻译
Kohn-Sham规则器(KSR)是一种机器学习方法,可在可区分KOHN-MAMH密度功能理论框架内优化物理信息的交换相关功能。通过培训原子系统培训和均衡时分子测试评估KSR的普遍性。我们提出了具有本地,半焦点和非识别功能的ksr的旋转极化版本,用于交换相关功能。我们半象征近似的泛化误差与其他可分辨率的方法相当。我们的非识别功能通过预测测试系统的地面能量来实现任何现有的机器学习功能,其具有2.7毫巴的平均绝对误差。
translated by 谷歌翻译
在许多科学领域中发现一个有意义的,尺寸同质的,象征性的表达是一个基本挑战。我们提出了一个新颖的开源计算框架,称为科学家机器方程探测器(Scimed),该框架将科学纪律智慧与科学家在循环的方法中融合在一起,并将其与最先进的符号回归(SR)方法相结合。Scimed将基于遗传算法的包装器选择方法与自动机器学习和两个SR方法结合在一起。我们对具有和没有非线性空气动力学阻力的球体沉降的四个配置进行了测试。我们表明,疲惫不堪的人足够坚固,可以从嘈杂的数据中发现正确的物理有意义的符号表达式。我们的结果表明,与最先进的SR软件包相比,这些任务的性能更好。
translated by 谷歌翻译
在材料科学中,衍生模型以预测突出材料特性(例如弹性,强度,电导率)及其与加工条件的关系。主要缺点是校准依赖于处理条件的模型参数。目前,必须优化这些参数以拟合测量数据,因为它们与处理条件(例如变形温度,应变率)的关系不完全理解。我们提出了一种新的方法,该方法识别了基于遗传编程的处理条件的校准参数的功能依赖性。我们提出了两个(显式和隐式)方法来识别这些依赖项并生成短暂的可解释表达式。该方法用于扩展基于物理的组成型模型以进行变形过程。该本结构型模型与内部材料变量(例如位错密度)进行操作,并且包含许多参数,其中包括三个校准参数。衍生的表达式扩展了本组件模型并替换校准参数。因此,启用各种处理参数之间的插值。我们的研究结果表明,隐式方法比明确的方法更昂贵,但也产生明显更好的结果。
translated by 谷歌翻译
4月20日至22日,在马德里(西班牙)举行的EVO* 2022会议上提交了末期摘要。这些论文介绍了正在进行的研究和初步结果,这些结果研究了对不同问题的不同方法(主要是进化计算)的应用,其中大多数是现实世界中的方法。
translated by 谷歌翻译
在符号回归任务中探索了相关性作为健身函数的使用,并将性能与典型的RMSE健身函数进行比较。使用与对齐步骤的相关性来结论演变导致RMSE作为适应性函数的显着性能提高。与RMSE相比,使用相关性作为健身函数导致了较少世代的解决方案,并且发现在训练集中需要更少的数据点才能发现正确的方程。Feynman符号回归基准以及其他一些旧的和最近的GP基准问题用于评估性能。
translated by 谷歌翻译
一般计划的合成已成为遗传编程(GP)和人工智能的重要应用领域。代码构建遗传编程(CBGP)是最近引入的一般程序合成的GP方法,它利用反射和一级规格支持可能使用任意数据类型,多态性和从现有代码库中汲取的功能的程序的演变。但是,尚未报告正式描述和CBGP的彻底基准测试。在这项工作中,我们使用类型理论的算法对CBGP的方法进行形式化。特别是,我们表明,功能性编程语言和Hindley-Milner类型系统可用于使用原始CBGP纸中抽象描述的过程来发展类型安全程序。此外,与其他当代GP程序合成方法相比,我们对CBGP的该功能变体的搜索性能进行了全面分析。
translated by 谷歌翻译
机器学习,特别是深度学习方法在许多模式识别和数据处理问题,游戏玩法中都优于人类的能力,现在在科学发现中也起着越来越重要的作用。机器学习在分子科学中的关键应用是通过使用密度函数理论,耦合群或其他量子化学方法获得的电子schr \“ odinger方程的Ab-Initio溶液中的势能表面或力场。我们回顾了一种最新和互补的方法:使用机器学习来辅助从第一原理中直接解决量子化学问题。具体来说,我们专注于使用神经网络ANSATZ功能的量子蒙特卡洛(QMC)方法,以解决电子SCHR \ “ Odinger方程在第一和第二量化中,计算场和激发态,并概括多个核构型。与现有的量子化学方法相比,这些新的深QMC方法具有以相对适度的计算成本生成高度准确的Schr \“ Odinger方程的溶液。
translated by 谷歌翻译
计算催化和机器学习社区在开发用于催化剂发现和设计的机器学习模型方面取得了长足的进步。然而,跨越催化的化学空间的一般机器学习潜力仍然无法触及。一个重大障碍是在广泛的材料中获得访问培训数据的访问。缺乏数据的一类重要材料是氧化物,它抑制模型无法更广泛地研究氧气进化反应和氧化物电催化。为了解决这个问题,我们开发了开放的催化剂2022(OC22)数据集,包括62,521个密度功能理论(DFT)放松(〜9,884,504个单点计算),遍及一系列氧化物材料,覆盖范围,覆盖率和吸附物( *H, *o, *o, *o, *o, *o, * n, *c, *ooh, *oh, *oh2, *o2, *co)。我们定义广义任务,以预测催化过程中适用的总系统能量,发展几个图神经网络的基线性能(Schnet,Dimenet ++,Forcenet,Spinconv,Painn,Painn,Gemnet-DT,Gemnet-DT,Gemnet-OC),并提供预先定义的数据集分割以建立明确的基准,以实现未来的努力。对于所有任务,我们研究组合数据集是否会带来更好的结果,即使它们包含不同的材料或吸附物。具体而言,我们在Open Catalyst 2020(OC20)数据集和OC22上共同训练模型,或OC22上的微调OC20型号。在最一般的任务中,Gemnet-OC看到通过微调来提高了约32%的能量预测,通过联合训练的力预测提高了约9%。令人惊讶的是,OC20和较小的OC22数据集的联合培训也将OC20的总能量预测提高了约19%。数据集和基线模型是开源的,公众排行榜将遵循,以鼓励社区的持续发展,以了解总能源任务和数据。
translated by 谷歌翻译
FIG. 1. Schematic diagram of a Variational Quantum Algorithm (VQA). The inputs to a VQA are: a cost function C(θ), with θ a set of parameters that encodes the solution to the problem, an ansatz whose parameters are trained to minimize the cost, and (possibly) a set of training data {ρ k } used during the optimization. Here, the cost can often be expressed in the form in Eq. ( 3), for some set of functions {f k }. Also, the ansatz is shown as a parameterized quantum circuit (on the left), which is analogous to a neural network (also shown schematically on the right). At each iteration of the loop one uses a quantum computer to efficiently estimate the cost (or its gradients). This information is fed into a classical computer that leverages the power of optimizers to navigate the cost landscape C(θ) and solve the optimization problem in Eq. ( 1). Once a termination condition is met, the VQA outputs an estimate of the solution to the problem. The form of the output depends on the precise task at hand. The red box indicates some of the most common types of outputs.
translated by 谷歌翻译
大多数机器学习算法由一个或多个超参数配置,必须仔细选择并且通常会影响性能。为避免耗时和不可递销的手动试验和错误过程来查找性能良好的超参数配置,可以采用各种自动超参数优化(HPO)方法,例如,基于监督机器学习的重新采样误差估计。本文介绍了HPO后,本文审查了重要的HPO方法,如网格或随机搜索,进化算法,贝叶斯优化,超带和赛车。它给出了关于进行HPO的重要选择的实用建议,包括HPO算法本身,性能评估,如何将HPO与ML管道,运行时改进和并行化结合起来。这项工作伴随着附录,其中包含关于R和Python的特定软件包的信息,以及用于特定学习算法的信息和推荐的超参数搜索空间。我们还提供笔记本电脑,这些笔记本展示了这项工作的概念作为补充文件。
translated by 谷歌翻译
由于控制结构特性关系的分子间相互作用的微妙平衡,预测由分子构建块形成的晶体结构的稳定性是一个高度非平凡的科学问题。一种特别活跃和富有成果的方法涉及对相互作用的化学部分的不同组合进行分类,因为了解不同相互作用的相对能量可以使分子晶体的设计和微调其稳定性。尽管这通常是基于对已知晶体结构中最常见的基序的经验观察进行的,但我们建议采用有监督和无监督的机器学习技术的组合来自动化分子构建块的广泛库。我们介绍了一个针对有机晶体的结合能量预测的结构描述符,并利用以原子为中心的性质来获得对不同化学基团对晶体晶格能量的贡献的数据驱动评估。然后,我们使用结构 - 能量景观的低维表示来解释该库,并讨论可以从本分析中提取的见解的选定示例,从而提供了一个完整的数据库来指导分子材料的设计。
translated by 谷歌翻译
传统的统计技术或元启发式学很难解决大多数现实世界的优化问题。主要困难与存在相当数量的局部Optima有关,这可能导致优化过程的过早收敛性。为了解决这个问题,我们提出了一种新型的启发式方法,用于构建原始功能的平滑替代模型。替代功能更容易优化,但保持原始坚固的健身景观的基本属性:全球最佳的位置。为了创建这样的替代模型,我们考虑通过自我调整健身函数增强的线性遗传编程方法。所提出的称为GP-FST-PSO替代模型的算法在搜索全局最优值和原始基准函数的视觉近似(在二维情况下)的视觉近似都可以达到令人满意的结果。
translated by 谷歌翻译
神经架构搜索(NAS)在神经网络(NN)的设计和部署方面具有显着提高的生产率。由于NAS通常通过部分或完全训练多个模型来评估多个模型,因此提高的生产率是以大量碳足迹为代价的。为了减轻这种昂贵的训练例程,零击/成本代理在初始化时分析了NN以产生分数,这与其真正的准确性高度相关。零成本代理目前是由专家设计的,这些专家对可能的算法,数据集和神经体系结构设计空间进行了多个经验测试。这降低了生产率,并且是对零成本代理设计的一种不可持续的方法,因为深度学习用例本质上多样化。此外,现有的零成本代理无法跨越神经体系结构设计空间。在本文中,我们提出了一个基因编程框架,以自动化发现零成本代理以进行神经体系结构评分。我们的方法有效地发现了一个可解释且可推广的零成本代理,该代理在NASBENCH-2010和网络设计空间(NDS)的所有数据集和搜索空间上提供了最高得分 - 准确性的相关性。我们认为,这项研究表明了自动发现可以跨网络体系结构设计空间,数据集和任务的零成本代理的有希望的方向。
translated by 谷歌翻译
可解释的回归模型对于许多应用程序域很重要,因为它们允许专家了解稀疏数据中变量之间的关系。符号回归通过搜索可以从基本代数函数构建的所有可能的自由形式方程的空间来解决此问题。尽管可以通过这种方式重新发现明确的数学函数,但在搜索过程中确定未知数值常数一直是一个经常被忽略的问题。我们提出了一种新的多目标模因算法,该算法利用了一个可区分的笛卡尔遗传编程编码,以在进化循环期间学习常数。我们表明,这种方法具有竞争力或胜过机器的黑匣子回归模型或用于两个应用的手工设计的拟合:火星表达热力估计和通过陀螺安排确定恒星年龄。
translated by 谷歌翻译
蒙特卡洛树搜索(MCT)是设计游戏机器人或解决顺序决策问题的强大方法。该方法依赖于平衡探索和开发的智能树搜索。MCT以模拟的形式进行随机抽样,并存储动作的统计数据,以在每个随后的迭代中做出更有教育的选择。然而,该方法已成为组合游戏的最新技术,但是,在更复杂的游戏(例如那些具有较高的分支因素或实时系列的游戏)以及各种实用领域(例如,运输,日程安排或安全性)有效的MCT应用程序通常需要其与问题有关的修改或与其他技术集成。这种特定领域的修改和混合方法是本调查的主要重点。最后一项主要的MCT调查已于2012年发布。自发布以来出现的贡献特别感兴趣。
translated by 谷歌翻译
符号回归是识别拟合从黑盒过程中观察到的输出的数学表达式的过程。它通常认为是一个离散的优化问题是NP - 硬。解决问题的前提方法包括神经引导的搜索(例如,使用强化学习)和遗传编程。在这项工作中,我们介绍了一种混合神经引导/基因编程方法来象征性回归和其他组合优化问题。我们提出了一种神经引导组件,用于种子随机重启遗传编程组件的起始群体,逐渐学习更好的起始群体。在许多常见的基准任务中从数据集中恢复底层表达式,我们的方法使用相同的实验设置恢复比最近发布的顶部执行模型更多的表达式65%。我们证明在没有对神经引导的组件上的不相互依存的情况下运行许多遗传编程一代,而不是比两个更强烈地耦合的替代配方更好地对象征性回归更好地执行符号回归。最后,我们介绍了一组新的22个符号回归基准问题,而现有的基准难度增加。源代码在www.github.com/brendenpetersen/deep-symbolic -optimization提供。
translated by 谷歌翻译
电子密度$ \ rho(\ vec {r})$是用密度泛函理论(dft)计算地面能量的基本变量。除了总能量之外,$ \ rho(\ vec {r})$分布和$ \ rho(\ vec {r})$的功能通常用于捕获电子规模以功能材料和分子中的关键物理化学现象。方法提供对$ \ rho(\ vec {r})的可紊乱系统,其具有少量计算成本的复杂无序系统可以是对材料相位空间的加快探索朝向具有更好功能的新材料的逆设计的游戏更换者。我们为预测$ \ rho(\ vec {r})$。该模型基于成本图形神经网络,并且在作为消息传递图的一部分的特殊查询点顶点上预测了电子密度,但仅接收消息。该模型在多个数据组中进行测试,分子(QM9),液体乙烯碳酸酯电解质(EC)和Lixniymnzco(1-Y-Z)O 2锂离子电池阴极(NMC)。对于QM9分子,所提出的模型的准确性超过了从DFT获得的$ \ Rho(\ vec {r})$中的典型变异性,以不同的交换相关功能,并显示超出最先进的准确性。混合氧化物(NMC)和电解质(EC)数据集更好的精度甚至更好。线性缩放模型同时探测成千上万点的能力允许计算$ \ Rho(\ vec {r})$的大型复杂系统,比DFT快于允许筛选无序的功能材料。
translated by 谷歌翻译
对称考虑对于用于提供原子配置的有效数学表示的主要框架的核心,然后在机器学习模型中用于预测与每个结构相关的特性。在大多数情况下,模型依赖于以原子为中心的环境的描述,并且适合于学习可以分解成原子贡献的原子特性或全局观察到。然而,许多与量子机械计算相关的数量 - 最值得注意的是,以原子轨道基础写入时的单粒子哈密顿矩阵 - 与单个中心无关,但结构中有两个(或更多个)原子。我们讨论一系列结构描述符,以概括为N中心案例的非常成功的原子居中密度相关特征,特别是如何应用这种结构,以有效地学习(有效)单粒子汉密尔顿人的矩阵元素以原子为中心的轨道基础。这些N中心的特点是完全的,不仅在转换和旋转方面,而且还就与原子相关的指数的排列而言 - 并且适合于构建新类的对称适应的机器学习模型分子和材料的性质。
translated by 谷歌翻译