本文重新访问了符号回归的数据集和评估标准,该任务是使用数学方程式表达给定数据的任务,特别关注其科学发现的潜力。专注于基于Feynman物理学讲座的现有数据集中使用的一组公式,我们重新创建了120个数据集,以讨论科学发现(SRSD)符号回归的性能。对于120个SRSD数据集中的每个数据集,我们仔细查看公式及其变量的属性,以设计合理逼真的值的值范围,以便可以使用我们的新SRSD数据集来评估SRSD的潜力,例如SR方法是否是SR方法con(re)从此类数据集中发现物理定律。作为评估度量,我们还建议在预测方程和地面方程树之间使用归一化的编辑距离。虽然现有指标是目标值和SR模型之间的二进制或误差,但标准化的编辑距离评估了地面真相和预测方程树之间的相似性。我们已经使用SRBENCH中的五种最先进的SR方法在新的SRSD数据集上进行了实验,并基于最新的变压器体系结构进行了简单的基线。结果表明,我们提供了更现实的性能评估,并为科学发现开辟了新的基于机器学习的方法。我们的数据集和代码存储库公开可用。
translated by 谷歌翻译
长期以来,科学家一直旨在发现有意义的公式,以准确描述实验数据。一种常见的方法是使用域知识手动创建自然现象的数学模型,然后将这些模型拟合到数据。相比之下,机器学习算法在消耗大量数据的同时可以自动化准确的数据驱动模型的构建。在文献中探讨了对学习模型的功能形式(例如,非负)的逻辑约束的问题。但是,寻找与一般背景知识一致的模型是一个开放的问题。我们开发了一种将逻辑推理与符号回归相结合的方法,从而实现了自然现象模型的原则推导。我们演示了这些概念,用于开普勒的第三个行星运动定律,爱因斯坦的相对论时间稀释定律以及兰穆尔的吸附理论,在每种情况下都会将实验数据与背景理论自动连接起来。我们表明,使用形式的逻辑推理将正确的公式与一组合理公式区分开时,可以从几个数据点发现法律,这些公式在数据上具有相似的错误。推理与机器学习的结合提供了对自然现象的关键方面的可概括见解。我们设想,这种组合将使能够发现基本科学定律,并认为我们的工作是自动化科学方法的关键第一步。
translated by 谷歌翻译
Natural laws are often described through differential equations yet finding a differential equation that describes the governing law underlying observed data is a challenging and still mostly manual task. In this paper we make a step towards the automation of this process: we propose a transformer-based sequence-to-sequence model that recovers scalar autonomous ordinary differential equations (ODEs) in symbolic form from time-series data of a single observed solution of the ODE. Our method is efficiently scalable: after one-time pretraining on a large set of ODEs, we can infer the governing laws of a new observed solution in a few forward passes of the model. Then we show that our model performs better or on par with existing methods in various test cases in terms of accurate symbolic recovery of the ODE, especially for more complex expressions.
translated by 谷歌翻译
基于原子量表的材料建模在新材料的发展及其特性的理解中起着重要作用。粒子模拟的准确性由原子间电位确定,该电位允许计算原子系统的势能作为原子坐标和潜在的其他特性的函数。基于原理的临界电位可以达到任意水平的准确性,但是它们的合理性受其高计算成本的限制。机器学习(ML)最近已成为一种有效的方法,可以通过用经过电子结构数据培训的高效替代物代替昂贵的模型来抵消Ab始于原子电位的高计算成本。在当前大量方法中,符号回归(SR)正在成为一种强大的“白盒”方法,以发现原子质潜力的功能形式。这项贡献讨论了符号回归在材料科学(MS)中的作用,并对当前的方法论挑战和最新结果提供了全面的概述。提出了一种基于遗传编程的方法来建模原子能(由原子位置和相关势能的快照组成),并在从头算电子结构数据上进行了经验验证。
translated by 谷歌翻译
Units equivariance (or units covariance) is the exact symmetry that follows from the requirement that relationships among measured quantities of physics relevance must obey self-consistent dimensional scalings. Here, we express this symmetry in terms of a (non-compact) group action, and we employ dimensional analysis and ideas from equivariant machine learning to provide a methodology for exactly units-equivariant machine learning: For any given learning task, we first construct a dimensionless version of its inputs using classic results from dimensional analysis, and then perform inference in the dimensionless space. Our approach can be used to impose units equivariance across a broad range of machine learning methods which are equivariant to rotations and other groups. We discuss the in-sample and out-of-sample prediction accuracy gains one can obtain in contexts like symbolic regression and emulation, where symmetry is important. We illustrate our approach with simple numerical examples involving dynamical systems in physics and ecology.
translated by 谷歌翻译
物理信息的神经网络(PINN)是神经网络(NNS),它们作为神经网络本身的组成部分编码模型方程,例如部分微分方程(PDE)。如今,PINN是用于求解PDE,分数方程,积分分化方程和随机PDE的。这种新颖的方法已成为一个多任务学习框架,在该框架中,NN必须在减少PDE残差的同时拟合观察到的数据。本文对PINNS的文献进行了全面的综述:虽然该研究的主要目标是表征这些网络及其相关的优势和缺点。该综述还试图将出版物纳入更广泛的基于搭配的物理知识的神经网络,这些神经网络构成了香草·皮恩(Vanilla Pinn)以及许多其他变体,例如物理受限的神经网络(PCNN),各种HP-VPINN,变量HP-VPINN,VPINN,VPINN,变体。和保守的Pinn(CPINN)。该研究表明,大多数研究都集中在通过不同的激活功能,梯度优化技术,神经网络结构和损耗功能结构来定制PINN。尽管使用PINN的应用范围广泛,但通过证明其在某些情况下比有限元方法(FEM)等经典数值技术更可行的能力,但仍有可能的进步,最著名的是尚未解决的理论问题。
translated by 谷歌翻译
象征性回归,即预测从观察其值观察的功能,是一个具有挑战性的任务。在本文中,我们训练变压器来推断整数或浮点数序列的功能或复发关系,人类智商测试中的典型任务几乎不受机器学习文学。我们在OEIS序列子集上评估我们的整数模型,并表明它占据了内置数学函数的复发预测。我们还证明我们的浮动模型能够产生非词汇功能和常量的信息近似,例如,$ \ operatorname {bessel0}(x)\ intem \ frac {\ sin(x)+ \ cos(x)} $和$ 1.644934 \ atthe \ pi ^ 2/6 $。我们模型的互动演示是在HTTPS://bit.ly/3nie5fs提供的。
translated by 谷歌翻译
Surrogate models are necessary to optimize meaningful quantities in physical dynamics as their recursive numerical resolutions are often prohibitively expensive. It is mainly the case for fluid dynamics and the resolution of Navier-Stokes equations. However, despite the fast-growing field of data-driven models for physical systems, reference datasets representing real-world phenomena are lacking. In this work, we develop AirfRANS, a dataset for studying the two-dimensional incompressible steady-state Reynolds-Averaged Navier-Stokes equations over airfoils at a subsonic regime and for different angles of attacks. We also introduce metrics on the stress forces at the surface of geometries and visualization of boundary layers to assess the capabilities of models to accurately predict the meaningful information of the problem. Finally, we propose deep learning baselines on four machine learning tasks to study AirfRANS under different constraints for generalization considerations: big and scarce data regime, Reynolds number, and angle of attack extrapolation.
translated by 谷歌翻译
研究人员对科学发现多年来,研究人员已经实施了观察 - 假设 - 预测 - 实验循环的研究范式。然而,随着MEGA级和毫米科学研究的数据爆炸,有时候很难手动分析数据并提出新的假设来推动科学发现的周期。在本文中,我们介绍了一个可解释的AI辅助范式的科学发现。关键是使用可解释的AI(XAI)来帮助推导数据或模型解释和科学发现。我们展示了如何计算和数据密集型方法 - 以及实验和理论方法 - 可以无缝融合为科学研究。为了展示AI辅助科学发现过程,并为我们历史上一些最伟大的思想付出了尊重,我们展示了Kepler的行星运动和牛顿定律的普遍引力的定律可以通过基于Tycho的(可解释)的AI重新发现Brahe的天文观测数据,其作品在16-17世纪领先科学革命。这项工作还强调了可解释的AI(与黑匣子AI)在科学发现中的重要性,以帮助人类防止或更好地为未来可能发生的技术奇点做好准备。
translated by 谷歌翻译
我们提出了一种基于机器学习的方法来解决运输过程的研究,在连续力学中无处不在,特别关注那些由复杂的微物理学统治的那些现象,对理论调查不切实际,但表现出由闭合的数学表达可以描述的紧急行为。我们的机器学习模型,使用简单组件建造以及若干知名实践,能够学习运输过程的潜在表示,从标称误差表征数据的标称误差导致声音泛化属性,可以比预期更接近地面真理。通过对融合和宇宙等离子体相关的热通量抑制的长期问题的理想研究来证明这一点。 Our analysis shows that the result applies beyond those case specific assumptions and that, in particular, the accuracy of the learned representation is controllable through knowledge of the data quality (error properties) and a suitable choice of the dataset size.虽然学习的表示可以用作数值建模目的的插件,但是也可以利用上述误差分析来获得描述传输机制和理论值的可靠的数学表达式。
translated by 谷歌翻译
在许多科学领域中发现一个有意义的,尺寸同质的,象征性的表达是一个基本挑战。我们提出了一个新颖的开源计算框架,称为科学家机器方程探测器(Scimed),该框架将科学纪律智慧与科学家在循环的方法中融合在一起,并将其与最先进的符号回归(SR)方法相结合。Scimed将基于遗传算法的包装器选择方法与自动机器学习和两个SR方法结合在一起。我们对具有和没有非线性空气动力学阻力的球体沉降的四个配置进行了测试。我们表明,疲惫不堪的人足够坚固,可以从嘈杂的数据中发现正确的物理有意义的符号表达式。我们的结果表明,与最先进的SR软件包相比,这些任务的性能更好。
translated by 谷歌翻译
计算催化和机器学习社区在开发用于催化剂发现和设计的机器学习模型方面取得了长足的进步。然而,跨越催化的化学空间的一般机器学习潜力仍然无法触及。一个重大障碍是在广泛的材料中获得访问培训数据的访问。缺乏数据的一类重要材料是氧化物,它抑制模型无法更广泛地研究氧气进化反应和氧化物电催化。为了解决这个问题,我们开发了开放的催化剂2022(OC22)数据集,包括62,521个密度功能理论(DFT)放松(〜9,884,504个单点计算),遍及一系列氧化物材料,覆盖范围,覆盖率和吸附物( *H, *o, *o, *o, *o, *o, * n, *c, *ooh, *oh, *oh2, *o2, *co)。我们定义广义任务,以预测催化过程中适用的总系统能量,发展几个图神经网络的基线性能(Schnet,Dimenet ++,Forcenet,Spinconv,Painn,Painn,Gemnet-DT,Gemnet-DT,Gemnet-OC),并提供预先定义的数据集分割以建立明确的基准,以实现未来的努力。对于所有任务,我们研究组合数据集是否会带来更好的结果,即使它们包含不同的材料或吸附物。具体而言,我们在Open Catalyst 2020(OC20)数据集和OC22上共同训练模型,或OC22上的微调OC20型号。在最一般的任务中,Gemnet-OC看到通过微调来提高了约32%的能量预测,通过联合训练的力预测提高了约9%。令人惊讶的是,OC20和较小的OC22数据集的联合培训也将OC20的总能量预测提高了约19%。数据集和基线模型是开源的,公众排行榜将遵循,以鼓励社区的持续发展,以了解总能源任务和数据。
translated by 谷歌翻译
多目标符号回归具有优点:虽然学习模型的准确性最大化,但复杂性自动调整,不需要指定a-priori。优化的结果不再是单一解决方案,而是整个帕累托 - 前面描述了准确性和复杂性之间的权衡。在这一贡献中,我们研究了在使用NSGA-II进行多目标优化时,在象征性回归中最适当地使用哪些复杂性度量。此外,我们提出了一种新的复杂性度量,包括基于模型中发生的函数符号的语义信息,并在几个基准数据集中测试其效果。结果比较多种复杂度措施的实现准确性和模型长度来呈现,以说明算法的搜索方向如何受到影响。
translated by 谷歌翻译
Machine learning-based modeling of physical systems has experienced increased interest in recent years. Despite some impressive progress, there is still a lack of benchmarks for Scientific ML that are easy to use but still challenging and representative of a wide range of problems. We introduce PDEBench, a benchmark suite of time-dependent simulation tasks based on Partial Differential Equations (PDEs). PDEBench comprises both code and data to benchmark the performance of novel machine learning models against both classical numerical simulations and machine learning baselines. Our proposed set of benchmark problems contribute the following unique features: (1) A much wider range of PDEs compared to existing benchmarks, ranging from relatively common examples to more realistic and difficult problems; (2) much larger ready-to-use datasets compared to prior work, comprising multiple simulation runs across a larger number of initial and boundary conditions and PDE parameters; (3) more extensible source codes with user-friendly APIs for data generation and baseline results with popular machine learning models (FNO, U-Net, PINN, Gradient-Based Inverse Method). PDEBench allows researchers to extend the benchmark freely for their own purposes using a standardized API and to compare the performance of new models to existing baseline methods. We also propose new evaluation metrics with the aim to provide a more holistic understanding of learning methods in the context of Scientific ML. With those metrics we identify tasks which are challenging for recent ML methods and propose these tasks as future challenges for the community. The code is available at https://github.com/pdebench/PDEBench.
translated by 谷歌翻译
在材料科学中,衍生模型以预测突出材料特性(例如弹性,强度,电导率)及其与加工条件的关系。主要缺点是校准依赖于处理条件的模型参数。目前,必须优化这些参数以拟合测量数据,因为它们与处理条件(例如变形温度,应变率)的关系不完全理解。我们提出了一种新的方法,该方法识别了基于遗传编程的处理条件的校准参数的功能依赖性。我们提出了两个(显式和隐式)方法来识别这些依赖项并生成短暂的可解释表达式。该方法用于扩展基于物理的组成型模型以进行变形过程。该本结构型模型与内部材料变量(例如位错密度)进行操作,并且包含许多参数,其中包括三个校准参数。衍生的表达式扩展了本组件模型并替换校准参数。因此,启用各种处理参数之间的插值。我们的研究结果表明,隐式方法比明确的方法更昂贵,但也产生明显更好的结果。
translated by 谷歌翻译
复杂的系统(恒星,超新星,星系和群集)通常在可观察性质(例如,亮度,速度分散,振荡周期,温度)之间表现出低散射关系。这些缩放关系可以照亮底层物理,可以为估计质量和距离提供观测工具。机器学习可以在抽象的高维参数空间中寻找新的扩展关系(或对现有关系的简单扩展)提供系统的系统。我们使用称为符号回归(SR)的机器学习工具,该工具以分析方程的形式在给定的数据集中绘制模式。我们专注于Sunyaev-Zeldovich Flux $ - $群集质量关系($ Y_ \ MATHRM {SZ} -M $),它会影响来自集群丰富数据的宇宙学参数的推断。使用SR对来自IllustrySTG流体动力学模拟的数据,我们找到了一个新的群集质量代理,它结合了$ Y_ \ MATHRM {SZ} $和电离气体的浓度($ c_ \ mathrm {gas} $):$ m \ propto y_ \ mathrm {ccon} ^ {3/5} \ Equiv y_ \ mathrm {sz} ^ {3/5}(1-a \,c_ \ mathrm {gas})$。 $ y_ \ mathrm {coct} $减少预测$ m $的分散$ \ sim 20-30 $%的大型群集($ m \ gtrsim 10 ^ {14} \,h ^ { - 1} \,m_ \ oott $)在高和低频的高频上,与使用只需$ y_ \ mathrm {sz} $相比。我们表明对$ C_ \ MATHRM {GARS} $的依赖性与展示比其郊区更大的分散的集群核心。最后,我们从骆驼项目的模拟中测试$ y_ \ mathrm {cenc} $ in clusters,并显示$ y_ \ mathrm {crc} $对宇宙学,天体物理学,划分物理学和宇宙方差的变化是稳健的。我们的结果和方法可以用于电流和即将到来的CMB和X射线调查的精确多波长簇质量估计,如ACT,所以,SPT,肌肉和CMB-S4。
translated by 谷歌翻译
符号回归(SR)是一种回归分析,可以自动找到最适合数据的数学表达式。当前,SR基本上仍然依赖各种搜索策略,因此需要针对每个表达式进行特定于样本的模型,这显着限制了模型的概括和效率。受到人类可以根据其曲线推断数学表达的事实的启发,我们提出了符号表达变压器(set),这是从SR的计算机视觉的角度来看,这是一个样本 - 无义模型。具体而言,收集的数据表示为图像,并采用图像标题模型将图像转换为符号表达式。释放了图像域中训练和测试集之间没有重叠的大规模数据集。我们的结果证明了集合的有效性,并提出了基于图像的模型解决挑战性SR问题的有希望的方向。
translated by 谷歌翻译
加固学习算法可以解决动态决策和最优控制问题。通过连续值的状态和输入变量,强化学习算法必须依赖函数近似器来表示值函数和策略映射。常用的数值近似器,如神经网络或基础函数扩展,具有两个主要缺点:它们是黑匣子型号,可以对学习的映射有很小的洞察力,并且他们需要广泛的试验和错误调整它们的超参数。在本文中,我们通过使用符号回归提出了一种以分析表达式的形式构建平滑值函数的新方法。我们介绍了三种离线方法,用于基于状态转换模型查找值函数:符号值迭代,符号策略迭代,以及Bellman方程的直接解决方案。该方法在四个非线性控制问题上说明:速度控制摩擦力控制,单键和双连杆摆动,和磁操作。结果表明,该价值函数产生良好的策略,并紧凑,数学上易行,易于插入其他算法。这使得它们可能适用于进一步分析闭环系统。使用神经网络的替代方法的比较表明,我们的方法优于基于神经网络的方法。
translated by 谷歌翻译
分子模拟的粗粒度(CG)通过将选定的原子分组为伪珠并大幅加速模拟来简化粒子的表示。但是,这种CG程序会导致信息损失,从而使准确的背景映射,即从CG坐标恢复细粒度(FG)坐标,这是一个长期存在的挑战。受生成模型和e象网络的最新进展的启发,我们提出了一个新型模型,该模型严格嵌入了背态转换的重要概率性质和几何一致性要求。我们的模型将FG的不确定性编码为不变的潜在空间,并通过Equivariant卷积将其解码为FG几何形状。为了标准化该领域的评估,我们根据分子动力学轨迹提供了三个综合基准。实验表明,我们的方法始终恢复更现实的结构,并以显着的边距胜过现有的数据驱动方法。
translated by 谷歌翻译
符号回归是识别拟合从黑盒过程中观察到的输出的数学表达式的过程。它通常认为是一个离散的优化问题是NP - 硬。解决问题的前提方法包括神经引导的搜索(例如,使用强化学习)和遗传编程。在这项工作中,我们介绍了一种混合神经引导/基因编程方法来象征性回归和其他组合优化问题。我们提出了一种神经引导组件,用于种子随机重启遗传编程组件的起始群体,逐渐学习更好的起始群体。在许多常见的基准任务中从数据集中恢复底层表达式,我们的方法使用相同的实验设置恢复比最近发布的顶部执行模型更多的表达式65%。我们证明在没有对神经引导的组件上的不相互依存的情况下运行许多遗传编程一代,而不是比两个更强烈地耦合的替代配方更好地对象征性回归更好地执行符号回归。最后,我们介绍了一组新的22个符号回归基准问题,而现有的基准难度增加。源代码在www.github.com/brendenpetersen/deep-symbolic -optimization提供。
translated by 谷歌翻译