多目标符号回归具有优点:虽然学习模型的准确性最大化,但复杂性自动调整,不需要指定a-priori。优化的结果不再是单一解决方案,而是整个帕累托 - 前面描述了准确性和复杂性之间的权衡。在这一贡献中,我们研究了在使用NSGA-II进行多目标优化时,在象征性回归中最适当地使用哪些复杂性度量。此外,我们提出了一种新的复杂性度量,包括基于模型中发生的函数符号的语义信息,并在几个基准数据集中测试其效果。结果比较多种复杂度措施的实现准确性和模型长度来呈现,以说明算法的搜索方向如何受到影响。
translated by 谷歌翻译
形状受限的符号回归(SCSR)允许将先验知识包括在基于数据的建模中。此包含允许确保所得模型更好地反映某些预期行为。预期行为是通过约束来定义的,该约束是指函数形式,例如单调性,凹度,凸度或模型图像边界。除了由于定义了对功能形状的约束而获得更健壮和可靠的模型的优势外,SCSR的使用还可以找到对噪声更强大并具有更好外推行为的模型。本文提出了一种最小化近似误差以及约束违规的方法。明确实施了两种算法NSGA-II和NSGA-III,并在模型质量和运行时相互比较。两种算法都能够处理多个目标,而NSGA-II是一种良好的多目标方法,在具有最新目标的实例上表现良好。 NSGA-III是NSGA-II算法的扩展,并开发出来处理“许多”目标(超过3个目标)的问题。两种算法均在物理教科书中选定的基准实例集上执行。结果表明,两种算法都能够找到很大的解决方案,并且NSGA-III在模型质量方面提供了略有改进。此外,可以使用多目标方法观察到运行时的改进。
translated by 谷歌翻译
语义已成为遗传编程(GP)研究的关键话题。语义是指在数据集上运行时GP个体的输出(行为)。专注于单目标GP中语义多样性的大多数作品表明它在进化搜索方面是非常有益的。令人惊讶的是,在多目标GP(MOGP)中,在语义中进行了小型研究。在这项工作中,我们跨越我们对Mogp中语义的理解,提出SDO:基于语义的距离作为额外标准。这自然鼓励Mogp中的语义多样性。为此,我们在第一个帕累托前面的较密集的区域(最有前途的前沿)找到一个枢轴。然后,这用于计算枢轴与人群中的每个人之间的距离。然后将所得到的距离用作优化以优化以偏及语义分集的额外标准。我们还使用其他基于语义的方法作为基准,称为基于语义相似性的交叉和语义的拥挤距离。此外,我们也使用NSGA-II和SPEA2进行比较。我们使用高度不平衡二进制分类问题,一致地展示我们所提出的SDO方法如何产生更多非主导的解决方案和更好的多样性,导致更好的统计学显着的结果,与其他四种方法相比,使用超卓越症结果作为评估措施。
translated by 谷歌翻译
语义是遗传编程(GP)研究的越来越多的领域,是指执行遗传编程人员的行为输出。这项研究通过提出一种新方法来扩展对语义的当前理解:基于语义的距离作为附加标准(SDO),在迄今为止,多目标GP(MOGP)中的语义研究领域有限有限。我们的工作包括在性能和多样性指标方面对GP进行广泛的分析,使用了另外基于语义的方法,即基于语义相似性的跨界(SCC)和基于语义的拥挤距离(SCD)。每种方法都集成到两个进化的多目标(EMO)框架中:非主导的分类遗传算法II(NSGA-II)和强度帕累托进化算法2(SPEA2),以及三种语义方法,即三种语义方法NSGA-II和SPEA2进行了严格的比较。我们使用高度不平衡的二元分类数据集,我们证明了SDO的新提出的方法始终生成更非主导的解决方案,具有更好的多样性和改进的超量结果。
translated by 谷歌翻译
基于原子量表的材料建模在新材料的发展及其特性的理解中起着重要作用。粒子模拟的准确性由原子间电位确定,该电位允许计算原子系统的势能作为原子坐标和潜在的其他特性的函数。基于原理的临界电位可以达到任意水平的准确性,但是它们的合理性受其高计算成本的限制。机器学习(ML)最近已成为一种有效的方法,可以通过用经过电子结构数据培训的高效替代物代替昂贵的模型来抵消Ab始于原子电位的高计算成本。在当前大量方法中,符号回归(SR)正在成为一种强大的“白盒”方法,以发现原子质潜力的功能形式。这项贡献讨论了符号回归在材料科学(MS)中的作用,并对当前的方法论挑战和最新结果提供了全面的概述。提出了一种基于遗传编程的方法来建模原子能(由原子位置和相关势能的快照组成),并在从头算电子结构数据上进行了经验验证。
translated by 谷歌翻译
在材料科学中,衍生模型以预测突出材料特性(例如弹性,强度,电导率)及其与加工条件的关系。主要缺点是校准依赖于处理条件的模型参数。目前,必须优化这些参数以拟合测量数据,因为它们与处理条件(例如变形温度,应变率)的关系不完全理解。我们提出了一种新的方法,该方法识别了基于遗传编程的处理条件的校准参数的功能依赖性。我们提出了两个(显式和隐式)方法来识别这些依赖项并生成短暂的可解释表达式。该方法用于扩展基于物理的组成型模型以进行变形过程。该本结构型模型与内部材料变量(例如位错密度)进行操作,并且包含许多参数,其中包括三个校准参数。衍生的表达式扩展了本组件模型并替换校准参数。因此,启用各种处理参数之间的插值。我们的研究结果表明,隐式方法比明确的方法更昂贵,但也产生明显更好的结果。
translated by 谷歌翻译
本文重新访问了符号回归的数据集和评估标准,该任务是使用数学方程式表达给定数据的任务,特别关注其科学发现的潜力。专注于基于Feynman物理学讲座的现有数据集中使用的一组公式,我们重新创建了120个数据集,以讨论科学发现(SRSD)符号回归的性能。对于120个SRSD数据集中的每个数据集,我们仔细查看公式及其变量的属性,以设计合理逼真的值的值范围,以便可以使用我们的新SRSD数据集来评估SRSD的潜力,例如SR方法是否是SR方法con(re)从此类数据集中发现物理定律。作为评估度量,我们还建议在预测方程和地面方程树之间使用归一化的编辑距离。虽然现有指标是目标值和SR模型之间的二进制或误差,但标准化的编辑距离评估了地面真相和预测方程树之间的相似性。我们已经使用SRBENCH中的五种最先进的SR方法在新的SRSD数据集上进行了实验,并基于最新的变压器体系结构进行了简单的基线。结果表明,我们提供了更现实的性能评估,并为科学发现开辟了新的基于机器学习的方法。我们的数据集和代码存储库公开可用。
translated by 谷歌翻译
可解释的回归模型对于许多应用程序域很重要,因为它们允许专家了解稀疏数据中变量之间的关系。符号回归通过搜索可以从基本代数函数构建的所有可能的自由形式方程的空间来解决此问题。尽管可以通过这种方式重新发现明确的数学函数,但在搜索过程中确定未知数值常数一直是一个经常被忽略的问题。我们提出了一种新的多目标模因算法,该算法利用了一个可区分的笛卡尔遗传编程编码,以在进化循环期间学习常数。我们表明,这种方法具有竞争力或胜过机器的黑匣子回归模型或用于两个应用的手工设计的拟合:火星表达热力估计和通过陀螺安排确定恒星年龄。
translated by 谷歌翻译
符号回归是识别拟合从黑盒过程中观察到的输出的数学表达式的过程。它通常认为是一个离散的优化问题是NP - 硬。解决问题的前提方法包括神经引导的搜索(例如,使用强化学习)和遗传编程。在这项工作中,我们介绍了一种混合神经引导/基因编程方法来象征性回归和其他组合优化问题。我们提出了一种神经引导组件,用于种子随机重启遗传编程组件的起始群体,逐渐学习更好的起始群体。在许多常见的基准任务中从数据集中恢复底层表达式,我们的方法使用相同的实验设置恢复比最近发布的顶部执行模型更多的表达式65%。我们证明在没有对神经引导的组件上的不相互依存的情况下运行许多遗传编程一代,而不是比两个更强烈地耦合的替代配方更好地对象征性回归更好地执行符号回归。最后,我们介绍了一组新的22个符号回归基准问题,而现有的基准难度增加。源代码在www.github.com/brendenpetersen/deep-symbolic -optimization提供。
translated by 谷歌翻译
已经证明基于梯度的局部优化可以改善符号回归的遗传编程(GP)的结果。几种最先进的GP实现使用了迭代非线性最小二乘(NLS)算法,例如Levenberg-Marquardt算法进行局部优化。NLS算法的有效性取决于优化问题的适当缩放和条件。到目前为止,这在符号回归和GP文献中被忽略了。在这项研究中,我们使用NLS Jacobian矩阵的奇异值分解来确定数字级别和条件数。我们使用GP实施和六个不同的基准数据集执行实验。我们的结果表明,缺乏等级的雅各布矩阵经常出现,并且对于所有数据集。当限制GP树的大小以及在函数集中使用许多非线性函数时,此问题并不那么极端。
translated by 谷歌翻译
由于强烈的非线性系统行为和多个竞争目标,能源系统优化问题很复杂,例如,经济增益与环境影响。此外,大量输入变量和不同的变量类型,例如,连续和分类,是现实世界应用中常见的挑战。在某些情况下,提出的最佳解决方案需要遵守与物理性质或安全关键操作条件相关的显式输入限制。本文提出了一种新的数据驱动策略,使用树集合用于对黑匣子问题的约束多目标优化,与模型或未知的基础系统动态太复杂的异构变量空间。在由合成基准和相关能源应用组成的广泛案例研究中,我们展示了与其他最先进的工具相比,所提出的算法的竞争性能和采样效率,使其成为一个有用的全能解决方案 - 世界申请有限评价预算。
translated by 谷歌翻译
HyperParameter Optimization(HPO)是一种确保机器学习(ML)算法最佳性能的必要步骤。已经开发了几种方法来执行HPO;其中大部分都集中在优化一个性能措施(通常是基于错误的措施),并且在这种单一目标HPO问题上的文献是巨大的。然而,最近似乎似乎侧重于同时优化多个冲突目标的算法。本文提出了对2014年至2020年的文献的系统调查,在多目标HPO算法上发布,区分了基于成逐的算法,Metamodel的算法以及使用两者混合的方法。我们还讨论了用于比较多目标HPO程序和今后的研究方向的质量指标。
translated by 谷歌翻译
由于其良好的特性,诸如高强度重量比,设计灵活性,限量的应力浓度,平面力传递,良好损害耐受性和疲劳性,因此越来越多地应用于各种应用的各种应用。寻找粘合剂粘合过程的最佳过程参数是具有挑战性的:优化是固有的多目标(旨在最大限度地提高断裂强度,同时最小化成本)和受约束(该过程不应导致材料的任何视觉损坏,应应对压力测试不会导致粘附相关的故障。实验室中的现实生活实验需要昂贵;由于评估所需的禁止的实验,传统的进化方法(如遗传算法)被否则适合解决问题。在本研究中,我们成功地应用了特定的机器学习技术(高斯过程回归和逻辑回归),以基于有限量的实验数据来模拟目标和约束函数。该技术嵌入贝叶斯优化算法中,该算法成功地以高效的方式检测静态过程设置(即,需要有限数量的额外实验)。
translated by 谷歌翻译
长期以来,科学家一直旨在发现有意义的公式,以准确描述实验数据。一种常见的方法是使用域知识手动创建自然现象的数学模型,然后将这些模型拟合到数据。相比之下,机器学习算法在消耗大量数据的同时可以自动化准确的数据驱动模型的构建。在文献中探讨了对学习模型的功能形式(例如,非负)的逻辑约束的问题。但是,寻找与一般背景知识一致的模型是一个开放的问题。我们开发了一种将逻辑推理与符号回归相结合的方法,从而实现了自然现象模型的原则推导。我们演示了这些概念,用于开普勒的第三个行星运动定律,爱因斯坦的相对论时间稀释定律以及兰穆尔的吸附理论,在每种情况下都会将实验数据与背景理论自动连接起来。我们表明,使用形式的逻辑推理将正确的公式与一组合理公式区分开时,可以从几个数据点发现法律,这些公式在数据上具有相似的错误。推理与机器学习的结合提供了对自然现象的关键方面的可概括见解。我们设想,这种组合将使能够发现基本科学定律,并认为我们的工作是自动化科学方法的关键第一步。
translated by 谷歌翻译
快速功能提取(FFX)是用于解决符号回归问题的确定性算法。我们通过将参数添加到非线性函数的参数中提高了FFX的准确性。我们不仅可以优化线性参数,还使用可分离的非线性最小二乘优化优化了这些附加的非线性参数,使用变量投影算法优化。FFX和我们的新算法都应用于PenNML基准套件。我们表明,提议的FFX扩展可以提高准确性,同时提供相似长度的模型,并且在给定数据上的运行时仅增加了运行时。将我们的结果与已经为给定基准套件发布的大量回归方法进行了比较。
translated by 谷歌翻译
在许多科学领域中发现一个有意义的,尺寸同质的,象征性的表达是一个基本挑战。我们提出了一个新颖的开源计算框架,称为科学家机器方程探测器(Scimed),该框架将科学纪律智慧与科学家在循环的方法中融合在一起,并将其与最先进的符号回归(SR)方法相结合。Scimed将基于遗传算法的包装器选择方法与自动机器学习和两个SR方法结合在一起。我们对具有和没有非线性空气动力学阻力的球体沉降的四个配置进行了测试。我们表明,疲惫不堪的人足够坚固,可以从嘈杂的数据中发现正确的物理有意义的符号表达式。我们的结果表明,与最先进的SR软件包相比,这些任务的性能更好。
translated by 谷歌翻译
The NSGA-II is one of the most prominent algorithms to solve multi-objective optimization problems. Despite numerous successful applications, several studies have shown that the NSGA-II is less effective for larger numbers of objectives. In this work, we use mathematical runtime analyses to rigorously demonstrate and quantify this phenomenon. We show that even on the simple OneMinMax benchmark, where every solution is Pareto optimal, the NSGA-II also with large population sizes cannot compute the full Pareto front (objective vectors of all Pareto optima) in sub-exponential time when the number of objectives is at least three. Our proofs suggest that the reason for this unexpected behavior lies in the fact that in the computation of the crowding distance, the different objectives are regarded independently. This is not a problem for two objectives, where any sorting of a pair-wise incomparable set of solutions according to one objective is also such a sorting according to the other objective (in the inverse order).
translated by 谷歌翻译
Parallel evolutionary algorithms (PEAs) have been studied for reducing the execution time of evolutionary algorithms by utilizing parallel computing. An asynchronous PEA (APEA) is a scheme of PEAs that increases computational efficiency by generating a new solution immediately after a solution evaluation completes without the idling time of computing nodes. However, because APEA gives more search opportunities to solutions with shorter evaluation times, the evaluation time bias of solutions negatively affects the search performance. To overcome this drawback, this paper proposes a new parent selection method to reduce the effect of evaluation time bias in APEAs. The proposed method considers the search frequency of solutions and selects the parent solutions so that the search progress in the population is uniform regardless of the evaluation time bias. This paper conducts experiments on multi-objective optimization problems that simulate the evaluation time bias. The experiments use NSGA-III, a well-known multi-objective evolutionary algorithm, and compare the proposed method with the conventional synchronous/asynchronous parallelization. The experimental results reveal that the proposed method can reduce the effect of the evaluation time bias while reducing the computing time of the parallel NSGA-III.
translated by 谷歌翻译
本文试图回答以下问题:“我们可以通过预测准确性来学到什么?”实际上,分类是机器学习中最受欢迎的任务之一,并且已经开发出许多损失功能来最大化这一非差异性目标。与过去的损失功能设计的工作不同,在通过实验验证之前,主要是由直觉和理论指导的,我们在这里建议以相反的方式解决此问题:我们试图从实验中提取知识。这种数据驱动的方法类似于物理学中用于从数据中发现一般定律的方法。我们使用符号回归方法自动找到与线性分类器的精度高度相关的数学表达式。在260多个数据集上发现的公式的Pearson相关性为0.96,R2为0.93。更有趣的是,该公式是高度解释的,并确认了以前有关损失设计的各种论文的见解。我们希望这项工作能够开放新的观点,以寻求新的启发式方法,从而深入了解机器学习理论。
translated by 谷歌翻译
Natural laws are often described through differential equations yet finding a differential equation that describes the governing law underlying observed data is a challenging and still mostly manual task. In this paper we make a step towards the automation of this process: we propose a transformer-based sequence-to-sequence model that recovers scalar autonomous ordinary differential equations (ODEs) in symbolic form from time-series data of a single observed solution of the ODE. Our method is efficiently scalable: after one-time pretraining on a large set of ODEs, we can infer the governing laws of a new observed solution in a few forward passes of the model. Then we show that our model performs better or on par with existing methods in various test cases in terms of accurate symbolic recovery of the ODE, especially for more complex expressions.
translated by 谷歌翻译