分类器通常在时间约束的设置中使用,其中必须将标签分配给快速输入。为了解决这些方案,预算的多级分类器(MSC)通过一系列部分特征获取和评估步骤,直到可以进行自信的预测,通过一系列部分特征获取和评估步骤输入。这允许快速评估,可以在时间关键实例中预防昂贵的不必要的特征获取。然而,MSCs的性能对几个设计方面非常敏感 - 使这些系统的优化成为一个重要但困难的问题。为了近似最初的难以应变的组合问题,电流对MSC配置的方法依赖于良好的代理损失函数占两个主要目标(处理成本,错误)。这些方法在许多情况下证明是有用的,但受到分析限制(凸,平滑等)的限制,并且不管理额外的性能目标。值得注意的是,这些方法没有明确地解释实时检测系统的一个重要方面 - 满足风险厌恶监视器施加的一些置信标准的“可接受”预测的比率。本文提出了一种特定于特定于问题的遗传算法的EMSCO,其包括终端拒绝选项,以便犹豫不决预测,并将MSC设计视为具有不同目标的进化优化问题(准确性,成本,覆盖)。该算法的设计强调了Pareto效率,同时尊重通过独特的标定化概念聚合性能的概念。进行实验以展示EMSCO在各种θ(k ^ n)解决方案空间中找到全球最佳的能力,并且多个实验表明EMSCO与替代预算方法具有竞争力。
translated by 谷歌翻译
算法配置(AC)与对参数化算法最合适的参数配置的自动搜索有关。目前,文献中提出了各种各样的交流问题变体和方法。现有评论没有考虑到AC问题的所有衍生物,也没有提供完整的分类计划。为此,我们引入分类法以分别描述配置方法的交流问题和特征。我们回顾了分类法的镜头中现有的AC文献,概述相关的配置方法的设计选择,对比方法和问题变体相互对立,并描述行业中的AC状态。最后,我们的评论为研究人员和从业人员提供了AC领域的未来研究方向。
translated by 谷歌翻译
大多数机器学习算法由一个或多个超参数配置,必须仔细选择并且通常会影响性能。为避免耗时和不可递销的手动试验和错误过程来查找性能良好的超参数配置,可以采用各种自动超参数优化(HPO)方法,例如,基于监督机器学习的重新采样误差估计。本文介绍了HPO后,本文审查了重要的HPO方法,如网格或随机搜索,进化算法,贝叶斯优化,超带和赛车。它给出了关于进行HPO的重要选择的实用建议,包括HPO算法本身,性能评估,如何将HPO与ML管道,运行时改进和并行化结合起来。这项工作伴随着附录,其中包含关于R和Python的特定软件包的信息,以及用于特定学习算法的信息和推荐的超参数搜索空间。我们还提供笔记本电脑,这些笔记本展示了这项工作的概念作为补充文件。
translated by 谷歌翻译
超参数优化构成了典型的现代机器学习工作流程的很大一部分。这是由于这样一个事实,即机器学习方法和相应的预处理步骤通常只有在正确调整超参数时就会产生最佳性能。但是在许多应用中,我们不仅有兴趣仅仅为了预测精度而优化ML管道;确定最佳配置时,必须考虑其他指标或约束,从而导致多目标优化问题。由于缺乏知识和用于多目标超参数优化的知识和容易获得的软件实现,因此通常在实践中被忽略。在这项工作中,我们向读者介绍了多个客观超参数优化的基础知识,并激励其在应用ML中的实用性。此外,我们从进化算法和贝叶斯优化的领域提供了现有优化策略的广泛调查。我们说明了MOO在几个特定ML应用中的实用性,考虑了诸如操作条件,预测时间,稀疏,公平,可解释性和鲁棒性之类的目标。
translated by 谷歌翻译
语义已成为遗传编程(GP)研究的关键话题。语义是指在数据集上运行时GP个体的输出(行为)。专注于单目标GP中语义多样性的大多数作品表明它在进化搜索方面是非常有益的。令人惊讶的是,在多目标GP(MOGP)中,在语义中进行了小型研究。在这项工作中,我们跨越我们对Mogp中语义的理解,提出SDO:基于语义的距离作为额外标准。这自然鼓励Mogp中的语义多样性。为此,我们在第一个帕累托前面的较密集的区域(最有前途的前沿)找到一个枢轴。然后,这用于计算枢轴与人群中的每个人之间的距离。然后将所得到的距离用作优化以优化以偏及语义分集的额外标准。我们还使用其他基于语义的方法作为基准,称为基于语义相似性的交叉和语义的拥挤距离。此外,我们也使用NSGA-II和SPEA2进行比较。我们使用高度不平衡二进制分类问题,一致地展示我们所提出的SDO方法如何产生更多非主导的解决方案和更好的多样性,导致更好的统计学显着的结果,与其他四种方法相比,使用超卓越症结果作为评估措施。
translated by 谷歌翻译
基准套件提供了对进化算法解决问题能力的有用度量,但是组成问题通常太复杂了,无法清洁算法的优势和劣势。在这里,我们介绍了基准套件档案(``进化运行中的选择方案的诊断概述''),以实证分析有关剥削和探索重要方面的选择方案。利用从根本上是攀岩,但我们考虑两种情况:纯剥削,可以独立优化表示形式中的每个位置,并且受到限制的利用,在该位置之间,由于位置之间的相互作用,向上进展更加有限。当优化路径不太清楚时,需要探索;我们认为能够遵循多个独立的爬山途径和跨健身山谷的能力。这些场景的每种组合都会产生独特的适应性景观,有助于表征与给定选择方案相关的进化动力学。我们分析了六个流行的选择方案。锦标赛的选择和截断选择都在剥削指标方面表现出色,但在需要探索时表现不佳;相反,新颖的搜索在探索方面表现出色,但未能利用梯度。在克服欺骗时,健身共享表现良好,但在所有其他诊断方面都很差。非主导的分类是维持由居住在多个Optima居住的个体组成的不同人群的最佳选择,但努力有效利用梯度。词汇酶选择平衡搜索空间探索而不牺牲剥削,通常在诊断方面表现良好。我们的工作证明了诊断对快速建立对选择方案特征的直观理解的价值,然后可以将其用于改进或开发新的选择方法。
translated by 谷歌翻译
我们介绍了数据科学预测生命周期中各个阶段开发和采用自动化的技术和文化挑战的说明概述,从而将重点限制为使用结构化数据集的监督学习。此外,我们回顾了流行的开源Python工具,这些工具实施了针对自动化挑战的通用解决方案模式,并突出了我们认为进步仍然需要的差距。
translated by 谷歌翻译
聚类算法的全面基准是困难的两个关键因素:(i)〜这种无监督的学习方法的独特数学定义和(ii)〜某些聚类算法采用的生成模型或群集标准之间的依赖性的依赖性内部集群验证。因此,对严格基准测试的最佳做法没有达成共识,以及是否有可能在给定申请的背景之外。在这里,我们认为合成数据集必须继续在群集算法的评估中发挥重要作用,但这需要构建适当地涵盖影响聚类算法性能的各种属性集的基准。通过我们的框架,我们展示了重要的角色进化算法,以支持灵活的这种基准,允许简单的修改和扩展。我们说明了我们框架的两种可能用途:(i)〜基准数据的演变与一组手派生属性和(ii)〜生成梳理给定对算法之间的性能差异的数据集。我们的作品对设计集群基准的设计具有足够挑战广泛算法的集群基准,并进一步了解特定方法的优势和弱点。
translated by 谷歌翻译
本文考虑了在分解正常形式(DNF,ANDS的DNF,ANDS,相当于判定规则集)或联合正常形式(CNF,ORS)作为分类模型的联合正常形式的学习。为规则简化,将整数程序配制成最佳贸易分类准确性。我们还考虑公平设定,并扩大制定,以包括对两种不同分类措施的明确限制:机会平等和均等的赔率。列生成(CG)用于有效地搜索候选条款(连词或剖钉)的指数数量,而不需要启发式规则挖掘。此方法还会绑定所选规则集之间的间隙和培训数据上的最佳规则集。要处理大型数据集,我们建议使用随机化的近似CG算法。与三个最近提出的替代方案相比,CG算法主导了16个数据集中的8个中的精度简单折衷。当最大限度地提高精度时,CG与为此目的设计的规则学习者具有竞争力,有时发现明显更简单的解决方案,这些解决方案不太准确。与其他公平和可解释的分类器相比,我们的方法能够找到符合较严格的公平概念的规则集,以适度的折衷准确性。
translated by 谷歌翻译
HyperParameter Optimization(HPO)是一种确保机器学习(ML)算法最佳性能的必要步骤。已经开发了几种方法来执行HPO;其中大部分都集中在优化一个性能措施(通常是基于错误的措施),并且在这种单一目标HPO问题上的文献是巨大的。然而,最近似乎似乎侧重于同时优化多个冲突目标的算法。本文提出了对2014年至2020年的文献的系统调查,在多目标HPO算法上发布,区分了基于成逐的算法,Metamodel的算法以及使用两者混合的方法。我们还讨论了用于比较多目标HPO程序和今后的研究方向的质量指标。
translated by 谷歌翻译
非主导的分类遗传算法II(NSGA-II)是现实应用中最强烈使用的多目标进化算法(MOEA)。然而,与几个通过数学手段分析的几个简单的MOES相反,到目前为止,NSGA-II也不存在这种研究。在这项工作中,我们表明,数学运行时分析也可用于NSGA-II。结果,我们证明,由于持续因素大于帕累托前方大小的人口大小,具有两个经典突变算子的NSGA-II和三种不同的选择父母的方式满足与Semo和GSEMO相同的渐近运行时保证基本ineminmax和Lotz基准函数的算法。但是,如果人口大小仅等于帕累托前面的大小,那么NSGA-II就无法有效地计算完整的帕累托前部(对于指数迭代,人口总是错过帕累托前部的恒定分数) 。我们的实验证实了上述研究结果。
translated by 谷歌翻译
由于强烈的非线性系统行为和多个竞争目标,能源系统优化问题很复杂,例如,经济增益与环境影响。此外,大量输入变量和不同的变量类型,例如,连续和分类,是现实世界应用中常见的挑战。在某些情况下,提出的最佳解决方案需要遵守与物理性质或安全关键操作条件相关的显式输入限制。本文提出了一种新的数据驱动策略,使用树集合用于对黑匣子问题的约束多目标优化,与模型或未知的基础系统动态太复杂的异构变量空间。在由合成基准和相关能源应用组成的广泛案例研究中,我们展示了与其他最先进的工具相比,所提出的算法的竞争性能和采样效率,使其成为一个有用的全能解决方案 - 世界申请有限评价预算。
translated by 谷歌翻译
可以将多任务学习(MTL)范例追溯到Caruana(1997)的早期纸张中,其中表示可以使用来自多个任务的数据,其目的是在独立地学习每个任务的旨在获得更好的性能。 MTL与相互矛盾的目标的解决方案需要在它们中进行折衷,这通常超出了直线组合可以实现的。理论上原则和计算有效的策略正在寻找不受他人主导的解决方案,因为它在帕累托分析中解决了它。多任务学习环境中产生的多目标优化问题具有特定的功能,需要adhoc方法。对这些特征的分析和新的计算方法的提议代表了这项工作的重点。多目标进化算法(MOEAS)可以容易地包括优势的概念,因此可以分析。 MOEAS的主要缺点是关于功能评估的低样本效率。此缺点的关键原因是大多数进化方法不使用模型来近似于目标函数。贝叶斯优化采用基于代理模型的完全不同的方法,例如高斯过程。在本文中,输入空间中的解决方案表示为封装功能评估中包含的知识的概率分布。在这种概率分布的空间中,赋予由Wassersein距离给出的度量,可以设计一种新的算法MOEA / WST,其中模型不直接在目标函数上,而是在输入空间中的对象的中间信息空间中被映射成直方图。计算结果表明,MoEA / WST提供的样品效率和帕累托集的质量明显优于标准MoEa。
translated by 谷歌翻译
Explicitly accounting for uncertainties is paramount to the safety of engineering structures. Optimization which is often carried out at the early stage of the structural design offers an ideal framework for this task. When the uncertainties are mainly affecting the objective function, robust design optimization is traditionally considered. This work further assumes the existence of multiple and competing objective functions that need to be dealt with simultaneously. The optimization problem is formulated by considering quantiles of the objective functions which allows for the combination of both optimality and robustness in a single metric. By introducing the concept of common random numbers, the resulting nested optimization problem may be solved using a general-purpose solver, herein the non-dominated sorting genetic algorithm (NSGA-II). The computational cost of such an approach is however a serious hurdle to its application in real-world problems. We therefore propose a surrogate-assisted approach using Kriging as an inexpensive approximation of the associated computational model. The proposed approach consists of sequentially carrying out NSGA-II while using an adaptively built Kriging model to estimate the quantiles. Finally, the methodology is adapted to account for mixed categorical-continuous parameters as the applications involve the selection of qualitative design parameters as well. The methodology is first applied to two analytical examples showing its efficiency. The third application relates to the selection of optimal renovation scenarios of a building considering both its life cycle cost and environmental impact. It shows that when it comes to renovation, the heating system replacement should be the priority.
translated by 谷歌翻译
决策树学习是机器学习中广泛使用的方法,在需要简洁明了的模型的应用中受到青睐。传统上,启发式方法用于快速生产具有相当高准确性的模型。然而,一个普遍的批评是,从精度和大小方面,所产生的树可能不一定是数据的最佳表示。近年来,这激发了最佳分类树算法的发展,这些算法与执行一系列本地最佳决策的启发式方法相比,在全球范围内优化决策树。我们遵循这一工作线,并提供了一种基于动态编程和搜索的最佳分类树的新颖算法。我们的算法支持对树的深度和节点数量的约束。我们方法的成功归因于一系列专门技术,这些技术利用了分类树独有的属性。传统上,最佳分类树的算法受到了高运行时的困扰和有限的可伸缩性,但我们在一项详细的实验研究中表明,我们的方法仅使用最先进的时间所需的时间,并且可以处理数十个数据集的数据集在数千个实例中,提供了几个数量级的改进,并特别有助于实现最佳决策树的实现。
translated by 谷歌翻译
作为一种预测模型的评分系统具有可解释性和透明度的显着优势,并有助于快速决策。因此,评分系统已广泛用于各种行业,如医疗保健和刑事司法。然而,这些模型中的公平问题长期以来一直受到批评,并且使用大数据和机器学习算法在评分系统的构建中提高了这个问题。在本文中,我们提出了一般框架来创建公平知识,数据驱动评分系统。首先,我们开发一个社会福利功能,融入了效率和群体公平。然后,我们将社会福利最大化问题转换为机器学习中的风险最小化任务,并在混合整数编程的帮助下导出了公平感知评分系统。最后,导出了几种理论界限用于提供参数选择建议。我们拟议的框架提供了适当的解决方案,以解决进程中的分组公平问题。它使政策制定者能够设置和定制其所需的公平要求以及其他特定于应用程序的约束。我们用几个经验数据集测试所提出的算法。实验证据支持拟议的评分制度在实现利益攸关方的最佳福利以及平衡可解释性,公平性和效率的需求方面的有效性。
translated by 谷歌翻译
Performance of machine learning algorithms depends critically on identifying a good set of hyperparameters. While recent approaches use Bayesian optimization to adaptively select configurations, we focus on speeding up random search through adaptive resource allocation and early-stopping. We formulate hyperparameter optimization as a pure-exploration nonstochastic infinite-armed bandit problem where a predefined resource like iterations, data samples, or features is allocated to randomly sampled configurations. We introduce a novel algorithm, Hyperband, for this framework and analyze its theoretical properties, providing several desirable guarantees. Furthermore, we compare Hyperband with popular Bayesian optimization methods on a suite of hyperparameter optimization problems. We observe that Hyperband can provide over an order-of-magnitude speedup over our competitor set on a variety of deep-learning and kernel-based learning problems.
translated by 谷歌翻译
In today's uncertain and competitive market, where enterprises are subjected to increasingly shortened product life-cycles and frequent volume changes, reconfigurable manufacturing systems (RMS) applications play a significant role in the manufacturing industry's success. Despite the advantages offered by RMS, achieving a high-efficiency degree constitutes a challenging task for stakeholders and decision-makers when they face the trade-off decisions inherent in these complex systems. This study addresses work tasks and resource allocations to workstations together with buffer capacity allocation in RMS. The aim is to simultaneously maximize throughput and minimize total buffer capacity under fluctuating production volumes and capacity changes while considering the stochastic behavior of the system. An enhanced simulation-based multi-objective optimization (SMO) approach with customized simulation and optimization components is proposed to address the abovementioned challenges. Apart from presenting the optimal solutions subject to volume and capacity changes, the proposed approach support decision-makers with discovered knowledge to further understand the RMS design. In particular, this study presents a problem-specific customized SMO combined with a novel flexible pattern mining method for optimizing RMS and conducting post-optimal analyzes. To this extent, this study demonstrates the benefits of applying SMO and knowledge discovery methods for fast decision-support and production planning of RMS.
translated by 谷歌翻译
无论是在功能选择的领域还是可解释的AI领域,都有基于其重要性的“排名”功能的愿望。然后可以将这种功能重要的排名用于:(1)减少数据集大小或(2)解释机器学习模型。但是,在文献中,这种特征排名没有以系统的,一致的方式评估。许多论文都有不同的方式来争论哪些具有重要性排名最佳的特征。本文通过提出一种新的评估方法来填补这一空白。通过使用合成数据集,可以事先知道特征重要性得分,从而可以进行更系统的评估。为了促进使用新方法的大规模实验,在Python建造了一个名为FSEVAL的基准测定框架。该框架允许并行运行实验,并在HPC系统上的计算机上分布。通过与名为“权重和偏见”的在线平台集成,可以在实时仪表板上进行交互探索图表。该软件作为开源软件发布,并在PYPI平台上以包裹发行。该研究结束时,探索了一个这样的大规模实验,以在许多方面找到参与算法的优势和劣势。
translated by 谷歌翻译
多目标优化问题的目标在现实世界中通常会看到不同的评估成本。现在,此类问题被称为异质目标(HE-MOPS)的多目标优化问题。然而,到目前为止,只有少数研究来解决HE-MOPS,其中大多数专注于一个快速目标和一个缓慢目标的双向目标问题。在这项工作中,我们旨在应对具有两个以上黑盒和异质目标的He-mops。为此,我们通过利用He-Mops中廉价且昂贵的目标的不同数据集来减轻因评估不同目标而导致的搜索偏见,从而减轻了廉价且昂贵的目标,从而为HE-MOPS开发了多目标贝叶斯进化优化方法。为了充分利用两个不同的培训数据集,一种对所有目标进行评估的解决方案,另一个与仅在快速目标上进行评估的解决方案,构建了两个单独的高斯过程模型。此外,提出了一种新的采集函数,以减轻对快速目标的搜索偏见,从而在收敛与多样性之间达到平衡。我们通过对广泛使用的多/多目标基准问题进行测试来证明该算法的有效性,这些问题被认为是异质昂贵的。
translated by 谷歌翻译