Modern machine learning models are often constructed taking into account multiple objectives, e.g., to minimize inference time while also maximizing accuracy. Multi-objective hyperparameter optimization (MHPO) algorithms return such candidate models and the approximation of the Pareto front is used to assess their performance. However, when estimating generalization performance of an approximation of a Pareto front found on a validation set by computing the performance of the individual models on the test set, models might no longer be Pareto-optimal. This makes it unclear how to measure performance. To resolve this, we provide a novel evaluation protocol that allows measuring the generalization performance of MHPO methods and to study its capabilities for comparing two optimization experiments.
translated by 谷歌翻译
神经建筑搜索(NAS)已被广泛研究,并已成长为具有重大影响的研究领域。虽然经典的单目标NAS搜索具有最佳性能的体系结构,但多目标NAS考虑了应同时优化的多个目标,例如,将沿验证错误最小化资源使用率。尽管在多目标NAS领域已经取得了长足的进步,但我们认为实际关注的实际优化问题与多目标NAS试图解决的优化问题之间存在一些差异。我们通过将多目标NAS问题作为质量多样性优化(QDO)问题来解决这一差异,并引入了三种质量多样性NAS优化器(其中两个属于多重速度优化器组),以寻求高度多样化但多样化的体系结构对于特定于应用程序特定的利基,例如硬件约束。通过将这些优化器与它们的多目标对应物进行比较,我们证明了质量多样性总体上优于多目标NA在解决方案和效率方面。我们进一步展示了应用程序和未来的NAS研究如何在QDO上蓬勃发展。
translated by 谷歌翻译
异常检测或异常检测是数据分析中的重要任务。我们从几何学角度讨论问题,并提供一个框架来利用数据集的度量结构。我们的方法基于多种假设,即,所观察到的名义上高维数据位于较低的维歧管上,并且可以通过多种学习方法来推断这种内在结构。我们表明,利用这种结构可显着改善高维数据中外围观测值的检测。我们还基于数据流形的几何形状和拓扑结构,在数学上精确,精确且在结构异常值之间进行了新颖的区别,这是一个新颖的,并且阐明了整个文献中普遍存在的概念模棱两可。我们的实验将功能数据集中在一类结构化的高维数据上,但是我们提出的框架是完全一般的,我们包括图像和图形数据应用程序。我们的结果表明,可以使用歧管学习方法检测和可视化高维和非尾数据的离群结构,并使用应用于歧管嵌入向量的标准离群评分方法进行量化。
translated by 谷歌翻译
超参数优化构成了典型的现代机器学习工作流程的很大一部分。这是由于这样一个事实,即机器学习方法和相应的预处理步骤通常只有在正确调整超参数时就会产生最佳性能。但是在许多应用中,我们不仅有兴趣仅仅为了预测精度而优化ML管道;确定最佳配置时,必须考虑其他指标或约束,从而导致多目标优化问题。由于缺乏知识和用于多目标超参数优化的知识和容易获得的软件实现,因此通常在实践中被忽略。在这项工作中,我们向读者介绍了多个客观超参数优化的基础知识,并激励其在应用ML中的实用性。此外,我们从进化算法和贝叶斯优化的领域提供了现有优化策略的广泛调查。我们说明了MOO在几个特定ML应用中的实用性,考虑了诸如操作条件,预测时间,稀疏,公平,可解释性和鲁棒性之类的目标。
translated by 谷歌翻译
算法公平是一个越来越重要的领域,与检测和减轻机器学习模型中的偏见有关。在回归和分类中,有很多文献来算法公平,但是对生存分析的领域几乎没有探索。生存分析是预测任务,试图预测事件随时间的可能性。生存预测在敏感的环境中尤为重要,例如利用机器学习进行诊断和预后。在本文中,我们探讨了如何利用现有的生存指标来用群体公平指标来衡量偏见。我们在29个生存数据集和8个措施的经验实验中探讨了这一点。我们发现,歧视的度量能够很好地捕捉偏见,而对校准和评分规则的衡量标准则更少。我们建议进一步的研究领域,包括基于预测的公平指标,以进行分配预测。
translated by 谷歌翻译
质量多样性优化的目的是为当前的问题生成各种各样但高性能的解决方案。例如,典型的基准问题是找到机器人臂配置的曲目或游戏策略的集合。在本文中,我们提出了一系列质量多样性优化问题,以解决机器学习模型的超参数优化 - 迄今为止迄今未经推广的质量多样性优化的应用。我们的基准问题涉及新颖的功能,例如解释性或模型的资源使用。为了允许快速有效的基准测试,我们在Yahpo Gym上建立了Yahpo Gym,这是一个最近提议的开源基准测试套件,用于超参数优化,可利用高性能的替代模型,并返回这些替代模型预测,而不是评估真正昂贵的黑匣子功能。我们提出了一项初步实验研究的结果,该研究将不同质量多样性优化剂在基准问题上进行比较。此外,我们讨论了在超参数优化的背景下,质量多样性优化的未来方向和挑战。
translated by 谷歌翻译
自动化封路计优化(HPO)已经获得了很大的普及,并且是大多数自动化机器学习框架的重要成分。然而,设计HPO算法的过程仍然是一个不系统和手动的过程:确定了现有工作的限制,提出的改进是 - 即使是专家知识的指导 - 仍然是一定任意的。这很少允许对哪些算法分量的驾驶性能进行全面了解,并且承载忽略良好算法设计选择的风险。我们提出了一个原理的方法来实现应用于多倍性HPO(MF-HPO)的自动基准驱动算法设计的原则方法:首先,我们正式化包括的MF-HPO候选的丰富空间,但不限于普通的HPO算法,然后呈现可配置的框架覆盖此空间。要自动和系统地查找最佳候选者,我们遵循通过优化方法,并通过贝叶斯优化搜索算法候选的空间。我们挑战是否必须通过执行消融分析来挑战所发现的设计选择或可以通过更加天真和更简单的设计。我们观察到使用相对简单的配置,在某些方式中比建立的方法更简单,只要某些关键配置参数具有正确的值,就可以很好地执行得很好。
translated by 谷歌翻译
在开发和分析新的高参数优化方法时,在经过良好策划的基准套件上进行经验评估和比较至关重要。在这项工作中,我们提出了一套新的具有挑战性和相关的基准问题,这些问题是由此类基准测试的理想属性和要求所激发的。我们新的基于替代物的基准集合包含14个方案,这些方案总共构成了700多个多保体超参数优化问题,所有这些方案都可以实现多目标超参数优化。此外,我们从经验上将基于替代物的基准测试与更广泛的表格基准进行了比较,并证明后者可能会在HPO方法的性能排名中产生不忠实的结果。我们检查并比较了根据定义要求的基准收集,并提出了一个单目标和多目标基准套件,我们在基准实验中比较了7个单目标和7个多目标优化器。我们的软件可从[https://github.com/slds-lmu/yahpo_gym]获得。
translated by 谷歌翻译
Machine learning models are typically evaluated by computing similarity with reference annotations and trained by maximizing similarity with such. Especially in the bio-medical domain, annotations are subjective and suffer from low inter- and intra-rater reliability. Since annotations only reflect the annotation entity's interpretation of the real world, this can lead to sub-optimal predictions even though the model achieves high similarity scores. Here, the theoretical concept of Peak Ground Truth (PGT) is introduced. PGT marks the point beyond which an increase in similarity with the reference annotation stops translating to better Real World Model Performance (RWMP). Additionally, a quantitative technique to approximate PGT by computing inter- and intra-rater reliability is proposed. Finally, three categories of PGT-aware strategies to evaluate and improve model performance are reviewed.
translated by 谷歌翻译
Mixtures of von Mises-Fisher distributions can be used to cluster data on the unit hypersphere. This is particularly adapted for high-dimensional directional data such as texts. We propose in this article to estimate a von Mises mixture using a l 1 penalized likelihood. This leads to sparse prototypes that improve clustering interpretability. We introduce an expectation-maximisation (EM) algorithm for this estimation and explore the trade-off between the sparsity term and the likelihood one with a path following algorithm. The model's behaviour is studied on simulated data and, we show the advantages of the approach on real data benchmark. We also introduce a new data set on financial reports and exhibit the benefits of our method for exploratory analysis.
translated by 谷歌翻译