高参数优化(HPO)是一个良好的研究领域。但是,HPO管道中组件的效果和相互作用尚未得到很好的研究。然后,我们问自己:HPO的景观是否会被用于评估单个配置的管道偏见吗?为了解决这个问题,我们建议使用健身景观分析分析HPO管道对HPO问题的影响。特别是,我们研究了DS-2019 HPO基准数据集,寻找可能表明评估管道故障的模式,并将其与HPO性能联系起来。我们的主要发现是:(i)在大多数情况下,大量不同的超参数(即多种配置)产生相同的不良绩效,很可能与多数类预测模型有关; (ii)在这些情况下,观察到观察到的健康和平均健身之间存在恶化的相关性,可能会使基于本地搜索的HPO策略的部署更加困难。最后,我们得出的结论是,HPO管道定义可能会对HPO景观产生负面影响。
translated by 谷歌翻译
超参数优化(HPO)和神经体系结构搜索(NAS)是获得一流的机器学习模型的选择,但实际上,它们的运行成本很高。当在大型数据集上培训模型时,即使采用了有效的多志愿方法,对从业者进行HPO或NAS的调整迅速昂贵。我们提出了一种方法,以应对在具有有限计算资源的大型数据集上培训的调整机器学习模型的挑战。我们的方法名为Pasha,能够根据需要动态分配最大资源为调整过程。实验比较表明,Pasha识别出良好的超参数配置和体系结构,同时消耗的计算资源明显少于ASHA等解决方案。
translated by 谷歌翻译
在开发和分析新的高参数优化方法时,在经过良好策划的基准套件上进行经验评估和比较至关重要。在这项工作中,我们提出了一套新的具有挑战性和相关的基准问题,这些问题是由此类基准测试的理想属性和要求所激发的。我们新的基于替代物的基准集合包含14个方案,这些方案总共构成了700多个多保体超参数优化问题,所有这些方案都可以实现多目标超参数优化。此外,我们从经验上将基于替代物的基准测试与更广泛的表格基准进行了比较,并证明后者可能会在HPO方法的性能排名中产生不忠实的结果。我们检查并比较了根据定义要求的基准收集,并提出了一个单目标和多目标基准套件,我们在基准实验中比较了7个单目标和7个多目标优化器。我们的软件可从[https://github.com/slds-lmu/yahpo_gym]获得。
translated by 谷歌翻译
神经建筑搜索(NAS)已被广泛研究,并已成长为具有重大影响的研究领域。虽然经典的单目标NAS搜索具有最佳性能的体系结构,但多目标NAS考虑了应同时优化的多个目标,例如,将沿验证错误最小化资源使用率。尽管在多目标NAS领域已经取得了长足的进步,但我们认为实际关注的实际优化问题与多目标NAS试图解决的优化问题之间存在一些差异。我们通过将多目标NAS问题作为质量多样性优化(QDO)问题来解决这一差异,并引入了三种质量多样性NAS优化器(其中两个属于多重速度优化器组),以寻求高度多样化但多样化的体系结构对于特定于应用程序特定的利基,例如硬件约束。通过将这些优化器与它们的多目标对应物进行比较,我们证明了质量多样性总体上优于多目标NA在解决方案和效率方面。我们进一步展示了应用程序和未来的NAS研究如何在QDO上蓬勃发展。
translated by 谷歌翻译
神经结构搜索是一个有前途的研究领域,致力于自动化神经网络模型的设计。该领域正在迅速增长,具有从贝叶斯优化,神经间偏离的方法的浪涌,以及各种情况下的应用程序。然而,尽管存在巨大的进展,但很少有研究对问题本身的难度提出了见解,因此这些方法的成功(或失败)仍未解释。从这个意义上讲,优化领域已经开发了突出显示关键方面来描述优化问题的方法。适应性景观分析突出了可靠和定量搜索算法的特征时。在本文中,我们建议使用健身景观分析来研究神经结构搜索问题。特别是,我们介绍了健身景观足迹,八(8)个通用指标的聚合来综合架构搜索问题的景观。我们研究了两个问题,古典图像分类基准CiFar-10和遥感问题SO2SAT LCZ42。结果表现了对问题的定量评估,允许表征相对难度和其他特征,例如坚固性或持久性,有助于定制对问题的搜索策略。此外,足迹是一种能够比较多次问题的工具。
translated by 谷歌翻译
尽管加权套索回归具有吸引力的统计保障,但由于其复杂的搜索空间,通常避免了已有数千个Quand参与的。另一方面,具有用于黑盒功能的高维HPO方法的最新进展表明,高维应用确实可以有效地优化。尽管这一初步成功,但高维HPO方法通常应用于具有适度数量的合成问题,这些尺寸限制了其对科学和工程应用的影响。为了解决这一限制,我们提出了一个新的基准套件,这是一个在卢赛社区中的一个重要的开放研究主题量身定制的,这是加权套索回归。 Lassobench由受良好控制的合成设置(样本,SNR,环境和有效维度以及多维保真度)和现实世界数据集组成的基准,这使得能够利用许多HPO算法来改进和扩展到高维设置。我们评估了5种最先进的HPO方法和3个基线,并表明贝叶斯优化可以改善通常用于稀疏回归的方法,同时突出显示这些框架在非常高的框架中的限制。值得注意的是,贝叶斯优化分别将60,100,300和1000个尺寸问题的卢斯基线分别改善了45.7%,19.2%,19.7%和15.5%。
translated by 谷歌翻译
培训越来越多的语言模型的最新趋势已大大提高了语言任务的机器学习绩效。但是,培训较大模型的巨大成本可以使他们过高地调整它们的昂贵,从而激发了对更有效方法的研究。基于梯度的高参数优化提供了在训练期间调整超参数的能力,但以前尚未以序列到序列设置进行研究。我们首次将基于梯度的简单和一般基于梯度的高参数优化方法应用于顺序到序列任务,证明了效率和性能在强大的基线上的神经机器翻译和自然语言理解(NLU)任务(通过T5预测) )。对于翻译,我们显示该方法跨语言对,比贝叶斯高参数优化更有效,并且某些超参数的学习时间表可以超过最佳的恒定值调整。对于T5,我们表明在预训练期间学习超参数可以提高下游NLU任务的性能。当同时学习多个超参数时,我们表明,全球学习率可以遵循训练的时间表,以提高性能,并且无法通过贪婪方法的“短马偏见”来解释。我们发布用于促进进一步研究的代码。
translated by 谷歌翻译
Vizier是Google的DeCACTO BlackBox和Hyper参数优化服务,它优化了Google一些最大的产品和研究工作。为了按照调整数千个用户的关键系统的规模运行,Google Vizier在提供多个不同的功能方面解决了关键的设计挑战,同时保持完全容忍。在本文中,我们介绍了基于Google内部Vizier基础架构和框架的基于Python的独立界面开源(OSS)Vizier。 OSS Vizier提供了一个能够定义和解决各种优化问题的API,包括多样性,早期停止,转移学习和条件搜索。此外,它被设计为可确保可靠性的分布式系统,并允许对用户的目标函数进行多次平行评估。基于RPC的灵活基础架构使用户可以从任何语言编写的二进制文件中访问OSS Vizier。 OSS Vizier还提供了一个后端(“ Pythia”)API,该API为算法作者提供了一种与Core OSS Vizier系统接口新算法的方法。 OSS Vizier可从https://github.com/google/vizier获得。
translated by 谷歌翻译
比较不同的汽车框架是具有挑战性的,并且经常做错了。我们引入了一个开放且可扩展的基准测试,该基准遵循最佳实践,并在比较自动框架时避免常见错误。我们对71个分类和33项回归任务进行了9个著名的自动框架进行了详尽的比较。通过多面分析,评估模型的准确性,与推理时间的权衡以及框架失败,探索了自动框架之间的差异。我们还使用Bradley-terry树来发现相对自动框架排名不同的任务子集。基准配备了一个开源工具,该工具与许多自动框架集成并自动化经验评估过程端到端:从框架安装和资源分配到深入评估。基准测试使用公共数据集,可以轻松地使用其他Automl框架和任务扩展,并且具有最新结果的网站。
translated by 谷歌翻译
自动化封路计优化(HPO)已经获得了很大的普及,并且是大多数自动化机器学习框架的重要成分。然而,设计HPO算法的过程仍然是一个不系统和手动的过程:确定了现有工作的限制,提出的改进是 - 即使是专家知识的指导 - 仍然是一定任意的。这很少允许对哪些算法分量的驾驶性能进行全面了解,并且承载忽略良好算法设计选择的风险。我们提出了一个原理的方法来实现应用于多倍性HPO(MF-HPO)的自动基准驱动算法设计的原则方法:首先,我们正式化包括的MF-HPO候选的丰富空间,但不限于普通的HPO算法,然后呈现可配置的框架覆盖此空间。要自动和系统地查找最佳候选者,我们遵循通过优化方法,并通过贝叶斯优化搜索算法候选的空间。我们挑战是否必须通过执行消融分析来挑战所发现的设计选择或可以通过更加天真和更简单的设计。我们观察到使用相对简单的配置,在某些方式中比建立的方法更简单,只要某些关键配置参数具有正确的值,就可以很好地执行得很好。
translated by 谷歌翻译
由于其主观性质,美学的计算推断是一项不确定的任务。已经提出了许多数据集来通过根据人类评级提供成对的图像和美学得分来解决问题。但是,人类更好地通过语言表达自己的观点,品味和情感,而不是单个数字总结他们。实际上,照片评论提供了更丰富的信息,因为它们揭示了用户如何以及为什么对视觉刺激的美学评价。在这方面,我们提出了Reddit照片评论数据集(RPCD),其中包含图像和照片评论的元素。 RPCD由74K图像和220k评论组成,并从业余爱好者和专业摄影师使用的Reddit社区收集,以利用建设性的社区反馈来提高其摄影技巧。所提出的数据集与以前的美学数据集不同,主要是三个方面,即(i)数据集的大规模数据集和批评图像不同方面的评论的扩展,(ii)它主要包含Ultrahd映像,以及(iii)它通过自动管道收集,可以轻松地扩展到新数据。据我们所知,在这项工作中,我们提出了首次尝试估算批评的视觉刺激质量的尝试。为此,我们利用批评情绪的极性为美学判断的指标。我们证明了情感如何与可用于两种美学评估基准的美学判断正相关。最后,我们通过使用情感得分作为排名图像的目标进行了几种模型。提供数据集和基准(https://github.com/mediatechnologycenter/aestheval)。
translated by 谷歌翻译
贝叶斯优化(BO)是机器学习算法的封锁率优化(HPO)广泛流行的方法。在其核心,Bo迭代地评估有前途的配置,直到用户定义的预算(例如挂钟时间或迭代次数)耗尽。虽然在调整大量后的最终性能取决于提供的预算,但很难提前预先指定最佳价值。在这项工作中,我们为BO提出了一种有效而直观的终止标准,如果它足够接近全球Optima,则会自动停止程序。在广泛的实际HPO问题中,我们表明,与来自文献的现有基线相比,我们的终止标准实现了更好的测试性能,例如在改进概率下降到固定阈值以下时停止。我们还提供了证据表明,与我们的方法相比,这些基线对其自身的Quand参数的选择非常敏感。此外,我们发现在HPO的背景下可能会出现过度装备,这可以在文献中可以说是一个忽视的问题,并表明我们的终止标准减轻了小型和大型数据集的这种现象。
translated by 谷歌翻译
高参数优化(HPO)是用于实现峰值预测性能的机器学习模型的关键组成部分。尽管在过去几年中提出了许多HPO的方法和算法,但在照明和检查这些黑盒优化问题的实际结构方面几乎没有取得进展。探索性景观分析(ELA)集成了一组技术,可用于获得有关未知优化问题的特性的知识。在本文中,我们评估了30个HPO问题的五个不同的黑盒优化器的性能,其中包括在10个不同数据集中训练的XGBoost学习者的两维连续搜索空间。这与对黑框优化基准(BBOB)对360个问题实例进行评估的相同优化器的性能形成鲜明对比。然后,我们计算HPO和BBOB问题上的ELA特征,并检查相似性和差异。 ELA特征空间中HPO和BBOB问题的聚类分析使我们能够确定HPO问题与结构元级别上的BBOB问题相比。我们确定了与ELA特征空间中HPO问题接近的BBOB问题的子集,并表明优化器性能在这两组基准问题上相似。我们重点介绍了ELA对HPO的公开挑战,并讨论了未来研究和应用的潜在方向。
translated by 谷歌翻译
培训和评估语言模型越来越多地要求构建元数据 - 多样化的策划数据收集,并具有清晰的出处。自然语言提示最近通过将现有的,有监督的数据集转换为多种新颖的预处理任务,突出了元数据策划的好处,从而改善了零击的概括。尽管将这些以数据为中心的方法转化为生物医学语言建模的通用域文本成功,但由于标记的生物医学数据集在流行的数据中心中的代表性大大不足,因此仍然具有挑战性。为了应对这一挑战,我们介绍了BigBio一个由126个以上的生物医学NLP数据集的社区库,目前涵盖12个任务类别和10多种语言。 BigBio通过对数据集及其元数据进行程序化访问来促进可再现的元数据策划,并与当前的平台兼容,以及时工程和端到端的几个/零射击语言模型评估。我们讨论了我们的任务架构协调,数据审核,贡献指南的过程,并概述了两个说明性用例:生物医学提示和大规模,多任务学习的零射门评估。 BigBio是一项持续的社区努力,可在https://github.com/bigscience-workshop/biomedical上获得。
translated by 谷歌翻译
Machine learning-based modeling of physical systems has experienced increased interest in recent years. Despite some impressive progress, there is still a lack of benchmarks for Scientific ML that are easy to use but still challenging and representative of a wide range of problems. We introduce PDEBench, a benchmark suite of time-dependent simulation tasks based on Partial Differential Equations (PDEs). PDEBench comprises both code and data to benchmark the performance of novel machine learning models against both classical numerical simulations and machine learning baselines. Our proposed set of benchmark problems contribute the following unique features: (1) A much wider range of PDEs compared to existing benchmarks, ranging from relatively common examples to more realistic and difficult problems; (2) much larger ready-to-use datasets compared to prior work, comprising multiple simulation runs across a larger number of initial and boundary conditions and PDE parameters; (3) more extensible source codes with user-friendly APIs for data generation and baseline results with popular machine learning models (FNO, U-Net, PINN, Gradient-Based Inverse Method). PDEBench allows researchers to extend the benchmark freely for their own purposes using a standardized API and to compare the performance of new models to existing baseline methods. We also propose new evaluation metrics with the aim to provide a more holistic understanding of learning methods in the context of Scientific ML. With those metrics we identify tasks which are challenging for recent ML methods and propose these tasks as future challenges for the community. The code is available at https://github.com/pdebench/PDEBench.
translated by 谷歌翻译
多模型对现实世界应用的承诺激发了可视化和理解其内部力学的研究,其最终目标是使利益相关者能够可视化模型行为,执行模型调试并促进对机器学习模型的信任。但是,现代的多模型模型通常是黑盒神经网络,这使得了解其内部力学变得具有挑战性。我们如何能在这些模型中可视化多模式相互作用的内部建模?我们的论文旨在通过提出Multiviz来填补这一空白,这是一种通过将可解释性问题分为4个阶段来分析多模型模型行为的方法:(1)单峰的重要性:每种模式如何有助于下游建模和预测,(2)交叉交叉。 - 模式相互作用:不同模态如何相互关系,(3)多模式表示:如何在决策级特征中表示单峰和跨模式的交互作用,以及(4)多模式预测:决策级特征如何组成以制造一个预言。 Multiviz旨在在不同的模式,模型,任务和研究领域进行操作。通过对6个现实世界任务的8个训练模型的实验,我们表明,Multiviz中的互补阶段共同使用户能够(1)模拟模型预测,(2)将可解释的概念分配给功能,(3)对模型错误分析执行错误分析,(4)使用错误分析到调试模型的见解。 Multiviz公开可用,将定期使用新的解释工具和指标进行更新,并欢迎社区的意见。
translated by 谷歌翻译
Tree Ensembles可以非常适合黑盒优化任务,例如算法调整和神经体系结构搜索,因为它们在几乎没有手动调整的情况下实现了良好的预测性能,自然可以处理离散的功能空间,并且对培训中的异常值相对不敏感数据。在使用树的组合进行黑盒优化方面面临的两个众所周知的挑战是(i)有效地量化模型的不确定性,以进行探索,以及(ii)优化在零件的恒定采集函数上。为了同时解决这两个点,我们建议在获得模型方差估计之前使用树的内核解释为高斯过程,并为采集函数开发兼容的优化公式。后者进一步使我们能够通过考虑工程设置中的域知识和建模搜索空间对称性,例如神经体系结构搜索中的层次结构关系,从而无缝整合已知约束,以提高采样效率。我们的框架以及最先进的方法以及对连续/离散功能的不受限制的黑框优化,并且优于结合混合变量特征空间和已知输入约束的问题的竞争方法。
translated by 谷歌翻译
大多数机器学习算法由一个或多个超参数配置,必须仔细选择并且通常会影响性能。为避免耗时和不可递销的手动试验和错误过程来查找性能良好的超参数配置,可以采用各种自动超参数优化(HPO)方法,例如,基于监督机器学习的重新采样误差估计。本文介绍了HPO后,本文审查了重要的HPO方法,如网格或随机搜索,进化算法,贝叶斯优化,超带和赛车。它给出了关于进行HPO的重要选择的实用建议,包括HPO算法本身,性能评估,如何将HPO与ML管道,运行时改进和并行化结合起来。这项工作伴随着附录,其中包含关于R和Python的特定软件包的信息,以及用于特定学习算法的信息和推荐的超参数搜索空间。我们还提供笔记本电脑,这些笔记本展示了这项工作的概念作为补充文件。
translated by 谷歌翻译
目前的视觉问题应答(VQA)任务主要考虑回答自然图像的人为注释问题。然而,除了自然图像之外,在视觉理解和推理研究中仍然可以解读具有语义丰富性的抽象图。在这项工作中,我们介绍了ICON问题的新挑战(ICONQA),其目标是在图标图像上下文中回答问题。我们发布了ICONQA,这是一个由107,439个问题和三个子任务组成的大型数据集:多图像选择,多文本选择和填充空白。 ICONQA数据集是由真实世界图中的启发,突出了抽象图理解和综合认知推理的重要性。因此,ICONQA不仅需要对象识别和文本理解等感知技能,而且还需要多种认知推理技能,例如几何推理,致辞推理和算术推理。为了促进潜在的iconqa模型来学习图标图像的语义表示,我们进一步发布了一个图标数据集图标645,其中包含377级上的645,687个彩色图标。我们进行广泛的用户研究和盲目实验,并重现各种先进的VQA方法来基准iconQA任务。此外,我们开发了一个强大的ICONQA基线Patch-TRM,它应用金字塔跨模型变压器,其中包含在图标数据集上预先培训的输入图嵌入式。 iconqa和图标645可在https://iconqa.github.io提供。
translated by 谷歌翻译
随着孩子的年龄增长,他们对周围的身体过程有了直觉的理解。它们沿着发育轨迹移动,在先前的实证研究中,这些轨迹已被广泛绘制出来。我们研究儿童的发育轨迹与人工系统的学习轨迹相比。具体而言,我们研究了一种观念,即认知发展是由某种形式的随机优化程序导致的。为此,我们使用随机梯度下降训练现代生成神经网络模型。然后,我们使用发展心理学文献中的方法来探究该模型的物理理解,以不同程度的优化。我们发现该模型的学习轨迹捕捉了儿童的发展轨迹,从而为发展的想法提供了支持,作为随机优化的发展。
translated by 谷歌翻译