学习并行计算机性能的问题是在多层处理器的背景下研究的。给定固定的工作负载,需要改变系统配置对性能的影响。从传统上讲,通过AMDAHL定律制定了由于单个资源增强的性能加速。但是,如果有多个可配置的资源,则传统公式会导致几个断开的加速方程,这些方程无法合并在一起以确定整体加速。为了解决这个问题,我们建议(1)将AMDAHL定律扩展到整体加速方程中,并将其适应多个可配置的资源,(2)将加速方程转换为适合机器学习的多变量回归问题。使用跨越两个基准测试(SPECCPU 2017和PCMARK 10)和四个硬件平台(Intel Xeon 8180m,AMD EPYC 7702P,Intel Coffeelake 8700K和AMD Ryzen 3900X)的实验数据,分析模型已开发和交叉攻击。调查结果表明,在大多数情况下,模型导致平均交叉验证准确性高于95%,从而验证了拟议的AMDAHL定律的扩展。提出的方法使快速生成多变量的分析模型能够支持未来的工业发展,优化和仿真需求。
translated by 谷歌翻译
我们为预测资源分配提供了一个有效的参数建模框架,专注于计算资源的量,可以针对无服务器查询处理设置中的数据分析的一系列价格性能目标进行优化。我们深入讨论和评估我们的系统,AutoExecutor如何使用此框架可以自动选择在Azure Synapse上运行的Spark SQL查询的近最佳执行程序和核心计数。我们的技术通过在运行查询的同时大大减少分配和执行者占用的总延期占用者的总延迟器,从而提高了Spark的内置,无功,动态的执行能力分配功能,从而释放可能被其他并发查询或减少整体集群供应需求的执行者。与诸如Sparklens之类的执行后分析工具相比,我们预测在执行它们之前对查询的资源分配,并且还可以解释输入数据大小的更改,以预测所需的分配。
translated by 谷歌翻译
虽然离散事件模拟器是建筑研究,设计和开发的必备工具,但它们的实用性受到在调查下的现实应用的极长时间的影响。这项工作描述了一项协调一致的努力,其中机器学习(ML)用于加速离散事件仿真。首先,构建了用于静态指令属性和动态处理器状态的基于ML的指令延迟预测框架。然后,基于所提出的指令延迟预测器来实现GPU加速的并行模拟器,并且验证了其模拟精度和吞吐量并针对最先进的模拟器评估。利用现代GPU,基于ML的模拟器显着优于传统的模拟器。
translated by 谷歌翻译
无论是在功能选择的领域还是可解释的AI领域,都有基于其重要性的“排名”功能的愿望。然后可以将这种功能重要的排名用于:(1)减少数据集大小或(2)解释机器学习模型。但是,在文献中,这种特征排名没有以系统的,一致的方式评估。许多论文都有不同的方式来争论哪些具有重要性排名最佳的特征。本文通过提出一种新的评估方法来填补这一空白。通过使用合成数据集,可以事先知道特征重要性得分,从而可以进行更系统的评估。为了促进使用新方法的大规模实验,在Python建造了一个名为FSEVAL的基准测定框架。该框架允许并行运行实验,并在HPC系统上的计算机上分布。通过与名为“权重和偏见”的在线平台集成,可以在实时仪表板上进行交互探索图表。该软件作为开源软件发布,并在PYPI平台上以包裹发行。该研究结束时,探索了一个这样的大规模实验,以在许多方面找到参与算法的优势和劣势。
translated by 谷歌翻译
大多数机器学习算法由一个或多个超参数配置,必须仔细选择并且通常会影响性能。为避免耗时和不可递销的手动试验和错误过程来查找性能良好的超参数配置,可以采用各种自动超参数优化(HPO)方法,例如,基于监督机器学习的重新采样误差估计。本文介绍了HPO后,本文审查了重要的HPO方法,如网格或随机搜索,进化算法,贝叶斯优化,超带和赛车。它给出了关于进行HPO的重要选择的实用建议,包括HPO算法本身,性能评估,如何将HPO与ML管道,运行时改进和并行化结合起来。这项工作伴随着附录,其中包含关于R和Python的特定软件包的信息,以及用于特定学习算法的信息和推荐的超参数搜索空间。我们还提供笔记本电脑,这些笔记本展示了这项工作的概念作为补充文件。
translated by 谷歌翻译
计算机架构和系统已优化了很长时间,以便高效执行机器学习(ML)模型。现在,是时候重新考虑ML和系统之间的关系,并让ML转换计算机架构和系统的设计方式。这有一个双重含义:改善设计师的生产力,以及完成良性周期。在这篇论文中,我们对应用ML进行计算机架构和系统设计的工作进行了全面的审查。首先,我们考虑ML技术在架构/系统设计中的典型作用,即快速预测建模或设计方法,我们执行高级分类学。然后,我们总结了通过ML技术解决的计算机架构/系统设计中的常见问题,并且所用典型的ML技术来解决它们中的每一个。除了在狭义中强调计算机架构外,我们采用数据中心可被认为是仓库规模计算机的概念;粗略的计算机系统中提供粗略讨论,例如代码生成和编译器;我们还注意ML技术如何帮助和改造设计自动化。我们进一步提供了对机会和潜在方向的未来愿景,并设想应用ML的计算机架构和系统将在社区中蓬勃发展。
translated by 谷歌翻译
自动化的机器学习(AUTOML)过程可能需要通过不仅机器学习(ML)组件及其超参数的复杂配置空间进行搜索,还需要将它们组合在一起,即形成ML管道。如果该管道配置空间过大,那么固定时间预算可实现的优化效率和模型精度可实现。一个关键的研究问题是,通过利用其历史表现来完成各种ML任务(即元知识),避免对ML管道的不良评估是否可能既可能又实用。以前的经验以分类器/回归器准确性排名的形式来自(1)(1)在历史自动运行期间进行的大量但无尽的管道评估数量,即“机会性”元知识,或(2)全面的交叉 - 通过默认超参数(即“系统”的元知识,对分类器/回归器的验证评估。使用AUTOWEKA4MCPS软件包进行了许多实验,表明(1)机会性/系统的元知识可以改善ML的结果,通常与元知识的相关性以及(2)配置空间扣除在不太保守的情况下是最佳的(2)也不是激进的。但是,元知识的效用和影响急性取决于其发电和剥削的许多方面,并保证了广泛的分析;这些通常在汽车和元学习文献中被忽视/不足。特别是,我们观察到对数据集的“挑战”的强烈敏感性,即选择预测因子的特异性是否会导致性能明显更好。最终,确定这样定义的“困难”数据集对于生成信息丰富的元知识基础和理解最佳搜索空间降低策略至关重要。
translated by 谷歌翻译
软件测试可能是一个漫长且昂贵的过程,尤其是如果无法测试的软件进行测试。重构技术可以通过改善影响可检验性的软件指标来增强可检验性。在构建回归模型学习如何将计算的源代码计算指标与其可检验性相关联的指标时,确定了指标。我们确定了15个软件指标,在解释我们的可检测性预测模型的同时,高度影响可检验性。我们使用42个Java类的实验表明,除了改善其他一些质量属性外,改善这15个指标的重构平均可以提高可测试性15.57%。我们的可测试性预测模型经过训练,可以映射源代码指标,以测试有效性和效率,作为可测试软件的两种重要成分。随着测试套件获得的覆盖范围的增加,测试有效性会提高。另一方面,随着测试套件的大小增加,测试效率会降低。本文提供了一个数学模型,以根据测试套件的大小和覆盖范围来计算类可检验性。我们使用此数学模型来计算可测试性作为我们可检测性预测模型的目标。数学模型要求执行正在测试的类以计算测试覆盖范围,而我们的回归模型在静态上测量了测试性。在测试性方面的测试结果预测应在测试之前,以避免不必要的成本。我们的可测试性预测模型已在23,886个Java类和262个软件指标上进行了培训和测试。学习的模型以R2为0.68,平均平方误差为0.03,可预测可验证性。
translated by 谷歌翻译
血浆定义为物质的第四个状态,在高电场下可以在大气压下产生非热血浆。现在众所周知,血浆激活液体(PAL)的强和广谱抗菌作用。机器学习(ML)在医疗领域的可靠适用性也鼓励其在等离子体医学领域的应用。因此,在PALS上的ML应用可以提出一种新的观点,以更好地了解各种参数对其抗菌作用的影响。在本文中,通过使用先前获得的数据来定性预测PAL的体外抗菌活性,从而介绍了比较监督的ML模型。进行了文献搜索,并从33个相关文章中收集了数据。在所需的预处理步骤之后,将两种监督的ML方法(即分类和回归)应用于数据以获得微生物灭活(MI)预测。对于分类,MI分为四类,对于回归,MI被用作连续变量。为分类和回归模型进行了两种不同的可靠交叉验证策略,以评估所提出的方法。重复分层的K折交叉验证和K折交叉验证。我们还研究了不同特征对模型的影响。结果表明,高参数优化的随机森林分类器(ORFC)和随机森林回归者(ORFR)分别比其他模型进行了分类和回归的模型更好。最后,获得ORFC的最佳测试精度为82.68%,ORFR的R2为0.75。 ML技术可能有助于更好地理解在所需的抗菌作用中具有主要作用的血浆参数。此外,此类发现可能有助于将来的血浆剂量定义。
translated by 谷歌翻译
石油场和地震成像的储层模拟被称为石油和天然气(O&G)行业中高性能计算(HPC)最苛刻的工作量。模拟器数值参数的优化起着至关重要的作用,因为它可以节省大量的计算工作。最先进的优化技术基于运行大量模拟,特定于该目的,以找到良好的参数候选者。但是,在时间和计算资源方面,使用这种方法的成本高昂。这项工作提出了金枪鱼,这是一种新方法,可增强使用性能模型的储层流仿真的最佳数值参数的搜索。在O&G行业中,通常使用不同工作流程中的模型合奏来减少与预测O&G生产相关的不确定性。我们利用此类工作流程中这些合奏的运行来从每个模拟中提取信息,并在其后续运行中优化数值参数。为了验证该方法,我们在历史匹配(HM)过程中实现了它,该过程使用Kalman滤波器算法来调整储层模型的集合以匹配实际字段中观察到的数据。我们从许多具有不同数值配置的模拟中挖掘了过去的执行日志,并根据数据提取的功能构建机器学习模型。这些功能包括储层模型本身的属性,例如活动单元的数量,即模拟行为的统计数据,例如线性求解器的迭代次数。采样技术用于查询甲骨文以找到可以减少经过的时间的数值参数,而不会显着影响结果的质量。我们的实验表明,预测可以平均将HM工作流程运行时提高31%。
translated by 谷歌翻译
未经许可的LTE-WiFi共存网络正在经历一致的致密化,以满足上升的移动数据需求。随着共存网络复杂性的增加,研究网络功能关系(NFR)非常重要,并利用它们来优化密集的共存网络性能。这项工作通过监督从现实世界实验中收集的网络数据的监督学习来研究未经许可的LTE-WiFi(LTE-U和LTE-LAA)网络中的NFR。在实验中考虑不同的802.11标准和不同的通道带宽,并且精确概述了学习模型选择策略。此后,通过学习模型参数如R-SQ,残差,异常值,预测器的选择等进行不同LTE-WiFi网络配置的比较分析。此外,提出了一种基于网络特征关系的优化(NEFRO)框架。通过利用从网络数据中学到的特征关系方程,NEFRO改善了传统的优化制剂。它被证明是通过两个优化目标,VIZ的时间关键密集共存网络非常适合。,网络容量和信号强度。 NEFRO针对四个关于网络优化的工作验证。 NEFRO成功地将优化收敛时间降低多达24%,同时平均保持高达97.16%的精度。
translated by 谷歌翻译
超参数优化构成了典型的现代机器学习工作流程的很大一部分。这是由于这样一个事实,即机器学习方法和相应的预处理步骤通常只有在正确调整超参数时就会产生最佳性能。但是在许多应用中,我们不仅有兴趣仅仅为了预测精度而优化ML管道;确定最佳配置时,必须考虑其他指标或约束,从而导致多目标优化问题。由于缺乏知识和用于多目标超参数优化的知识和容易获得的软件实现,因此通常在实践中被忽略。在这项工作中,我们向读者介绍了多个客观超参数优化的基础知识,并激励其在应用ML中的实用性。此外,我们从进化算法和贝叶斯优化的领域提供了现有优化策略的广泛调查。我们说明了MOO在几个特定ML应用中的实用性,考虑了诸如操作条件,预测时间,稀疏,公平,可解释性和鲁棒性之类的目标。
translated by 谷歌翻译
基于机器学习的模型最近获得了吸引力,作为通过构建提供快速准确的性能预测的模型来克服FPGA下游实现过程的一种方式。但是,这些模型有两个主要局限性:(1)培训需要大量数据(从FPGA合成和实施报告中提取的功能),这是由于耗时的FPGA设计周期而具有成本范围的; (2)针对特定环境训练的模型无法预测新的未知环境。在云系统中,访问平台通常是昂贵的,ML模型的数据收集可以显着增加系统的总成本所有权(TCO)。为了克服这些限制,我们提出了Leaper,这是一种基于FPGA的基于转移学习的方法,可将现有的基于ML的模型适应新的,未知的环境,以提供快速准确的性能和资源利用预测。实验结果表明,当我们使用转移的模型进行5次学习的云环境中的预测并将设计空间探索时间从天数到几个小时,我们的方法平均提供了85%的精度。
translated by 谷歌翻译
代理,模拟程序行为的模型,形成各种开发工作流程的基础。我们研究了三种基于代理的设计模式,在大规模CPU模拟器上进行评估。通过替代汇编,程序员开发了一种模拟程序的代理,以模仿程序的行为部署到最终用户代替原始程序。代理编译加速了CPU模拟器的研究1.6美元。通过代理适应,程序员开发一个程序的代理,然后重新培训在不同的任务上代理。代理适应将模拟器的错误减少到50美元\%$。通过代理优化,程序员开发了一个程序的代理,优化代理的输入参数,然后将优化的输入参数插回原始程序。替代优化查找模拟参数,与专业集参数引起的错误相比,将模拟器的错误减少5 \%$ 5 \%。在本文中,我们将这种基于代理的设计模式的分类形式正规化。我们进一步描述了所有三种设计模式共有的编程方法。我们的工作基于与计划代理人的编程为基础的新兴工作流程。
translated by 谷歌翻译
This chapter sheds light on the synaptic organization of the brain from the perspective of computational neuroscience. It provides an introductory overview on how to account for empirical data in mathematical models, implement them in software, and perform simulations reflecting experiments. This path is demonstrated with respect to four key aspects of synaptic signaling: the connectivity of brain networks, synaptic transmission, synaptic plasticity, and the heterogeneity across synapses. Each step and aspect of the modeling and simulation workflow comes with its own challenges and pitfalls, which are highlighted and addressed in detail.
translated by 谷歌翻译
飞机行业不断努力在人类的努力,计算时间和资源消耗方面寻求更有效的设计优化方法。当替代模型和最终过渡到HF模型的开关机制均被正确校准时,混合替代物优化保持了高效果,同时提供快速的设计评估。前馈神经网络(FNN)可以捕获高度非线性输入输出映射,从而为飞机绩效因素提供有效的替代物。但是,FNN通常无法概括分布(OOD)样本,这阻碍了它们在关键飞机设计优化中的采用。通过Smood,我们基于平滑度的分布检测方法,我们建议用优化的FNN替代物来编码一个依赖模型的OOD指标,以产生具有选择性但可信度的预测的值得信赖的替代模型。与常规的不确定性接地方法不同,Smood利用了HF模拟的固有平滑性特性,可以通过揭示其可疑敏感性有效地暴露OOD,从而避免对OOD样品的过度自信不确定性估计。通过使用SMOOD,仅将高风险的OOD输入转发到HF模型以进行重新评估,从而以低开销成本获得更准确的结果。研究了三个飞机性能模型。结果表明,基于FNN的代理在预测性能方面优于其高斯过程。此外,在所有研究案例中,Smood的确覆盖了85%的实际OOD。当Smood Plus FNN替代物被部署在混合替代优化设置中时,它们的错误率分别降低了34.65%和计算速度的降低率分别为58.36次。
translated by 谷歌翻译
比较不同的汽车框架是具有挑战性的,并且经常做错了。我们引入了一个开放且可扩展的基准测试,该基准遵循最佳实践,并在比较自动框架时避免常见错误。我们对71个分类和33项回归任务进行了9个著名的自动框架进行了详尽的比较。通过多面分析,评估模型的准确性,与推理时间的权衡以及框架失败,探索了自动框架之间的差异。我们还使用Bradley-terry树来发现相对自动框架排名不同的任务子集。基准配备了一个开源工具,该工具与许多自动框架集成并自动化经验评估过程端到端:从框架安装和资源分配到深入评估。基准测试使用公共数据集,可以轻松地使用其他Automl框架和任务扩展,并且具有最新结果的网站。
translated by 谷歌翻译
能源部门的深度脱碳将需要大量的随机可再生能源渗透和大量的网格资产协调。对于面对这种变化而负责维持电网稳定性和安全性的电力系统运营商来说,这是一个具有挑战性的范式。凭借从复杂数据集中学习并提供有关快速时间尺度的预测解决方案的能力,机器学习(ML)得到了很好的选择,可以帮助克服这些挑战,因为在未来几十年中,电力系统转变。在这项工作中,我们概述了与构建可信赖的ML模型相关的五个关键挑战(数据集生成,数据预处理,模型培训,模型评估和模型嵌入),这些模型从基于物理的仿真数据中学习。然后,我们演示如何将单个模块连接在一起,每个模块都克服了各自的挑战,在机器学习管道中的顺序阶段,如何有助于提高训练过程的整体性能。特别是,我们实施了通过反馈连接学习管道的不同元素的方法,从而在模型培训,绩效评估和重新训练之间“关闭循环”。我们通过学习与拟议的北海风能中心系统的详细模型相关的N-1小信号稳定性边缘来证明该框架,其组成模块的有效性及其反馈连接。
translated by 谷歌翻译
近年来,卷积神经网络(CNN)证明了它们在许多领域解决问题的能力,并且以前无法进行准确性。但是,这带有广泛的计算要求,这使得普通CPU无法提供所需的实时性能。同时,FPGA对加速CNN推断的兴趣激增。这是由于他们有能力创建具有不同级别的并行性的自定义设计。此外,与GPU相比,FPGA提供每瓦的性能更好。基于FPGA的CNN加速器的当前趋势是实现多个卷积层处理器(CLP),每个处理器都针对一层层量身定制。但是,CNN体系结构的日益增长的复杂性使得优化目标FPGA设备上可用的资源,以使最佳性能更具挑战性。在本文中,我们提出了CNN加速器和随附的自动设计方法,该方法采用元启发式学来分区可用的FPGA资源来设计多CLP加速器。具体而言,提出的设计工具采用模拟退火(SA)和禁忌搜索(TS)算法来查找所需的CLP数量及其各自的配置,以在给定的目标FPGA设备上实现最佳性能。在这里,重点是关键规格和硬件资源,包括数字信号处理器,阻止RAM和芯片内存储器带宽。提出了使用四个众所周知的基准CNN的实验结果和比较,表明所提出的加速框架既令人鼓舞又有前途。基于SA-/TS的多CLP比在加速Alexnet,Squeezenet 1.1,VGGNET和Googlenet架构上的最新单个/多CLP方法高1.31x-2.37倍高2.37倍。和VC709 FPGA板。
translated by 谷歌翻译
只要可以预见的是测试代码的固有特征,可以大大降低测试的高成本。本文提供了一种机器学习模型,以预测测试可以在多大程度上覆盖一个名为Coverabeality的新指标。预测模型由四个回归模型的集合组成。学习样本由特征向量组成,其中特征是为类计算的源代码指标。样品由针对其相应类计算的覆盖率值标记。我们提供了一个数学模型,以评估每个班级自动生成的测试套件的尺寸和覆盖范围的测试效果。我们通过引入一种新方法来根据现有源代码指标来定义子计量数来扩展功能空间的大小。使用功能重要性分析在学习的预测模型上,我们按照对测试效果的影响顺序对源代码指标进行排序。结果,我们发现类别严格的循环复杂性是最有影响力的源代码度量。我们对包含大约23,000个类的大型Java项目的预测模型进行的实验表明,平均绝对误差(MAE)为0.032,平均平方误差(MSE)为0.004,R2得分为0.855。与最先进的覆盖范围预测模型相比,我们的模型分别提高了MAE,MSE和R2得分5.78%,2.84%和20.71%。
translated by 谷歌翻译