在过去的几十年中,人工智能(AI)和更具体地进行机械学习的应用,对物理科学进行了显着扩展。特别是,科学知情的AI或科学AI从专注于数据分析到现在控制闭环自主系统中的实验设计,仿真,执行和分析。客串(闭环自主材料勘探和优化)算法采用科学AI来解决两项任务:学习材料系统的组成结构关系,鉴定具有最佳功能性的材料组合物。通过对此进行整合,对构图相图进行了筛选的加速材料,导致发现最佳相变存储器材料。这一成功的关键是能够引导后续测量来最大化构图结构关系或相位图的知识。在这项工作中,我们调查将不同水平的先前物理知识纳入Careo的自主阶段映射的益处。这包括使用来自AFLOW存储库的AB-Initio相位边界数据,这些数据已被示出为在作为先前使用时优化Careo的搜索。
translated by 谷歌翻译
自主物理科学领域 - 机器学习指南和从闭环中的实验中学习的领域正在迅速增长。自主系统使科学家能够更聪明,学习速度更快,并在其研究中花费更少的资源。该领域有望改善各种设施的性能,例如实验室,研发管道和仓库。随着自主系统的数量,能力和复杂性的增长,出现了新的挑战 - 这些系统将如何在大型设施中共同运行?我们探索了这个问题的一种解决方案 - 一个多代理框架。我们展示了一个具有1)具有现实资源限制的模拟设施,例如设备使用限制,2)具有多种学习能力和目标的机器学习代理,对实验室仪器的控制以及运行研究活动的能力以及3)网络这些代理可以共享知识并共同努力以实现个人或集体目标。该框架被称为多代理自治设施 - 可扩展的框架又称多任务。多任务允许整个设施的模拟,包括代理启动和代理代理交互。框架模块化使真实世界的自主空间可以阶段上线,模拟仪器逐渐被现实世界的仪器代替。在这里,我们通过模拟材料实验室中的材料探索和优化的现实世界材料科学挑战演示了框架。我们希望该框架在基于代理的设施控制场景中开辟了新的研究领域基于游戏理论。
translated by 谷歌翻译
下一代物理科学涉及机器人科学家 - 自主物理科学系统,能够在封闭环中实验设计,执行和分析。这样的系统已显示出对科学探索和发现的现实成功,包括首次发现一流的材料。为了构建和使用这些系统,下一代劳动力需要在不同领域的专业知识,包括ML,控制系统,测量科学,材料合成,决策理论等。但是,教育滞后。教育工作者需要一个低成本,易于使用的平台来教授所需的技能。行业还可以使用这样的平台来开发和评估自主物理科学方法论。我们介绍了科学教育的下一代,这是建立低成本自治科学家的套件。该套件在马里兰州大学的两门课程中用于教授本科和研究生自治物理科学。我们以自主模型探索,优化和确定的双重任务来讨论其在课程中的用途及其更大的能力,并以自主实验的“发现”为例。
translated by 谷歌翻译
人工智能(AI)启用的自主实验为加速科学发现提供了新的范式。非平衡材料合成是复杂,资源密集型实验的象征性,其加速将是物料发现和发展的流域。最近通过高吞吐量实验加速了非平衡合成相图的映射,但仍然限制了材料研究,因为参数空间太大而无法彻底探索。我们通过科学自主推理代理(SARA)管辖的分层自主实验,证明了加速的合成和促进亚稳材料。 SARA将机器人材料合成和表征与AI方法的层次集成,有效地揭示了处理相图的结构。 SARA设计横向梯度激光尖峰退火(LG-LSA)实验,用于平行材料合成,采用光学光谱速度迅速识别相转变。利用嵌套的主动学习(AL)周期实现了多维参数空间的高效探索,该嵌套主动学习模型包括实验的底层物理以及端到端的不确定性量化。有了这个,萨拉在多种尺度处的协调体现了复杂的科学任务的AI利用。我们通过自主映射综合映射_3 $ System的综合相位边界来展示其性能,导致幅度加速度,即建立一个合成相图,其中包括动力学稳定$ \ delta $ -bi $的条件_2 $ o $ _3 $在室温下,用于氧化固体氧化物燃料电池等电化学技术的关键开发。
translated by 谷歌翻译
机器学习方法的最新进展以及扫描探针显微镜(SPMS)的可编程接口的新兴可用性使自动化和自动显微镜在科学界的关注方面推向了最前沿。但是,启用自动显微镜需要开发特定于任务的机器学习方法,了解物理发现与机器学习之间的相互作用以及完全定义的发现工作流程。反过来,这需要平衡领域科学家的身体直觉和先验知识与定义实验目标和机器学习算法的奖励,这些算法可以将它们转化为特定的实验协议。在这里,我们讨论了贝叶斯活跃学习的基本原理,并说明了其对SPM的应用。我们从高斯过程作为一种简单的数据驱动方法和对物理模型的贝叶斯推断作为基于物理功能的扩展的贝叶斯推断,再到更复杂的深内核学习方法,结构化的高斯过程和假设学习。这些框架允许使用先验数据,在光谱数据中编码的特定功能以及在实验过程中表现出的物理定律的探索。讨论的框架可以普遍应用于结合成像和光谱,SPM方法,纳米识别,电子显微镜和光谱法以及化学成像方法的所有技术,并且对破坏性或不可逆测量的影响特别影响。
translated by 谷歌翻译
成像,散射和光谱是理解和发现新功能材料的基础。自动化和实验技术的当代创新导致这些测量更快,分辨率更高,从而产生了大量的分析数据。这些创新在用户设施和同步射击光源时特别明显。机器学习(ML)方法经常开发用于实时地处理和解释大型数据集。然而,仍然存在概念障碍,进入设施一般用户社区,通常缺乏ML的专业知识,以及部署ML模型的技术障碍。在此,我们展示了各种原型ML模型,用于在国家同步光源II(NSLS-II)的多个波束线上在飞行分析。我们谨慎地描述这些示例,专注于将模型集成到现有的实验工作流程中,使得读者可以容易地将它们自己的ML技术与具有普通基础设施的NSLS-II或设施的实验中的实验。此处介绍的框架展示了几乎没有努力,多样化的ML型号通过集成到实验编程和数据管理的现有Blueske套件中与反馈回路一起运行。
translated by 谷歌翻译
机器学习(ML)为生物处理工程的发展做出了重大贡献,但其应用仍然有限,阻碍了生物过程自动化的巨大潜力。用于模型构建自动化的ML可以看作是引入另一种抽象水平的一种方式,将专家的人类集中在生物过程开发的最认知任务中。首先,概率编程用于预测模型的自动构建。其次,机器学习会通过计划实验来测试假设并进行调查以收集信息性数据来自动评估替代决策,以收集基于模型预测不确定性的模型选择的信息数据。这篇评论提供了有关生物处理开发中基于ML的自动化的全面概述。一方面,生物技术和生物工程社区应意识到现有ML解决方案在生物技术和生物制药中的应用的限制。另一方面,必须确定缺失的链接,以使ML和人工智能(AI)解决方案轻松实施在有价值的生物社区解决方案中。我们总结了几个重要的生物处理系统的ML实施,并提出了两个至关重要的挑战,这些挑战仍然是生物技术自动化的瓶颈,并减少了生物技术开发的不确定性。没有一个合适的程序;但是,这项综述应有助于确定结合生物技术和ML领域的潜在自动化。
translated by 谷歌翻译
分类模型是物理资产管理技术的基本组成部分,如结构健康监测(SHM)系统和数字双胞胎。以前的工作介绍了\ Texit {基于风险的主动学习},一种在线方法,用于开发考虑它们所应用的决策支持上下文的统计分类器。通过优先查询数据标签来考虑决策,根据\ Textit {完美信息的预期值}(EVPI)。虽然通过采用基于风险的主动学习方法获得了几种好处,但包括改进的决策性能,但算法遭受与引导查询过程的采样偏差有关的问题。这种采样偏差最终表现为在主动学习后的后期阶段的决策表现的下降,这又对应于丢失的资源/实用程序。目前的论文提出了两种新方法来抵消采样偏置的影响:\纺织{半监督学习},以及\ extentit {鉴别的分类模型}。首先使用合成数据集进行这些方法,然后随后应用于实验案例研究,具体地,Z24桥数据集。半监督学习方法显示有变量性能;具有稳健性,对采样偏置依赖于对每个数据集选择模型所选择的生成分布的适用性。相反,判别分类器被证明对采样偏压的影响具有优异的鲁棒性。此外,发现在监控运动期间进行的检查数,因此可以通过仔细选择决策支持监测系统中使用的统计分类器的仔细选择来减少。
translated by 谷歌翻译
Despite the huge advancement in knowledge discovery and data mining techniques, the X-ray diffraction (XRD) analysis process has mostly remained untouched and still involves manual investigation, comparison, and verification. Due to the large volume of XRD samples from high-throughput XRD experiments, it has become impossible for domain scientists to process them manually. Recently, they have started leveraging standard clustering techniques, to reduce the XRD pattern representations requiring manual efforts for labeling and verification. Nevertheless, these standard clustering techniques do not handle problem-specific aspects such as peak shifting, adjacent peaks, background noise, and mixed phases; hence, resulting in incorrect composition-phase diagrams that complicate further steps. Here, we leverage data mining techniques along with domain expertise to handle these issues. In this paper, we introduce an incremental phase mapping approach based on binary peak representations using a new threshold based fuzzy dissimilarity measure. The proposed approach first applies an incremental phase computation algorithm on discrete binary peak representation of XRD samples, followed by hierarchical clustering or manual merging of similar pure phases to obtain the final composition-phase diagram. We evaluate our method on the composition space of two ternary alloy systems- Co-Ni-Ta and Co-Ti-Ta. Our results are verified by domain scientists and closely resembles the manually computed ground-truth composition-phase diagrams. The proposed approach takes us closer towards achieving the goal of complete end-to-end automated XRD analysis.
translated by 谷歌翻译
在许多科学领域中发现一个有意义的,尺寸同质的,象征性的表达是一个基本挑战。我们提出了一个新颖的开源计算框架,称为科学家机器方程探测器(Scimed),该框架将科学纪律智慧与科学家在循环的方法中融合在一起,并将其与最先进的符号回归(SR)方法相结合。Scimed将基于遗传算法的包装器选择方法与自动机器学习和两个SR方法结合在一起。我们对具有和没有非线性空气动力学阻力的球体沉降的四个配置进行了测试。我们表明,疲惫不堪的人足够坚固,可以从嘈杂的数据中发现正确的物理有意义的符号表达式。我们的结果表明,与最先进的SR软件包相比,这些任务的性能更好。
translated by 谷歌翻译
虽然数据驱动的材料科学和化学方法采用了令人兴奋的,早期的阶段,实现了机器学习模型的真正潜力,以实现科学发现,它们必须具有超出纯粹预测力的品质。模型的预测和内在工作应由人类专家提供一定程度的解释性,允许识别潜在的模型问题或限制,建立对模型预测的信任和揭示可能导致科学洞察力的意外相关性。在这项工作中,我们总结了对材料科学和化学的可解释性和解释性技术的应用,并讨论了这些技术如何改善科学研究的结果。我们讨论了材料科学中可解释机器学习的各种挑战,更广泛地在科学环境中。特别是,我们强调通过纯粹解释机器学习模型和模型解释的不确定性估计的不确定估计来强调推断因果关系或达到泛化的风险。最后,我们在其他领域展示了一些可能会使物质科学和化学问题的可解释性的令人兴奋的发展。
translated by 谷歌翻译
Agent-based modeling (ABM) is a well-established paradigm for simulating complex systems via interactions between constituent entities. Machine learning (ML) refers to approaches whereby statistical algorithms 'learn' from data on their own, without imposing a priori theories of system behavior. Biological systems -- from molecules, to cells, to entire organisms -- consist of vast numbers of entities, governed by complex webs of interactions that span many spatiotemporal scales and exhibit nonlinearity, stochasticity and intricate coupling between entities. The macroscopic properties and collective dynamics of such systems are difficult to capture via continuum modelling and mean-field formalisms. ABM takes a 'bottom-up' approach that obviates these difficulties by enabling one to easily propose and test a set of well-defined 'rules' to be applied to the individual entities (agents) in a system. Evaluating a system and propagating its state over discrete time-steps effectively simulates the system, allowing observables to be computed and system properties to be analyzed. Because the rules that govern an ABM can be difficult to abstract and formulate from experimental data, there is an opportunity to use ML to help infer optimal, system-specific ABM rules. Once such rule-sets are devised, ABM calculations can generate a wealth of data, and ML can be applied there too -- e.g., to probe statistical measures that meaningfully describe a system's stochastic properties. As an example of synergy in the other direction (from ABM to ML), ABM simulations can generate realistic datasets for training ML algorithms (e.g., for regularization, to mitigate overfitting). In these ways, one can envision various synergistic ABM$\rightleftharpoons$ML loops. This review summarizes how ABM and ML have been integrated in contexts that span spatiotemporal scales, from cellular to population-level epidemiology.
translated by 谷歌翻译
Growing materials data and data-driven informatics drastically promote the discovery and design of materials. While there are significant advancements in data-driven models, the quality of data resources is less studied despite its huge impact on model performance. In this work, we focus on data bias arising from uneven coverage of materials families in existing knowledge. Observing different diversities among crystal systems in common materials databases, we propose an information entropy-based metric for measuring this bias. To mitigate the bias, we develop an entropy-targeted active learning (ET-AL) framework, which guides the acquisition of new data to improve the diversity of underrepresented crystal systems. We demonstrate the capability of ET-AL for bias mitigation and the resulting improvement in downstream machine learning models. This approach is broadly applicable to data-driven materials discovery, including autonomous data acquisition and dataset trimming to reduce bias, as well as data-driven informatics in other scientific domains.
translated by 谷歌翻译
COVID-19的大流行提出了对多个领域决策者的流行预测的重要性,从公共卫生到整个经济。虽然预测流行进展经常被概念化为类似于天气预测,但是它具有一些关键的差异,并且仍然是一项非平凡的任务。疾病的传播受到人类行为,病原体动态,天气和环境条件的多种混杂因素的影响。由于政府公共卫生和资助机构的倡议,捕获以前无法观察到的方面的丰富数据来源的可用性增加了研究的兴趣。这尤其是在“以数据为中心”的解决方案上进行的一系列工作,这些解决方案通过利用非传统数据源以及AI和机器学习的最新创新来增强我们的预测能力的潜力。这项调查研究了各种数据驱动的方法论和实践进步,并介绍了一个概念框架来导航它们。首先,我们列举了与流行病预测相关的大量流行病学数据集和新的数据流,捕获了各种因素,例如有症状的在线调查,零售和商业,流动性,基因组学数据等。接下来,我们将讨论关注最近基于数据驱动的统计和深度学习方法的方法和建模范式,以及将机械模型知识域知识与统计方法的有效性和灵活性相结合的新型混合模型类别。我们还讨论了这些预测系统的现实部署中出现的经验和挑战,包括预测信息。最后,我们重点介绍了整个预测管道中发现的一些挑战和开放问题。
translated by 谷歌翻译
在2015年和2019年之间,地平线的成员2020年资助的创新培训网络名为“Amva4newphysics”,研究了高能量物理问题的先进多变量分析方法和统计学习工具的定制和应用,并开发了完全新的。其中许多方法已成功地用于提高Cern大型Hadron撞机的地图集和CMS实验所执行的数据分析的敏感性;其他几个人,仍然在测试阶段,承诺进一步提高基本物理参数测量的精确度以及新现象的搜索范围。在本文中,在研究和开发的那些中,最相关的新工具以及对其性能的评估。
translated by 谷歌翻译
制定和实施结构健康监测系统的主要动机是获得有关制定结构和维护结构和维护的能力的前景。遗憾的是,对于对应于感兴趣结构的健康状态信息的测量数据的描述性标签很少在监控系统之前可用。该问题限制了传统监督和无监督方法对机器学习的适用性,以便在统计分类机制下进行决策支持SHM系统。本文提出了一种基于风险的主动学习的制定,其中类标签信息的查询被每个初期数据点的所述信息的预期值引导。当应用于结构性健康监测时,可以将类标签查询映射到兴趣结构的检查中,以确定其健康状态。在本文中,通过代表数值示例解释和可视化基于风险的主动学习过程,随后应用于Z24桥梁基准。案例研究结果表明,通过统计分类器的基于风险的主动学习可以改善决策者的性能,从而考虑决策过程本身。
translated by 谷歌翻译
“技术彩票”描述了一种研究思想或技术,因为它适合可用的软件和硬件,而不一定是因为它优于替代方向 - 审查是从深度学习和GPU的协同作用到GPU的协同效应,城市设计和自动驾驶汽车的断开连接。自动驾驶实验室(SDL)的新生领域,尤其是作为材料加速平台(地图)实施的新生领域,有类似陷阱的风险:构建地图的下一个逻辑步骤是采用现有的实验室设备和工作流并混合一些AI和自动化。在此白皮书中,我们认为,作为地图研究计划的一部分,将加速搜索新材料的相同模拟和AI工具也使得设计了根本新的计算媒体的设计。我们不必受到科学,机电一体化和通用计算的现有偏见的限制,而是我们可以通过网络物理学习和闭环,自我优化系统来追求工程物理学的新向量。在这里,我们概述了一个基于仿真的地图程序来设计使用物理本身来解决优化问题的计算机。这样的系统减轻了其他每类地图中存在的硬件软件 - 材料用户信息损失,并且它们在计算问题和计算介质之间完全对齐消除了任何技术彩票。我们提供了迈向早期“物理计算(PC)-MAP”进步的具体步骤,以及我们希望在材料研究人员和计算机科学家之间引入创新合作的新时代。
translated by 谷歌翻译
信号处理是几乎任何传感器系统的基本组件,具有不同科学学科的广泛应用。时间序列数据,图像和视频序列包括可以增强和分析信息提取和量化的代表性形式的信号。人工智能和机器学习的最近进步正在转向智能,数据驱动,信号处理的研究。该路线图呈现了最先进的方法和应用程序的关键概述,旨在突出未来的挑战和对下一代测量系统的研究机会。它涵盖了广泛的主题,从基础到工业研究,以简明的主题部分组织,反映了每个研究领域的当前和未来发展的趋势和影响。此外,它为研究人员和资助机构提供了识别新前景的指导。
translated by 谷歌翻译
Bayesian optimization (BO) is one of the most effective methods for closed-loop experimental design and black-box optimization. However, a key limitation of BO is that it is an inherently sequential algorithm (one experiment is proposed per round) and thus cannot directly exploit high-throughput (parallel) experiments. Diverse modifications to the BO framework have been proposed in the literature to enable exploitation of parallel experiments but such approaches are limited in the degree of parallelization that they can achieve and can lead to redundant experiments (thus wasting resources and potentially compromising performance). In this work, we present new parallel BO paradigms that exploit the structure of the system to partition the design space. Specifically, we propose an approach that partitions the design space by following the level sets of the performance function and an approach that exploits partially-separable structures of the performance function found. We conduct extensive numerical experiments using a reactor case study to benchmark the effectiveness of these approaches against a variety of state-of-the-art parallel algorithms reported in the literature. Our computational results show that our approaches significantly reduce the required search time and increase the probability of finding a global (rather than local) solution.
translated by 谷歌翻译
评估能源转型和能源市场自由化对资源充足性的影响是一种越来越重要和苛刻的任务。能量系统的上升复杂性需要足够的能量系统建模方法,从而提高计算要求。此外,随着复杂性,同样调用概率评估和场景分析同样增加不确定性。为了充分和高效地解决这些各种要求,需要来自数据科学领域的新方法来加速当前方法。通过我们的系统文献综述,我们希望缩小三个学科之间的差距(1)电力供应安全性评估,(2)人工智能和(3)实验设计。为此,我们对所选应用领域进行大规模的定量审查,并制作彼此不同学科的合成。在其他发现之外,我们使用基于AI的方法和应用程序的AI方法和应用来确定电力供应模型的复杂安全性的元素,并作为未充分涵盖的应用领域的储存调度和(非)可用性。我们结束了推出了一种新的方法管道,以便在评估电力供应安全评估时充分有效地解决当前和即将到来的挑战。
translated by 谷歌翻译