通常,大型数据集使深度学习模型能够以良好的准确性和可推广性能。但是,大规模的高保真仿真数据集(来自分子化学,天体物理学,计算流体动力学(CFD)等,由于维度和存储限制,策划的策划可能具有挑战性。损失的压缩算法可以帮助减轻存储的限制,只要很长时间保留了总体数据保真度。为了说明这一点,我们证明了对佩斯卡尔CFD模拟的数据进行了训练和测试的深度学习模型,对在语义细分问题中有损耗的压缩期间引入的错误是可靠的。我们的结果表明,有损压缩算法提供了一种现实的途径,可以将高保真科学数据暴露到开放源数据存储库中,以构建社区数据集。在本文中,我们概述,构建和评估建立大数据框架的要求,在https:// bastnet上证明。 github.io/,用于科学机器学习。
translated by 谷歌翻译
遇到错误的损耗压缩正成为必不可少的技术,即当今科学项目的成功,并在模拟或仪器数据获取过程中产生了大量数据。它不仅可以显着减少数据大小,而且还可以基于用户指定的错误界限控制压缩错误。自动编码器(AE)模型已被广泛用于图像压缩中,但是很少有基于AE的压缩方法支持遇到错误的功能,这是科学应用所要求的。为了解决这个问题,我们使用卷积自动编码器探索以改善科学数据的错误损失压缩,并提供以下三个关键贡献。 (1)我们对各种自动编码器模型的特性进行了深入的研究,并根据SZ模型开发了基于错误的自动编码器的框架。 (2)我们在设计的基于AE的错误压缩框架中优化了主要阶段的压缩质量,并微调块大小和潜在尺寸,并优化了潜在向量的压缩效率。 (3)我们使用五个现实世界的科学数据集评估了我们提出的解决方案,并将其与其他六项相关作品进行了比较。实验表明,我们的解决方案在测试中的所有压缩机中表现出非常具有竞争性的压缩质量。从绝对的角度来看,与SZ2.1和ZFP相比,在高压比的情况下,它可以获得更好的压缩质量(压缩率和相同数据失真的100%〜800%提高)。
translated by 谷歌翻译
我们展示了OpenFWI,是用于地震全波形反演(FWI)的大型开源基准数据集的集合。OpenFWI是地球科学和机器学习界的一流,以促进对基于机器学习的FWI多元化,严谨和可重复的研究。OpenFWI包括多个尺度的数据集,包含不同的域,涵盖各种级别的模型复杂性。除了数据集之外,我们还对每个数据集进行实证研究,具有完全卷积的深度学习模型。OpenFWI已被核心维护,并将通过新数据和实验结果定期更新。我们感谢社区的投入,帮助我们进一步改进OpenFWI。在当前版本,我们在OpenFWI中发布了七个数据集,其中为3D FWI指定了一个,其余的是2D场景。所有数据集和相关信息都可以通过我们的网站访问https://openfwi.github.io/。
translated by 谷歌翻译
Machine learning-based modeling of physical systems has experienced increased interest in recent years. Despite some impressive progress, there is still a lack of benchmarks for Scientific ML that are easy to use but still challenging and representative of a wide range of problems. We introduce PDEBench, a benchmark suite of time-dependent simulation tasks based on Partial Differential Equations (PDEs). PDEBench comprises both code and data to benchmark the performance of novel machine learning models against both classical numerical simulations and machine learning baselines. Our proposed set of benchmark problems contribute the following unique features: (1) A much wider range of PDEs compared to existing benchmarks, ranging from relatively common examples to more realistic and difficult problems; (2) much larger ready-to-use datasets compared to prior work, comprising multiple simulation runs across a larger number of initial and boundary conditions and PDE parameters; (3) more extensible source codes with user-friendly APIs for data generation and baseline results with popular machine learning models (FNO, U-Net, PINN, Gradient-Based Inverse Method). PDEBench allows researchers to extend the benchmark freely for their own purposes using a standardized API and to compare the performance of new models to existing baseline methods. We also propose new evaluation metrics with the aim to provide a more holistic understanding of learning methods in the context of Scientific ML. With those metrics we identify tasks which are challenging for recent ML methods and propose these tasks as future challenges for the community. The code is available at https://github.com/pdebench/PDEBench.
translated by 谷歌翻译
使用机器学习算法来预测复杂系统的行为正在蓬勃发展。但是,在包括燃烧在内的多物理问题中有效利用机器学习工具的关键是将它们与物理和计算机模型搭配使用。如果所有先验知识和物理约束都体现了这些工具的性能。换句话说,必须对科学方法进行调整,以使机器学习进入图片,并充分利用我们生成的大量数据,这要归功于数值计算的进步。本章回顾了一些开放的机会,用于应用燃烧系统的数据驱动的减少订单建模。提供了湍流燃烧数据,经验低维歧管(ELDM)识别,分类,回归和降低阶数模型中特征提取的示例。
translated by 谷歌翻译
延时电阻率断层扫描(ERT)是一种流行的地球物理方法,可从电势差测量中估算三维(3D)通透性场。传统的反转和数据同化方法用于将这些数据吸收到水域模型中以估计渗透性。由于不适合性和维度的诅咒,现有的反转策略提供了较差的估计值和3D渗透率场的低分辨率。深度学习的最新进展为我们提供了强大的算法来克服这一挑战。本文提出了一个深度学习(DL)框架,以估算从延时ERT数据中的3D地下渗透性。为了测试所提出的框架的可行性,我们在模拟数据上训练了启用DL的逆模型。基于水域物理学的地下过程模型用于生成此合成数据以进行深度学习分析。结果表明,拟议的弱监督学习可以捕获3D渗透性领域中的显着空间特征。在数量上,在标记的训练,验证和测试数据集的平均平方平方误差(就自然日志而言)小于0.5。 R2评分(全局度量)大于0.75,每个单元格(本地度量)的百分比误差小于10%。最后,在计算成本方面的额外好处是,所提出的基于DL的反向模型至少比运行正向模型快的速度(104)倍。请注意,传统倒置可能需要多个前向模型模拟(例如,按10到1000的顺序),这非常昂贵。这种计算节省(O(105)-O(107))使提出的基于DL的逆模型具有对地下成像和实时ERT监视应用程序的吸引力,这是由于快速而相当准确的渗透性场估计。
translated by 谷歌翻译
科学机器学习的进步改善了现代计算科学和工程应用。数据驱动的方法(例如动态模式分解(DMD))可以从动态系统生成的时空数据中提取相干结构,并推断上述系统的不同方案。时空数据作为快照,每次瞬间包含空间信息。在现代工程应用中,高维快照的产生可能是时间和/或资源要求。在本研究中,我们考虑了在大型数值模拟中增强DMD工作流程的两种策略:(i)快照压缩以减轻磁盘压力; (ii)使用原位可视化图像在运行时重建动力学(或部分)。我们通过两个3D流体动力学模拟评估我们的方法,并考虑DMD重建解决方案。结果表明,快照压缩大大减少了所需的磁盘空间。我们已经观察到,损耗的压缩将存储降低了几乎$ 50 \%$,而信号重建和其他关注数量的相对错误则较低。我们还使用原位可视化工具将分析扩展到了直接生成的数据,在运行时生成状态向量的图像文件。在大型模拟中,快照的产生可能足够慢,可以使用批处理算法进行推理。流DMD利用增量SVD算法,并随着每个新快照的到来更新模式。我们使用流式DMD来重建原位生成的图像的动力学。我们证明此过程是有效的,并且重建的动力学是准确的。
translated by 谷歌翻译
Data compression is becoming critical for storing scientific data because many scientific applications need to store large amounts of data and post process this data for scientific discovery. Unlike image and video compression algorithms that limit errors to primary data, scientists require compression techniques that accurately preserve derived quantities of interest (QoIs). This paper presents a physics-informed compression technique implemented as an end-to-end, scalable, GPU-based pipeline for data compression that addresses this requirement. Our hybrid compression technique combines machine learning techniques and standard compression methods. Specifically, we combine an autoencoder, an error-bounded lossy compressor to provide guarantees on raw data error, and a constraint satisfaction post-processing step to preserve the QoIs within a minimal error (generally less than floating point error). The effectiveness of the data compression pipeline is demonstrated by compressing nuclear fusion simulation data generated by a large-scale fusion code, XGC, which produces hundreds of terabytes of data in a single day. Our approach works within the ADIOS framework and results in compression by a factor of more than 150 while requiring only a few percent of the computational resources necessary for generating the data, making the overall approach highly effective for practical scenarios.
translated by 谷歌翻译
海洋生态系统及其鱼类栖息地越来越重要,因为它们在提供有价值的食物来源和保护效果方面的重要作用。由于它们的偏僻且难以接近自然,因此通常使用水下摄像头对海洋环境和鱼类栖息地进行监测。这些相机产生了大量数字数据,这些数据无法通过当前的手动处理方法有效地分析,这些方法涉及人类观察者。 DL是一种尖端的AI技术,在分析视觉数据时表现出了前所未有的性能。尽管它应用于无数领域,但仍在探索其在水下鱼类栖息地监测中的使用。在本文中,我们提供了一个涵盖DL的关键概念的教程,该教程可帮助读者了解对DL的工作原理的高级理解。该教程还解释了一个逐步的程序,讲述了如何为诸如水下鱼类监测等挑战性应用开发DL算法。此外,我们还提供了针对鱼类栖息地监测的关键深度学习技术的全面调查,包括分类,计数,定位和细分。此外,我们对水下鱼类数据集进行了公开调查,并比较水下鱼类监测域中的各种DL技术。我们还讨论了鱼类栖息地加工深度学习的新兴领域的一些挑战和机遇。本文是为了作为希望掌握对DL的高级了解,通过遵循我们的分步教程而为其应用开发的海洋科学家的教程,并了解如何发展其研究,以促进他们的研究。努力。同时,它适用于希望调查基于DL的最先进方法的计算机科学家,以进行鱼类栖息地监测。
translated by 谷歌翻译
由于极大数量的参数和评估标准和再现性,机器学习长期以来被视为黑盒子,用于预测燃烧化学动力学和缺乏评估标准和再现性。目前的工作旨在了解关于深度神经网络(DNN)方法的两个基本问题:DNN需要的数据以及DNN方法的一般数据。采样和预处理确定DNN训练数据集,进一步影响DNN预测能力。目前的工作建议使用Box-Cox转换(BCT)来预处理燃烧数据。此外,这项工作比较了在没有预处理的情况下进行了不同的采样方法,包括蒙特卡罗方法,歧管采样,生成神经网络方法(Cycle-GaN)和新提出的多尺度采样。我们的研究结果表明,通过歧管数据训练的DNN可以以有限的配置捕获化学动力学,但不能对扰动牢固,这对于与流场联系的DNN是不可避免的。蒙特卡罗和循环甘套采样可以覆盖更宽的相位空间,但不能捕获小规模的中间物种,产生差的预测结果。基于没有特定火焰仿真数据的多尺度方法的三层DNN,允许在各种场景中预测化学动力学并在时间的演变期间保持稳定。该单个DNN易于用几个CFD代码实现并在各种燃烧器中验证,包括(1)。零维自动化,(2)。一维自由传播火焰,(3)。具有三重火焰结构的二维喷射火焰,和(4)。三维湍流升降火焰。结果证明了预先训练的DNN的令人满意的准确性和泛化能力。 DNN和示例代码的FORTRAN和PYTHON版本在补充中附加了再现性。
translated by 谷歌翻译
机器学习正迅速成为科学计算的核心技术,并有许多机会推进计算流体动力学领域。从这个角度来看,我们强调了一些潜在影响最高的领域,包括加速直接数值模拟,以改善湍流闭合建模,并开发增强的减少订单模型。我们还讨论了机器学习的新兴领域,这对于计算流体动力学以及应考虑的一些潜在局限性是有希望的。
translated by 谷歌翻译
在许多重要的科学和工程应用中发现了卷数据。渲染此数据以高质量和交互速率为苛刻的应用程序(例如虚拟现实)的可视化化,即使使用专业级硬件也无法实现。我们介绍了Fovolnet - 一种可显着提高数量数据可视化的性能的方法。我们开发了一种具有成本效益的渲染管道,该管道稀疏地对焦点进行了量度,并使用深层神经网络重建了全帧。 FOVEATED渲染是一种优先考虑用户焦点渲染计算的技术。这种方法利用人类视觉系统的属性,从而在用户视野的外围呈现数据时节省了计算资源。我们的重建网络结合了直接和内核预测方法,以产生快速,稳定和感知令人信服的输出。凭借纤细的设计和量化的使用,我们的方法在端到端框架时间和视觉质量中都优于最先进的神经重建技术。我们对系统的渲染性能,推理速度和感知属性进行了广泛的评估,并提供了与竞争神经图像重建技术的比较。我们的测试结果表明,Fovolnet始终在保持感知质量的同时,在传统渲染上节省了大量时间。
translated by 谷歌翻译
高维时空动力学通常可以在低维子空间中编码。用于建模,表征,设计和控制此类大规模系统的工程应用通常依赖于降低尺寸,以实时计算解决方案。降低维度的常见范例包括线性方法,例如奇异值分解(SVD)和非线性方法,例如卷积自动编码器(CAE)的变体。但是,这些编码技术缺乏有效地表示与时空数据相关的复杂性的能力,后者通常需要可变的几何形状,非均匀的网格分辨率,自适应网格化和/或参数依赖性。为了解决这些实用的工程挑战,我们提出了一个称为神经隐式流(NIF)的一般框架,该框架可以实现大型,参数,时空数据的网格不稳定,低级别表示。 NIF由两个修改的多层感知器(MLP)组成:(i)shapenet,它分离并代表空间复杂性,以及(ii)参数,该参数解释了任何其他输入复杂性,包括参数依赖关系,时间和传感器测量值。我们演示了NIF用于参数替代建模的实用性,从而实现了复杂时空动力学的可解释表示和压缩,有效的多空间质量任务以及改善了稀疏重建的通用性能。
translated by 谷歌翻译
数值模拟中信息丢失可能来自各种来源,同时求解离散的部分微分方程。特别地,与等效的64位模拟相比,使用低精确的16位浮点算术进行模拟时,与精度相关的错误可能会积累在关注量中。在这里,低精度计算所需的资源要比高精度计算要低得多。最近提出的几种机器学习(ML)技术已成功纠正空间离散化引起的错误。在这项工作中,我们扩展了这些技术,以改善使用低数值精度进行的计算流体动力学(CFD)模拟。我们首先量化了在Kolmogorov强制湍流测试案例中累积的精度相关误差。随后,我们采用了卷积神经网络以及执行16位算术的完全可区分的数值求解器,以学习紧密耦合的ML-CFD混合求解器。与16位求解器相比,我们证明了ML-CFD混合求解器在减少速度场中的误差积累并在较高频率下改善动能光谱的功效。
translated by 谷歌翻译
Surrogate models are necessary to optimize meaningful quantities in physical dynamics as their recursive numerical resolutions are often prohibitively expensive. It is mainly the case for fluid dynamics and the resolution of Navier-Stokes equations. However, despite the fast-growing field of data-driven models for physical systems, reference datasets representing real-world phenomena are lacking. In this work, we develop AirfRANS, a dataset for studying the two-dimensional incompressible steady-state Reynolds-Averaged Navier-Stokes equations over airfoils at a subsonic regime and for different angles of attacks. We also introduce metrics on the stress forces at the surface of geometries and visualization of boundary layers to assess the capabilities of models to accurately predict the meaningful information of the problem. Finally, we propose deep learning baselines on four machine learning tasks to study AirfRANS under different constraints for generalization considerations: big and scarce data regime, Reynolds number, and angle of attack extrapolation.
translated by 谷歌翻译
物理信息的神经网络(PINN)是神经网络(NNS),它们作为神经网络本身的组成部分编码模型方程,例如部分微分方程(PDE)。如今,PINN是用于求解PDE,分数方程,积分分化方程和随机PDE的。这种新颖的方法已成为一个多任务学习框架,在该框架中,NN必须在减少PDE残差的同时拟合观察到的数据。本文对PINNS的文献进行了全面的综述:虽然该研究的主要目标是表征这些网络及其相关的优势和缺点。该综述还试图将出版物纳入更广泛的基于搭配的物理知识的神经网络,这些神经网络构成了香草·皮恩(Vanilla Pinn)以及许多其他变体,例如物理受限的神经网络(PCNN),各种HP-VPINN,变量HP-VPINN,VPINN,VPINN,变体。和保守的Pinn(CPINN)。该研究表明,大多数研究都集中在通过不同的激活功能,梯度优化技术,神经网络结构和损耗功能结构来定制PINN。尽管使用PINN的应用范围广泛,但通过证明其在某些情况下比有限元方法(FEM)等经典数值技术更可行的能力,但仍有可能的进步,最著名的是尚未解决的理论问题。
translated by 谷歌翻译
Despite great progress in simulating multiphysics problems using the numerical discretization of partial differential equations (PDEs), one still cannot seamlessly incorporate noisy data into existing algorithms, mesh generation remains complex, and high-dimensional problems governed by parameterized PDEs cannot be tackled. Moreover, solving inverse problems with hidden physics is often prohibitively expensive and requires different formulations and elaborate computer codes. Machine learning has emerged as a promising alternative, but training deep neural networks requires big data, not always available for scientific problems. Instead, such networks can be trained from additional information obtained by enforcing the physical laws (for example, at random points in the continuous space-time domain). Such physics-informed learning integrates (noisy) data and mathematical models, and implements them through neural networks or other kernel-based regression networks. Moreover, it may be possible to design specialized network architectures that automatically satisfy some of the physical invariants for better accuracy, faster training and improved generalization. Here, we review some of the prevailing trends in embedding physics into machine learning, present some of the current capabilities and limitations and discuss diverse applications of physics-informed learning both for forward and inverse problems, including discovering hidden physics and tackling high-dimensional problems.
translated by 谷歌翻译
在2015年和2019年之间,地平线的成员2020年资助的创新培训网络名为“Amva4newphysics”,研究了高能量物理问题的先进多变量分析方法和统计学习工具的定制和应用,并开发了完全新的。其中许多方法已成功地用于提高Cern大型Hadron撞机的地图集和CMS实验所执行的数据分析的敏感性;其他几个人,仍然在测试阶段,承诺进一步提高基本物理参数测量的精确度以及新现象的搜索范围。在本文中,在研究和开发的那些中,最相关的新工具以及对其性能的评估。
translated by 谷歌翻译
模拟湍流的模拟,尤其是在大气中云的边缘,是一项固有的挑战。迄今为止,执行此类实验的最佳计算方法是直接数值模拟(DNS)。 DNS涉及在三维空间中的离散网格盒上解决流体流的非线性部分微分方程,也称为Navier-Stokes方程。这是一个有价值的范式,它指导了数值天气预测模型来计算降雨形成。但是,对于天气预报社区的实用实用程序,不能为DNS执行DNS。在这里,我们介绍了DeepClouds.ai,这是一个3D-UNET,该Unet模拟了上升的云DNS实验的输出。通过将内部3D立方体映射到完整的3D立方体,从DNS离散化的网格模拟的输出中映射到完整的3D立方体来解决DNS中域大小的问题。我们的方法有效地捕获了湍流动力学,而无需解决复杂的动力核心。基线表明,基于深度学习的仿真与通过各种得分指标衡量的基于部分差异方程的模型相媲美。该框架可用于通过在大气中的大物理领域进行模拟来进一步进一步发展湍流和云流的科学。通过高级参数化方案改善天气预测,这将导致社会福利。
translated by 谷歌翻译
Artificial Intelligence (AI) and its data-centric branch of machine learning (ML) have greatly evolved over the last few decades. However, as AI is used increasingly in real world use cases, the importance of the interpretability of and accessibility to AI systems have become major research areas. The lack of interpretability of ML based systems is a major hindrance to widespread adoption of these powerful algorithms. This is due to many reasons including ethical and regulatory concerns, which have resulted in poorer adoption of ML in some areas. The recent past has seen a surge in research on interpretable ML. Generally, designing a ML system requires good domain understanding combined with expert knowledge. New techniques are emerging to improve ML accessibility through automated model design. This paper provides a review of the work done to improve interpretability and accessibility of machine learning in the context of global problems while also being relevant to developing countries. We review work under multiple levels of interpretability including scientific and mathematical interpretation, statistical interpretation and partial semantic interpretation. This review includes applications in three areas, namely food processing, agriculture and health.
translated by 谷歌翻译