Planet formation is a multi-scale process in which the coagulation of $\mathrm{\mu m}$-sized dust grains in protoplanetary disks is strongly influenced by the hydrodynamic processes on scales of astronomical units ($\approx 1.5\times 10^8 \,\mathrm{km}$). Studies are therefore dependent on subgrid models to emulate the micro physics of dust coagulation on top of a large scale hydrodynamic simulation. Numerical simulations which include the relevant physical effects are complex and computationally expensive. Here, we present a fast and accurate learned effective model for dust coagulation, trained on data from high resolution numerical coagulation simulations. Our model captures details of the dust coagulation process that were so far not tractable with other dust coagulation prescriptions with similar computational efficiency.
translated by 谷歌翻译
由于评估成本函数的费用(例如,使用计算流体动力学)来确定表面控制所需的性能,因此通常不可能找到流体动力或空气动力表面的最佳设计。此外,由于强加的几何限制,常规的参数化方法和用户偏见,设计空间本身的固有局限性可以限制所选设计空间内设计的{\ IT},而不管传统的优化方法还是较新的,数据驱动的方法使用机器学习的设计算法用于搜索设计空间。我们提出了2条攻击来解决这些困难:我们提出了(1)一种方法,可以使用变形创建设计空间,我们称之为{\ it by-morphing}(dbm); (2)一种优化算法,用于搜索使用新型贝叶斯优化(BO)策略的空间,我们称之为{\ it混合变量,多目标贝叶斯优化}(MixMobo)。我们采用这种形状优化策略来最大程度地提高基本动力学涡轮的功率输出。在同时应用这两种策略,我们证明我们可以创建一个新颖的,几何毫无约束的设计空间和轮毂形状的设计空间,然后通过{\ it最低}成本函数的数量来同时优化它们。我们的框架是多功能的,可以应用于各种流体问题的形状优化。
translated by 谷歌翻译
强化学习(RL)为可以在现实世界中自主互动的培训代理提供了潜力。但是,一个关键限制是RL算法对核心超参数和网络体系结构选择的脆弱性。此外,诸如不断发展的训练数据和增加的代理复杂性等非平稳性意味着不同的超参数和体系结构在不同的训练点上可能是最佳的。这激发了Autorl,这是一种试图自动化这些设计选择的方法。一类突出的Autorl方法是基于人群的培训(PBT),这在几个大型设置中导致了令人印象深刻的表现。在本文中,我们介绍了PBT式方法中的两项新创新。首先,我们采用基于信任区域的贝叶斯优化,从而可以全面覆盖高维混合参数搜索空间。其次,我们表明,使用世代相传,我们还可以在一次训练中共同学习体系结构和超参数。利用新的高度可行的Brax物理引擎,我们表明这些创新导致了巨大的性能增长,在即时学习整个配置的同时,大大优于调谐基线。代码可在https://github.com/xingchenwan/bgpbt上找到。
translated by 谷歌翻译
众所周知,从像素观察中进行的非质量增强学习(RL)是不稳定的。结果,许多成功的算法必须结合不同领域的实践和辅助损失,以在复杂的环境中学习有意义的行为。在这项工作中,我们提供了新颖的分析,表明这些不稳定性是通过卷积编码器和低质量奖励进行时间差异学习而产生的。我们表明,这种新的视觉致命三合会导致不稳定的训练和过早的融合归化解决方案,这是一种现象,我们将灾难性的自相传为。基于我们的分析,我们提出了A-LIX,这是一种为编码器梯度提供适应性正则化的方法,该梯度明确防止使用双重目标防止灾难性的自我抗辩发生。通过应用A-LIX,我们在DeepMind Control和Atari 100K基准测试方面显着优于先前的最先进,而无需任何数据增强或辅助损失。
translated by 谷歌翻译
离线强化学习在利用大型预采用的数据集进行政策学习方面表现出了巨大的希望,使代理商可以放弃经常廉价的在线数据收集。但是,迄今为止,离线强化学习的探索相对较小,并且缺乏对剩余挑战所在的何处的了解。在本文中,我们试图建立简单的基线以在视觉域中连续控制。我们表明,对两个基于最先进的在线增强学习算法,Dreamerv2和DRQ-V2进行了简单的修改,足以超越事先工作并建立竞争性的基准。我们在现有的离线数据集中对这些算法进行了严格的评估,以及从视觉观察结果中进行离线强化学习的新测试台,更好地代表现实世界中离线增强学习问题中存在的数据分布,并开放我们的代码和数据以促进此方面的进度重要领域。最后,我们介绍并分析了来自视觉观察的离线RL所独有的几个关键Desiderata,包括视觉分散注意力和动态视觉上可识别的变化。
translated by 谷歌翻译
超越地球轨道的人类空间勘探将涉及大量距离和持续时间的任务。为了有效减轻无数空间健康危害,数据和空间健康系统的范式转移是实现地球独立性的,而不是Earth-Reliance所必需的。有希望在生物学和健康的人工智能和机器学习领域的发展可以解决这些需求。我们提出了一个适当的自主和智能精密空间健康系统,可以监控,汇总和评估生物医学状态;分析和预测个性化不良健康结果;适应并响应新累积的数据;并提供对其船员医务人员的个人深度空间机组人员和迭代决策支持的预防性,可操作和及时的见解。在这里,我们介绍了美国国家航空航天局组织的研讨会的建议摘要,以便在太空生物学和健康中未来的人工智能应用。在未来十年,生物监测技术,生物标志科学,航天器硬件,智能软件和简化的数据管理必须成熟,并编织成精确的空间健康系统,以使人类在深空中茁壮成长。
translated by 谷歌翻译
空间生物学研究旨在了解太空飞行对生物的根本影响,制定支持深度空间探索的基础知识,最终生物工程航天器和栖息地稳定植物,农作物,微生物,动物和人类的生态系统,为持续的多行星寿命稳定。要提高这些目标,该领域利用了来自星空和地下模拟研究的实验,平台,数据和模型生物。由于研究扩展到低地球轨道之外,实验和平台必须是最大自主,光,敏捷和智能化,以加快知识发现。在这里,我们介绍了由美国国家航空航天局的人工智能,机器学习和建模应用程序组织的研讨会的建议摘要,这些应用程序为这些空间生物学挑战提供了关键解决方案。在未来十年中,将人工智能融入太空生物学领域将深化天空效应的生物学理解,促进预测性建模和分析,支持最大自主和可重复的实验,并有效地管理星载数据和元数据,所有目标使生活能够在深空中茁壮成长。
translated by 谷歌翻译
许多连续的决策问题是使用使用其他一些策略收集的历史数据,需要使用历史数据的高赌注并要求新策略(OPE)。提供无偏估计的最常见的OPE技术之一是基于轨迹的重要性采样(是)。但是,由于轨迹的高方差是估计,最近通过了基于国家行动探索分布(SIS)的重要性采样方法。不幸的是,虽然SIS经常为长视野提供较低的方差估计,但估算状态行动分配比可能是具有挑战性的并且导致偏差估计。在本文中,我们对该偏差差异进行了新的视角,并显示了存在终点是SIS的估计频谱的存在。此外,我们还建立了这些估算器的双重强大和加权版本的频谱。我们提供了经验证据,即该频谱中的估计值可用于在IS和SIS的偏差和方差之间进行折衷,并且可以实现比两者和SIS更低的平均平方误差。
translated by 谷歌翻译
我们考虑通过马尔可夫决策过程轨迹传达外源信息的问题。我们称之为马尔可夫编码游戏(MCG)的设置概括了源编码和大量的参考游戏。 MCG还隔离了一个在不可用的分散控制环境中很重要的问题,即不可用的问题 - 即,他们需要平衡沟通与相关的交流成本。我们基于最大的熵增强学习和我们称为模因的最小熵耦合,为MCGS提供理论上的基础方法。由于最近在最小熵耦合的近似算法中突破,模因不仅是理论算法,而且可以应用于实际设置。从经验上讲,我们表明模因能够在小MCG上胜过强大的基线,并且该模因能够在极大的MCG上实现强大的性能。到后点,我们证明了Meme能够通过Cartpole和Pong的轨迹无误地传达二进制图像,同时同时获得最大或接近最大的预期回报,并且甚至在执行器噪声的情况下甚至能够表现良好。
translated by 谷歌翻译
在不确定性面前的乐观原则在整个连续决策中普遍存在,如多武装匪和加强学习(RL)等问题。为了成功,乐观的RL算法必须过度估计真正的值函数(乐观),但不是通过它不准确的(估计错误)。在表格设置中,许多最先进的方法通过在缩放到深rl时难以应变的方法产生所需的乐观。我们重新解释基于可扩展的乐观模型的算法,以解决易解噪声增强MDP。这种配方实现了竞争遗憾:$ \ tilde {\ mathcal {o}}(| \ mathcal {s} | h \ sqrt {| \ mathcal {a} | t} $在使用高斯噪音时,$ t $是环境步骤的总数。我们还探讨了这种权衡在深度RL设置中的权衡变化,我们在验证上显示估计误差明显更麻烦。但是,我们还表明,如果此错误减少,基于乐观的模型的RL算法可以在连续控制问题中匹配最先进的性能。
translated by 谷歌翻译