在整个计算科学中,越来越需要利用原始计算马力的持续改进,通过对蛮力的尺度锻炼的尺度增加,以增加网状元素数量的增加。例如,如果不考虑分子水平的相互作用,就不可能对纳米多孔介质的转运进行定量预测,即从紧密的页岩地层提取至关重要的碳氢化合物。同样,惯性限制融合模拟依赖于数值扩散来模拟分子效应,例如非本地转运和混合,而无需真正考虑分子相互作用。考虑到这两个不同的应用程序,我们开发了一种新颖的功能,该功能使用主动学习方法来优化局部细尺度模拟的使用来告知粗尺度流体动力学。我们的方法解决了三个挑战:预测连续性粗尺度轨迹,以推测执行新的精细分子动力学计算,动态地更新细度计算中的粗尺度,并量化神经网络模型中的不确定性。
translated by 谷歌翻译
Large language models (LLMs) have been shown to be able to perform new tasks based on a few demonstrations or natural language instructions. While these capabilities have led to widespread adoption, most LLMs are developed by resource-rich organizations and are frequently kept from the public. As a step towards democratizing this powerful technology, we present BLOOM, a 176B-parameter open-access language model designed and built thanks to a collaboration of hundreds of researchers. BLOOM is a decoder-only Transformer language model that was trained on the ROOTS corpus, a dataset comprising hundreds of sources in 46 natural and 13 programming languages (59 in total). We find that BLOOM achieves competitive performance on a wide variety of benchmarks, with stronger results after undergoing multitask prompted finetuning. To facilitate future research and applications using LLMs, we publicly release our models and code under the Responsible AI License.
translated by 谷歌翻译
我们最近提出了一个以DBM为中心的新群集操作系统堆栈DBO。DBO通过将ML代码封装在存储过程中,集中辅助ML数据,为基础DBMS内置的安全性,共同关注ML代码和数据以及跟踪数据和工作流源来源,从而为ML应用程序提供了独特的支持。在这里,我们在两个ML应用程序附近演示了这些好处的子集。我们首先表明,使用GPU的图像分类和对象检测模型可以用作DBOS存储程序,具有与现有系统竞争性能的DBOS存储程序。然后,我们提出了一项1D CNN,训练有素,可以在DBOS支持的Web服务上检测HTTP请求中的异常情况,从而实现SOTA结果。我们使用此模型来开发交互式异常检测系统,并通过定性用户反馈对其进行评估,并证明了其有用性作为未来工作的概念证明,以在DBO上开发实时的实时安全服务。
translated by 谷歌翻译
培训和评估语言模型越来越多地要求构建元数据 - 多样化的策划数据收集,并具有清晰的出处。自然语言提示最近通过将现有的,有监督的数据集转换为多种新颖的预处理任务,突出了元数据策划的好处,从而改善了零击的概括。尽管将这些以数据为中心的方法转化为生物医学语言建模的通用域文本成功,但由于标记的生物医学数据集在流行的数据中心中的代表性大大不足,因此仍然具有挑战性。为了应对这一挑战,我们介绍了BigBio一个由126个以上的生物医学NLP数据集的社区库,目前涵盖12个任务类别和10多种语言。 BigBio通过对数据集及其元数据进行程序化访问来促进可再现的元数据策划,并与当前的平台兼容,以及时工程和端到端的几个/零射击语言模型评估。我们讨论了我们的任务架构协调,数据审核,贡献指南的过程,并概述了两个说明性用例:生物医学提示和大规模,多任务学习的零射门评估。 BigBio是一项持续的社区努力,可在https://github.com/bigscience-workshop/biomedical上获得。
translated by 谷歌翻译
广泛观察到的神经缩放定律,其中错误是训练集大小,模型大小或两者兼而有之的误差,从而促进了深度学习的实质性改进。但是,仅通过缩放来进行这些改进就需要计算和能源成本相当大。在这里,我们专注于数据集大小的错误缩放,并展示在理论和实践中如何超越幂律的扩展,并将其减少到指数缩放,如果我们可以访问高质量的数据修剪指标,以将顺序排名为应该丢弃哪些培训示例以实现任何修剪的数据集大小。然后,我们通过经验修剪的数据集大小来测试这一新的指数缩放预测,并且实际上观察到了在CIFAR-10,SVHN和Imagenet训练的重新NET上的功率定律缩放性能。鉴于找到高质量的修剪指标的重要性,我们对ImageNet上十个不同的数据修剪指标进行了第一个大规模的基准测试研究。我们发现大多数现有的高性能指标尺寸较差,而对于ImageNet来说,最佳尺度是计算密集型的,并且需要为每个图像标签。因此,我们开发了一种新的简单,便宜和可扩展的自我监督的修剪指标,该指标与最佳监督指标相当。总体而言,我们的工作表明,发现良好的数据指标可能会为可行的途径提供可行的途径,从而大大改善神经缩放法律,从而降低现代深度学习的资源成本。
translated by 谷歌翻译
语言模型既展示了定量的改进,又展示了新的定性功能,随着规模的增加。尽管它们具有潜在的变革性影响,但这些新能力的特征却很差。为了为未来的研究提供信息,为破坏性的新模型能力做准备,并改善社会有害的效果,至关重要的是,我们必须了解目前和近乎未来的能力和语言模型的局限性。为了应对这一挑战,我们介绍了超越模仿游戏基准(Big Bench)。 Big Bench目前由204个任务组成,由132家机构的442位作者贡献。任务主题是多样的,从语言学,儿童发展,数学,常识性推理,生物学,物理学,社会偏见,软件开发等等。 Big-Bench专注于被认为超出当前语言模型的功能的任务。我们评估了OpenAI的GPT型号,Google内部密集变压器体系结构和大型基础上的开关稀疏变压器的行为,跨越了数百万到数十亿个参数。此外,一个人类专家评估者团队执行了所有任务,以提供强大的基准。研究结果包括:模型性能和校准都随规模改善,但绝对的术语(以及与评估者的性能相比);在模型类中的性能非常相似,尽管带有稀疏性。逐渐和预测的任务通常涉及大量知识或记忆成分,而在临界规模上表现出“突破性”行为的任务通常涉及多个步骤或组成部分或脆性指标;社交偏见通常会随着含糊不清的环境而随着规模而增加,但这可以通过提示来改善。
translated by 谷歌翻译
深层生成模型已成为检测数据中任意异常的有前途的工具,并分配了手动标记的必要性。最近,自回旋变压器在医学成像中取得了最先进的性能。但是,这些模型仍然具有一些内在的弱点,例如需要将图像建模为1D序列,在采样过程中误差的积累以及与变压器相关的显着推理时间。去核扩散概率模型是一类非自动回旋生成模型,最近显示出可以在计算机视觉中产生出色的样品(超过生成的对抗网络),并实现与变压器具有竞争力同时具有快速推理时间的对数可能性。扩散模型可以应用于自动编码器学到的潜在表示,使其易于扩展,并适用于高维数据(例如医学图像)的出色候选者。在这里,我们提出了一种基于扩散模型的方法,以检测和分段脑成像中的异常。通过在健康数据上训练模型,然后探索其在马尔可夫链上的扩散和反向步骤,我们可以识别潜在空间中的异常区域,因此可以确定像素空间中的异常情况。我们的扩散模型与一系列具有2D CT和MRI数据的实验相比,具有竞争性能,涉及合成和实际病理病变,推理时间大大减少,从而使它们的用法在临床上可行。
translated by 谷歌翻译
超越地球轨道的人类空间勘探将涉及大量距离和持续时间的任务。为了有效减轻无数空间健康危害,数据和空间健康系统的范式转移是实现地球独立性的,而不是Earth-Reliance所必需的。有希望在生物学和健康的人工智能和机器学习领域的发展可以解决这些需求。我们提出了一个适当的自主和智能精密空间健康系统,可以监控,汇总和评估生物医学状态;分析和预测个性化不良健康结果;适应并响应新累积的数据;并提供对其船员医务人员的个人深度空间机组人员和迭代决策支持的预防性,可操作和及时的见解。在这里,我们介绍了美国国家航空航天局组织的研讨会的建议摘要,以便在太空生物学和健康中未来的人工智能应用。在未来十年,生物监测技术,生物标志科学,航天器硬件,智能软件和简化的数据管理必须成熟,并编织成精确的空间健康系统,以使人类在深空中茁壮成长。
translated by 谷歌翻译
空间生物学研究旨在了解太空飞行对生物的根本影响,制定支持深度空间探索的基础知识,最终生物工程航天器和栖息地稳定植物,农作物,微生物,动物和人类的生态系统,为持续的多行星寿命稳定。要提高这些目标,该领域利用了来自星空和地下模拟研究的实验,平台,数据和模型生物。由于研究扩展到低地球轨道之外,实验和平台必须是最大自主,光,敏捷和智能化,以加快知识发现。在这里,我们介绍了由美国国家航空航天局的人工智能,机器学习和建模应用程序组织的研讨会的建议摘要,这些应用程序为这些空间生物学挑战提供了关键解决方案。在未来十年中,将人工智能融入太空生物学领域将深化天空效应的生物学理解,促进预测性建模和分析,支持最大自主和可重复的实验,并有效地管理星载数据和元数据,所有目标使生活能够在深空中茁壮成长。
translated by 谷歌翻译
激光粉末融合期间的局部热史(LPBF)过程中的局部热历史的变化可以引起微孔缺陷。已经提出了原位传感来监测AM过程以最大限度地减少缺陷,但成功需要在感测数据和孔隙率之间建立定量关系,这对于大量变量和计算昂贵尤其具有挑战性。在这项工作中,我们开发了机器学习(ML)型号,可以使用原位热度显数据来预测LPBF不锈钢材料的微孔。这项工作考虑了来自热历史的两个识别的关键特征:高于表观熔化阈值(/ TAU)和最大辐射(T_ {MAX})的时间。计算这些功能,为每个体素存储在内置材料中,用作输入。每个体素的二进制状态,无缺陷或正常,是输出。针对二进制分类任务培训并测试不同的ML模型。除了使用每个体素的热特征来预测其自己的状态之外,还包括相邻体素的热特征作为输入。这被示出了提高预测精度,这与各个体素周围的热传输物理符合其最终状态。在培训的模型中,试验组上的F1分数达到0.96,对于随机森林。基于ML模型的特征重要性分析表明T_ {MAX}对Voxel州比/ Tau更重要。分析还发现本发明体素上方的体素的热历史比它下方的血管素更有影响力。
translated by 谷歌翻译