AI的一个关键挑战是构建体现的系统,该系统在动态变化的环境中运行。此类系统必须适应更改任务上下文并持续学习。虽然标准的深度学习系统实现了最先进的静态基准的结果,但它们通常在动态方案中挣扎。在这些设置中,来自多个上下文的错误信号可能会彼此干扰,最终导致称为灾难性遗忘的现象。在本文中,我们将生物学启发的架构调查为对这些问题的解决方案。具体而言,我们表明树突和局部抑制系统的生物物理特性使网络能够以特定于上下文的方式动态限制和路由信息。我们的主要贡献如下。首先,我们提出了一种新颖的人工神经网络架构,该架构将活跃的枝形和稀疏表示融入了标准的深度学习框架中。接下来,我们在需要任务的适应性的两个单独的基准上研究这种架构的性能:Meta-World,一个机器人代理必须学习同时解决各种操纵任务的多任务强化学习环境;和一个持续的学习基准,其中模型的预测任务在整个训练中都会发生变化。对两个基准的分析演示了重叠但不同和稀疏的子网的出现,允许系统流动地使用最小的遗忘。我们的神经实现标志在单一架构上第一次在多任务和持续学习设置上取得了竞争力。我们的研究揭示了神经元的生物学特性如何通知深度学习系统,以解决通常不可能对传统ANN来解决的动态情景。
translated by 谷歌翻译
主动学习是一个非常常见但功能强大的框架,用于与人类在循环中的人类迭代和适应性采样子集,目的是实现标签效率。大多数现实世界数据集在类和切片中都有不平衡,并且相应地,数据集的一部分很少见。结果,在设计挖掘这些罕见数据实例的主动学习方法方面已经有很多工作。大多数方法都假设访问包含这些罕见数据实例的一组种子实例。但是,如果发生更极端的稀有性,可以合理地假设这些罕见的数据实例(类或切片)甚至可能在标记的种子集合中存在,并且对主动学习范式的关键需求是有效地发现这些罕见的数据实例。在这项工作中,我们提供了一个主动数据发现框架,该框架可以使用子管的条件增益和下管有条件的相互信息功能有效地挖掘未知的数据切片和类。我们提供了一个一般的算法框架,该框架在许多情况下都起作用,包括图像分类和对象检测,并与未标记集合中存在的稀有类和稀有切片一起使用。与现有的最新活跃学习方法相比,我们的方法表现出显着的准确性和标记效率提高,以积极发现这些稀有类别和切片。
translated by 谷歌翻译
从图灵(Turing)在1950年的开创性工作开始,人工智能提出,图灵机可以模拟意识。这意味着宇宙是计算机上的模拟的所有事物的潜在理论,该理论引出了一个问题,即我们是否可以证明自己存在于模拟中。在这项工作中,我们构建了一个相对模型的计算模型,其中可计算\ textIt {local}计算机由经典的图灵计算机模拟。我们表明,其全局模拟器的本地计算机计算\ textbf {仿真属性}的问题与停止问题相同。然后,我们表明,计算全局模拟器积累的时间,空间或误差是模拟属性,因此是不可决定的。这些仿真属性在相对模型中产生了特殊的相对论效应,我们用来构建相对教会的 - 杜特施奇论文,其中全球经典的图灵机器为本地机器计算具有与恒定时间的局部计算复杂性的量子力学,在我们的宇宙中经验丰富。
translated by 谷歌翻译
语言模型既展示了定量的改进,又展示了新的定性功能,随着规模的增加。尽管它们具有潜在的变革性影响,但这些新能力的特征却很差。为了为未来的研究提供信息,为破坏性的新模型能力做准备,并改善社会有害的效果,至关重要的是,我们必须了解目前和近乎未来的能力和语言模型的局限性。为了应对这一挑战,我们介绍了超越模仿游戏基准(Big Bench)。 Big Bench目前由204个任务组成,由132家机构的442位作者贡献。任务主题是多样的,从语言学,儿童发展,数学,常识性推理,生物学,物理学,社会偏见,软件开发等等。 Big-Bench专注于被认为超出当前语言模型的功能的任务。我们评估了OpenAI的GPT型号,Google内部密集变压器体系结构和大型基础上的开关稀疏变压器的行为,跨越了数百万到数十亿个参数。此外,一个人类专家评估者团队执行了所有任务,以提供强大的基准。研究结果包括:模型性能和校准都随规模改善,但绝对的术语(以及与评估者的性能相比);在模型类中的性能非常相似,尽管带有稀疏性。逐渐和预测的任务通常涉及大量知识或记忆成分,而在临界规模上表现出“突破性”行为的任务通常涉及多个步骤或组成部分或脆性指标;社交偏见通常会随着含糊不清的环境而随着规模而增加,但这可以通过提示来改善。
translated by 谷歌翻译
经典的机器学习范式需要在中心位置汇总用户数据,在该位置,机器学习实践者可以预处理数据,计算功能,调整模型并评估性能。这种方法的优点包括利用高性能硬件(例如GPU)以及机器学习实践者在深度数据分析中进行的能力以提高模型性能。但是,这些优势可能是为了支付数据隐私的费用。收集,汇总并存储在集中式服务器上以进行模型开发。数据集中构成风险,包括内部和外部安全事件的风险增加以及意外数据滥用。具有不同隐私的联合学习旨在通过将ML学习步骤带给用户的设备来避免服务器端集中化陷阱。学习是以联合方式完成的,每个移动设备都在模型的本地副本上运行一个训练循环。来自设备模型的更新通过加密通信和通过差异隐私发送到服务器,以改善全局模型。在此范式中,用户的个人数据仍在其设备上。令人惊讶的是,以这种方式培训模型培训的模型性能差异很小。但是,由于其分布式性质,异质计算环境和缺乏数据可见性,联邦学习带来了许多其他挑战。本文探讨了这些挑战,并概述了我们正在探索和测试的建筑设计解决方案,以在元评估中生产联合学习。
translated by 谷歌翻译
专家层(MOES)的混合物通过条件计算实现语言模型的高效缩放。本文提出了一个详细的实证研究,自回归鞋语言模型与广泛的设置中的密集模型相比:在域外语言建模,零和少量射击和全部微调。除了微调外,我们发现Moes基本上更加计算效率。在更适度的培训预算下,MOES可以使用$ \ SIM值4倍的计算,符合密集模型的性能。该差距在比例下变窄,但我们最大的MOE模型(1.1T参数)始终如一地优于计算等效的密集模型(6.7b参数)。总体而言,这种表现差距在任务和域中有很大差异,表明MOE和密集模型以不值得研究的方式概括不同的方式。我们使我们的代码和模型公开可用于研究使用。
translated by 谷歌翻译
网络世界中的信息安全是令人关切的主要原因,攻击表面的数量显着增加。网络上可用的漏洞,攻击,控件和建议的现有信息提供了代表知识并执行安全分析以减轻一些问题的机会。代表本体形式的安全知识有助于异常检测,威胁情报,推理和相关攻击的相关性归因等。这需要动态和自动丰富信息安全本体。然而,基于自然语言处理和ML模型的现有本体富集算法具有语文提取词,短语和句子的上下文提取问题。这激励了对遍历文本中的依赖路径的顺序深度学习架构的需求,并提取嵌入漏洞,威胁,控件,产品和其他安全相关概念和来自学习的路径表示的实例。在所提出的方法中,部署了在大型DBPedia数据集和Wikipedia语料库上培训的双向LSTMS与Universal Stank编码器一起培训,以丰富基于ISO 27001的信息安全本体。该模型在高性能计算(HPC)环境上进行培训并测试,以处理Wiki文本维度。当从本体论和网页实例的敲除概念测试以验证稳健性时,该方法产生了超过80%的测试精度。
translated by 谷歌翻译
我们介绍了使用多级知识蒸馏(KD)训练的新的交叉语言信息检索(CLIR)模型。老师和学生是异构的系统 - 前者是依赖于机器翻译和单晶IR的管道,而后者执行单个CLIR操作。我们表明学生可以通过优化两个相应的KD目标来学习多语言表示和CLIR。使用英语唯一的检索器的学习多语言表示是使用一种新颖的跨语言对齐算法来实现,使得贪婪地重新定位教师令牌进行对齐。XOR-TYDI基准测试的评估表明,所提出的模型比具有交叉语言标记的IR数据的微调现有方法更有效,精度为25.4召回@ 5kt。
translated by 谷歌翻译
在本文中,我们提出了帕托 - 一种可生产性感知拓扑优化(至)框架,以帮助有效地探索使用金属添加剂制造(AM)制造的部件的设计空间,同时确保相对于裂化的可制造性。具体地,通过激光粉末融合制造的部件由于从构建过程中产生的陡峭热梯度产生的高残余应力值而易于诸如翘曲或裂缝的缺陷。为这些零件的设计成熟并规划其制作可能跨越几年,通常涉及设计和制造工程师之间的多种切换。帕托基于先验的无裂缝设计的发现,使得优化部分可以在一开始就自由缺陷。为确保设计在优化期间无裂缝,可以在使用裂缝指数的标准制剂中明确地编码生产性。探索多个裂缝指数并使用实验验证,最大剪切应变指数(MSSI)被显示为准确的裂缝指数。模拟构建过程是耦合的多物理计算,并将其结合在循环中可以计算上禁止。我们利用了深度卷积神经网络的当前进步,并基于基于关注的U-Net架构的高保真代理模型,以将MSSI值预测为部分域上的空间变化的字段。此外,我们采用自动差异来直接计算关于输入设计变量的最大MSSI的梯度,并使用基于性能的灵敏度字段增强,以优化设计,同时考虑重量,可制造性和功能之间的权衡。我们通过3D基准研究以及实验验证来证明所提出的方法的有效性。
translated by 谷歌翻译
图形神经网络(GNNS)从节点功能和输入图拓扑中利用信号来改善节点分类任务性能。然而,这些模型倾向于在异细胞图上表现不良,其中连接的节点具有不同的标记。最近提出了GNNS横跨具有不同程度的同性恋级别的图表。其中,依赖于多项式图滤波器的模型已经显示了承诺。我们观察到这些多项式图滤波器模型的解决方案也是过度确定的方程式系统的解决方案。它表明,在某些情况下,模型需要学习相当高的多项式。在调查中,我们发现由于其设计而在学习此类多项式的拟议模型。为了缓解这个问题,我们执行图表的特征分解,并建议学习作用于频谱的不同子集的多个自适应多项式滤波器。理论上和经验证明我们所提出的模型学习更好的过滤器,从而提高了分类准确性。我们研究了我们提出的模型的各个方面,包括利用潜在多项式滤波器的依义组分的数量以及节点分类任务上的各个多项式的性能的依赖性。我们进一步表明,我们的模型通过在大图中评估来扩展。我们的模型在最先进的模型上实现了高达5%的性能增益,并且通常优于现有的基于多项式滤波器的方法。
translated by 谷歌翻译