在最近针对生成任务的量子电路模型的建议中,关于其性能的讨论仅限于它们重现已知目标分布的能力。例如,诸如量子电路诞生的机器(QCBM)之类的表达模型家族几乎已经完全评估了其以高精度学习给定目标分布的能力。尽管此方面可能是某些任务的理想选择,但它将生成模型的评估范围限制在记忆数据而不是概括的能力上。结果,对模型的概括性能以及此类能力和资源需求之间的关系几乎没有理解,例如电路深度和培训数据的量。在这项工作中,我们利用最近提出的概括评估框架开始解决这一知识差距。我们首先研究了QCBM的基数受限分布的学习过程,并在增加电路深度的同时看到概括性能的提高。在此处介绍的12个问题示例中,我们观察到,只有30%的有效模式与训练集相比,QCBM表现出最佳的概括性能,以产生看不见和有效的模式。最后,我们评估了QCBM不仅可以概括有效特征的能力,而且还评估了根据充分偏见分布分布的高质量斑点。我们看到,QCBM能够有效地学习偏见并产生比培训集中的质量更高的看不见的样本。据我们所知,这是文献中的第一部作品,该作品将QCBM的概括性能作为量子生成模型的积分评估度量标准,并证明了QCBM将其推广到高质量的,所需的新型样品的能力。
translated by 谷歌翻译
隔离量子系统的演变是线性的,因此量子算法是可逆的,包括那些利用量子电路作为生成机器学习模型的量子。但是,一些最成功的经典生成模型,例如基于神经网络的模型,涉及高度非线性,因此是非可逆的动力学。在本文中,我们通过引入一个模型来探讨这些动力学在量子生成建模中的效果,该模型通过神经网络结构将非线性激活添加到标准生产的机器框架上 - 量子神经元出生机器(QNBM)。为了实现这一目标,我们利用了先前引入的量子神经元子例程,这是一个重复启用的电路,具有中路测量和经典控制。引入QNBM后,我们通过训练具有4个输出神经元以及各种输入和隐藏层大小的3层QNBM来研究其性能如何取决于网络大小。然后,我们将非线性QNBM与线性量子电路诞生的机器(QCBM)进行比较。我们将相似的时间和内存资源分配给每个模型,因此唯一的主要区别是QNBM所需的QUBIT开销。通过基于梯度的训练,我们表明,尽管这两种模型都可以轻松地学习一个琐碎的均匀概率分布,但在更具挑战性的分布类别上,QNBM的错误率几乎比具有相似数量可调参数的QCBM要小3倍。因此,我们提供的证据表明,非线性是量子生成模型中的有用资源,我们将QNBM作为具有良好生成性能和量子优势潜力的新模型。
translated by 谷歌翻译
数字双技术被认为是现代工业发展的组成部分。随着技术Internet技术(IoT)技术的快速发展以及自动化趋势的增加,虚拟世界与物理世界之间的整合现在可以实现生产实用的数字双胞胎。但是,数字双胞胎的现有定义是不完整的,有时是模棱两可的。在此,我们进行了历史审查,并分析了数字双胞胎的现代通用观点,以创建其新的扩展定义。我们还审查并讨论了在安全至关重要的机器人技术应用中数字双胞胎中现有的工作。特别是,由于环境挑战,数字双胞胎在工业应用中的使用需要自动和远程操作。但是,环境中的不确定性可能需要对机器人进行仔细监控和快速适应,这些机器人需要防止安全和成本效益。我们展示了一个案例研究,以开发针对安全至关重要的机器人臂应用框架,并提出系统性能以显示其优势,并讨论未来的挑战和范围。
translated by 谷歌翻译
“感应头”是注意力头,它实现了一种简单的算法来完成令牌序列,例如[a] [b] ... [a] - > [b]。在这项工作中,我们提供了一个假设的初步和间接证据,即诱导头可能构成大型大型变压器模型中所有“文本学习”中大多数的机制(即减少在增加代币指数时损失的损失)。我们发现,诱导头在与秘密学习能力突然急剧上的急剧上升的位置完全相同,这是训练损失的颠簸。我们提出了六种互补的证据,认为诱导头可能是任何大小的变压器模型中一般性内部学习的机理来源。对于仅关注的小型模型,我们提供了有力的因果证据。对于具有MLP的较大模型,我们提供相关证据。
translated by 谷歌翻译
众所周知,端到端的神经NLP体系结构很难理解,这引起了近年来为解释性建模的许多努力。模型解释的基本原则是忠诚,即,解释应准确地代表模型预测背后的推理过程。这项调查首先讨论了忠诚的定义和评估及其对解释性的意义。然后,我们通过将方法分为五类来介绍忠实解释的最新进展:相似性方法,模型内部结构的分析,基于反向传播的方法,反事实干预和自我解释模型。每个类别将通过其代表性研究,优势和缺点来说明。最后,我们从它们的共同美德和局限性方面讨论了上述所有方法,并反思未来的工作方向忠实的解释性。对于有兴趣研究可解释性的研究人员,这项调查将为该领域提供可访问且全面的概述,为进一步探索提供基础。对于希望更好地了解自己的模型的用户,该调查将是一项介绍性手册,帮助选择最合适的解释方法。
translated by 谷歌翻译
我们介绍了第一个机器学习引力波搜索模拟数据挑战(MLGWSC-1)的结果。在这一挑战中,参与的小组必须从二进制黑洞合并中识别出复杂性和持续时间逐渐嵌入在逐渐更现实的噪声中的引力波信号。 4个提供的数据集中的决赛包含O3A观察的真实噪声,并发出了20秒的持续时间,其中包含进动效应和高阶模式。我们介绍了在提交前从参与者未知的1个月的测试数据中得出的6个输入算法的平均灵敏度距离和运行时。其中4个是机器学习算法。我们发现,最好的基于机器学习的算法能够以每月1个的错误警报率(FAR)的速度(FAR)实现基于匹配过滤的生产分析的敏感距离的95%。相反,对于真实的噪音,领先的机器学习搜索获得了70%。为了更高的范围,敏感距离缩小的差异缩小到某些数据集上选择机器学习提交的范围$ \ geq 200 $以优于传统搜索算法的程度。我们的结果表明,当前的机器学习搜索算法可能已经在有限的参数区域中对某些生产设置有用。为了改善最新的技术,机器学习算法需要降低他们能够检测信号并将其有效性扩展到参数空间区域的虚假警报率,在这些区域中,建模的搜索在计算上很昂贵。根据我们的发现,我们汇编了我们认为,将机器学习搜索提升到重力波信号检测中的宝贵工具,我们认为这是最重要的研究领域。
translated by 谷歌翻译
我们提出了一种新的形式的傅立叶分析以及相关的信号处理概念,该信号(或数据)由边缘加权的定向无环图(DAGS)索引。这意味着我们的傅立叶基础产生了我们定义的适当的转移和卷积操作员的概念。 DAG是捕获数据之间因果关系的常见模型,而我们的框架在这​​种转变,卷积和傅立叶变换中仅是从DAG中的前辈计算出来的。傅立叶变换需要DAG的传递闭合,根据边缘重量的解释,可能会为此形式。示例包括影响水平,距离或污染分布。我们的框架与先前的GSP不同:它特定于DAG和杠杆,并扩展了Moebius反转的经典理论。对于原型应用,我们考虑DAGS建模动态网络,其中边缘会随着时间而变化。具体而言,我们对感染的传播对从现实世界接触数据获得的DAG进行建模,并从样品中学习感染信号,假设傅立叶域中的稀疏性。
translated by 谷歌翻译
基于视觉的导航需要处理复杂的信息以做出以任务为导向的决策。应用包括自动驾驶机器人,自动驾驶汽车以及对人类的辅助愿景。该过程中的关键要素之一是在像素空间中提取和选择相关特征,以便基于操作选择,适合哪种机器学习技术。但是,在模拟中接受培训的深度强化学习代理人在现实世界中部署在现实世界中通常会表现出不满意的结果,这是因为感知差异称为$ \ textit {现实gap} $。尚未探索以弥合这一差距的方法是自我注意力。在本文中,我们(1)对基于3D环境的基于自我注意力的导航进行系统探索,并从不同的超参数集中观察到的行为,包括它们的概括能力; (2)目前的策略来提高代理的概括能力和导航行为; (3)展示在模拟中训练的模型如何能够实时处理现实世界图像。据我们所知,这是使用少于4000个参数成功导航3D动作空间的基于自我注意力的代理的首次演示。
translated by 谷歌翻译
技能在就业市场和许多人力资源(HR)过程中起着核心作用。在其他数字经验之后,当今的在线工作市场有候选人希望根据他们的技能看到正确的机会。同样,企业越来越需要使用数据来确保其劳动力中的技能保持未来。但是,有关技能的结构化信息通常缺少,并且基于自我或经理评估的流程已证明与所得数据的采用,完整性和新鲜度有关。鉴于明确或仅隐含地描述了数千种可能的技能标签,并且缺乏精细注释的培训语料库,提取技能是一项艰巨的任务。以前的技能提取工作过于简化任务,将其用于明确的实体检测任务,或者基于手动注释的培训数据,如果应用于完整的技能词汇,这是不可行的。我们根据遥远的字面匹配,提出了一个用于技能提取的端到端系统。我们提出并评估了几种负面验证数据集中的几种负面抽样策略,以提高技能提取对隐式提及技能的推广,尽管在遥远的监督数据中缺乏这种隐性技能。我们观察到,使用ESCO分类法从相关技能中选择负面示例会产生最大的进步,并且在一个模型中结合三种不同的策略进一步提高了性能,在RP@5中最多可达8个百分点。我们介绍了基于ESCO分类法的手动注释评估基准,以进行技能提取,并在其上验证模型。我们发布基准数据集以进行研究目的,以刺激对任务的进一步研究。
translated by 谷歌翻译
培训越来越多的语言模型的最新趋势已大大提高了语言任务的机器学习绩效。但是,培训较大模型的巨大成本可以使他们过高地调整它们的昂贵,从而激发了对更有效方法的研究。基于梯度的高参数优化提供了在训练期间调整超参数的能力,但以前尚未以序列到序列设置进行研究。我们首次将基于梯度的简单和一般基于梯度的高参数优化方法应用于顺序到序列任务,证明了效率和性能在强大的基线上的神经机器翻译和自然语言理解(NLU)任务(通过T5预测) )。对于翻译,我们显示该方法跨语言对,比贝叶斯高参数优化更有效,并且某些超参数的学习时间表可以超过最佳的恒定值调整。对于T5,我们表明在预训练期间学习超参数可以提高下游NLU任务的性能。当同时学习多个超参数时,我们表明,全球学习率可以遵循训练的时间表,以提高性能,并且无法通过贪婪方法的“短马偏见”来解释。我们发布用于促进进一步研究的代码。
translated by 谷歌翻译