本文提出了一种新的方法,可以通过蒙特卡洛树搜索来控制象征性音乐的情感。我们使用蒙特卡洛树搜索作为一种解码机制来指导语言模型学到的概率分布朝着给定的情感。在解码过程的每个步骤中,我们都会使用树木(Puct)的预测指标上的置信度来搜索分别由情绪分类器和歧视器给出的情感和质量平均值的序列。我们将语言模型用作管道的政策,并将情感分类器和歧视器的组合作为其价值功能。为了解码一段音乐中的下一个令牌,我们从搜索过程中创建的节点访问的分布中进行采样。我们使用直接从生成的样品计算的一组客观指标来评估生成样品相对于人类组成的碎片的质量。我们还进行了一项用户研究,以评估人类受试者如何看待生成的样品的质量和情感。我们将派斗与随机双目标梁搜索(SBB)和条件采样(CS)进行了比较。结果表明,在音乐质量和情感的几乎所有指标中,Puct的表现都优于SBB和CS。
translated by 谷歌翻译
网络科学将自己确立为建模时间序列和复杂系统的重要工具。这个建模过程包括将集合或单个时间序列转换为网络。节点可以代表完整的时间序列,段或单个值,而链接定义了所代表部分之间的关​​联或相似性。 R是数据科学,统计和机器学习中使用的主要编程语言之一,并提供许多软件包。但是,没有单个软件包提供将时间序列转换为网络的必要方法。本文介绍了TS2NET,这是一个用于将一个或多个时间序列建模为网络的R软件包。该软件包提供了时间序列距离函数,可以在超级计算机和超级计算机中轻松计算,以处理较大的数据集和方法,以将距离矩阵转换为网络。 TS2NET还提供了将单个时间序列转换为网络的方法,例如复发网络,可见性图和过渡网络。与其他软件包一起,TS2NET允许使用网络科学和图形挖掘工具从时间序列中提取信息。
translated by 谷歌翻译
序列在许多真实的情况下出现;因此,识别符号生成背后的机制对于理解许多复杂系统至关重要。本文分析了在网络拓扑上行走的代理产生的序列。鉴于在许多实际情况下,生成序列的基础过程是隐藏的,我们研究了通过共发生方法重建网络是否对恢复网络拓扑和代理动力学生成序列很有用。我们发现,重建网络的表征提供了有关用于创建序列的过程和拓扑的有价值的信息。在考虑16种网络拓扑和代理动力学组合的机器学习方法中,我们获得了87%的精度,序列生成的序列少于访问量的少于40%。事实证明,较大的序列可以生成改进的机器学习模型。我们的发现表明,可以扩展所提出的方法以对序列进行分类并了解序列产生背后的机制。
translated by 谷歌翻译
在许多实际应用程序中,强化学习(RL)代理可能必须解决多个任务,每个任务通常都是通过奖励功能建模的。如果奖励功能是线性表达的,并且代理商以前已经学会了一组针对不同任务的策略,则可以利用后继功能(SFS)来组合此类策略并确定有关新问题的合理解决方案。但是,确定的解决方案不能保证是最佳的。我们介绍了一种解决此限制的新颖算法。它允许RL代理结合现有政策并直接确定任意新问题的最佳政策,而无需与环境进行任何进一步的互动。我们首先(在轻度假设下)表明,SFS解决的转移学习问题等同于学习在RL中优化多个目标的学习问题。然后,我们引入了基于SF的乐观线性支持算法的扩展,以学习一组SFS构成凸面覆盖范围集的策略。我们证明,该集合中的策略可以通过广义策略改进组合,以构建任何可表达的新任务的最佳行为,而无需任何其他培训样本。我们从经验上表明,在价值函数近似下,我们的方法在离散和连续域中优于最先进的竞争算法。
translated by 谷歌翻译
Lagrangian和Hamiltonian神经网络(分别是LNN和HNN)编码强诱导偏见,使它们能够显着优于其他物理系统模型。但是,到目前为止,这些模型大多仅限于简单的系统,例如摆和弹簧或单个刚体的身体,例如陀螺仪或刚性转子。在这里,我们提出了一个拉格朗日图神经网络(LGNN),可以通过利用其拓扑来学习刚体的动态。我们通过学习以刚体为刚体的棒的绳索,链条和桁架的动力学来证明LGNN的性能。 LGNN还表现出普遍性 - 在链条上训练了一些细分市场的LGNN具有概括性,以模拟具有大量链接和任意链路长度的链条。我们还表明,LGNN可以模拟看不见的混合动力系统,包括尚未接受过培训的酒吧和链条。具体而言,我们表明LGNN可用于建模复杂的现实世界结构的动力学,例如紧张结构的稳定性。最后,我们讨论了质量矩阵的非对角性性质及其在复杂系统中概括的能力。
translated by 谷歌翻译
我们考虑了一个新颖的表述,即主动射击分类(AFSC)的问题,其目的是对标签预算非常限制的小规定,最初未标记的数据集进行分类。这个问题可以看作是与经典的跨托管少数射击分类(TFSC)的竞争对手范式,因为这两种方法都适用于相似的条件。我们首先提出了一种结合统计推断的方法,以及一种非常适合该框架的原始两级积极学习策略。然后,我们从TFSC领域调整了几个标准视觉基准。我们的实验表明,AFSC的潜在优势可能是很大的,与最先进的TFSC方法相比,对于同一标签预算,平均加权准确性高达10%。我们认为,这种新的范式可能会导致数据筛选学习设置的新发展和标准。
translated by 谷歌翻译
近年来,大型语言模型(LLMS)在自然语言产生中表现出了令人印象深刻的实力。提高发电多样性的一种常见做法是从模型中采样多个输出。但是,缺乏一种简单且可靠的方式来从这些随机样品中选择最佳输出。作为一个案例研究,在问题产生的背景下,我们提出了两种基于迅速的方法,以从一组LLM生成的候选人中选择高质量问题。我们的方法在1)限制下起作用,一个黑框(不可修改)问题生成模型和2)缺乏访问人类宣传的参考文献 - 这两者都是现实世界中LLMS的现实局限性。通过自动和人类评估,我们从经验上证明,我们的方法可以有效地选择比贪婪的生成更高质量的问题。
translated by 谷歌翻译
标准化流量(NF)是基于可能性的强大生成模型,能够在表达性和拖延性之间进行折衷,以模拟复杂的密度。现已建立的研究途径利用了最佳运输(OT),并寻找Monge地图,即源和目标分布之间的努力最小的模型。本文介绍了一种基于Brenier的极性分解定理的方法,该方法将任何受过训练的NF转换为更高效率的版本而不改变最终密度。我们通过学习源(高斯)分布的重新排列来最大程度地减少源和最终密度之间的OT成本。由于Euler的方程式,我们进一步限制了导致估计的Monge图的路径,将估计的Monge地图放在量化量的差异方程的空间中。所提出的方法导致几种现有模型的OT成本降低的平滑流动,而不会影响模型性能。
translated by 谷歌翻译
具有基于物理的诱导偏见的神经网络,例如拉格朗日神经网络(LNN)和汉密尔顿神经网络(HNN),通过编码强诱导性偏见来学习物理系统的动态。另外,还显示出适当的感应偏见的神经odes具有相似的性能。但是,当这些模型应用于基于粒子的系统时,本质上具有转导性,因此不会推广到大型系统尺寸。在本文中,我们提出了基于图的神经ode gnode,以了解动力学系统的时间演变。此外,我们仔细分析了不同电感偏差对GNODE性能的作用。我们表明,与LNN和HNN类似,对约束进行编码可以显着提高GNODE的训练效率和性能。我们的实验还评估了该模型最终性能的其他归纳偏差(例如纽顿第三定律)的价值。我们证明,诱导这些偏见可以在能量违规和推出误差方面通过数量级来增强模型的性能。有趣的是,我们观察到,经过最有效的电感偏见训练的GNODE,即McGnode,优于LNN和HNN的图形版本,即Lagrangian Graph Networks(LGN)和Hamiltonian Graph网络(HGN)在能量侵犯的方面差异,该图表的差异大约是能量侵犯网络(HGN)摆钟系统的4个数量级,春季系统的数量级约为2个数量级。这些结果表明,可以通过诱导适当的电感偏见来获得基于节点的系统的能源保存神经网络的竞争性能。
translated by 谷歌翻译
农作物管理,包括氮(N)受精和灌溉管理,对农作物产量,经济利润和环境产生了重大影响。尽管存在管理指南,但要在特定的种植环境和农作物中找到最佳的管理实践是挑战。先前的工作使用加强学习(RL)和作物模拟器来解决该问题,但是训练有素的政策要么具有有限的性能,要么在现实世界中不可部署。在本文中,我们提出了一种智能作物管理系统,该系统通过RL,模仿学习(IL)同时优化N受精和灌溉,并使用农业技术决策系统(DSSAT)进行了作物模拟。我们首先使用Deep RL,尤其是Deep Q-Network来培训需要从模拟器中的所有状态信息作为观测值(表示为完整观察)的管理政策。然后,我们援引IL来培训管理政策,这些政策只需要有限的国家信息,这些信息可以通过模仿以前的RL训练有素的政策在全面观察中轻松获得的国家(表示为部分观察)。我们在佛罗里达州使用玉米的案例研究进行实验,并将受过训练的政策与玉米管理指南进行比较。我们在全面观察和部分观察中训练有素的政策取得了更好的结果,从而获得更高的利润或类似的利润,而环境影响较小。此外,部分观察管理政策在使用易于使用的信息时直接在现实世界中部署。
translated by 谷歌翻译