声学数据提供从生物学和通信到海洋和地球科学等领域的科学和工程见解。我们调查了机器学习(ML)的进步和变革潜力,包括声学领域的深度学习。 ML是用于自动检测和利用模式印度的广泛的统计技术家族。相对于传统的声学和信号处理,ML是数据驱动的。给定足够的训练数据,ML可以发现特征之间的复杂关系。通过大量的训练数据,ML candiscover模型描述复杂的声学现象,如人类语音和混响。声学中的ML正在迅速发展,具有令人瞩目的成果和未来的重大前景。我们首先介绍ML,然后在五个声学研究领域强调MLdevelopments:语音处理中的源定位,海洋声学中的源定位,生物声学,地震探测和日常场景中的环境声音。
translated by 谷歌翻译
深度强化学习(RL)的评估具有内在挑战性。特别是,学到的政策在很大程度上是不透明的,关于深RL试剂的行为的假设很难在黑箱环境中进行测试。在解决不透明性方面已经付出了相当大的努力,但是几乎没有努力用于为代理行为的实验评估产生高质量的环境。 。我们提供了TOYBOX,一种新的高性能,开源* Atari环境子集,重新设计用于深度RL的实验评估。我们表明,TOYBOX可以进行各种实验和分析,这在其他环境中是不可能实现的。 * HTTPS://kdl-umass.github.io/Toybox/
translated by 谷歌翻译
本教程的核心问题在于对网络用户的路径选择行为进行建模。这个问题已被广泛研究过运输科学和计量经济学,它被称为路径选择问题。在该文献中,个体对路径的选择通常是从离散选择模型中预测的。本教程的目的是从逆向优化的新颖和更一般的角度提出这个问题,以便描述在相关研究领域中提出的建模方法,从而激励所谓的递归模型的使用。 Thelatter具有预测路径选择而不产生选择集的优点。在本文中,我们将离散选择模型作为具有噪声数据的逆最短路径问题的概率方法的背景化,突出了递归离散选择模型,特别是源于将内部最短路径问题视为参数马尔可夫决策过程。我们还通过简单的数值例子说明递归模型克服了与运输文献中常见的基于路径的离散选择模型相关的问题。
translated by 谷歌翻译
在许多情况下,智能代理可能想要学习如何模仿单个观察到的轨迹。在这项工作中,我们考虑如何从观察中进行这样的过程学习,这有助于使代理人能够更好地使用观察序列上的大量视频数据。 Ourapproach利用此设置的属性逐步构建可以产生所需子序列的openloop行动计划,并且可以在Markov和部分可观察的Markov域中使用。此外,程序通常涉及重复的扩展时间动作子序列。我们的方法在理论上探索了在程序中利用潜在重复结构的行动。与一些最先进的方法相比,我们发现从观察方法中明确的程序性学习大约是基于政策梯度的方法的100倍,这种方法学习随机策略并且比基于模型的方法更快。我们还发现,当存在潜在的动力学结构时,执行乐观动作选择会产生显着的加速。
translated by 谷歌翻译
我们研究了马尔可夫决策过程中的政策外政策优化问题,并开发了一种新的非政策性政策梯度方法。先行政策政策梯度方法通常忽略了在使用tocollect数据的行为政策下访问的国家分布与在学术政策下的国家分布之间的不匹配。在这里,我们建立在估计政策评估中马尔可夫链固定分布比率的最新进展,以及可以解释分布中这种情绪的现有政策政策梯度优化技术。我们提供了一个说明性的例子,说明为什么这是重要的,理论上的收敛保证对于我们的方法和经验模拟,突出了纠正这种分布差异的好处。
translated by 谷歌翻译
利用新数据源是加快材料设计和发现步伐的关键一步。为了补充由历史,实验和计算数据驱动的综合计划的进步,我们提出了一种将科学文献与综合见解联系起来的自动化方法。从自然语言文本开始,我们应用来自语言模型的单词嵌入,这些嵌入被输入到命名实体识别模型中,在该模型上训练条件变分自动编码器以生成任意材料的合成。我们通过预测两种钙钛矿材料的前体来展示这种技术的潜力,仅使用他们首次报道的合成之前十年内发表的训练数据。我们证明该模型学习了与合成相关的属性相对应的材料的表示,并且该模型的行为补充了现有的热力学知识。最后,我们应用该模型对所提出的钙钛矿化合物进行合成性筛选。
translated by 谷歌翻译
推荐系统最近吸引了深度学习社区的许多研究人员。在校准系统中使用的最先进的深度神经网络模型通常是多层感知器和深度自动编码器(DAE),其中DAE通常表现出更好的性能,因为它具有重建输入的优越性。但是,我们发现现有的DAErecommendation系统在类似的数据集上具有类似的实现,并且在完全不同的参数设置中。在这项工作中,我们建立了灵活的DAE模型,名为FlexEncoder,它使用可配置的参数和独特的功能来分析参数对推荐系统预测精度的影响。这将有助于我们确定给定数据集的最佳性能参数。对MovieLens数据集进行了广泛的评估,这推动了我们对DAE参数影响的结论。具体而言,我们发现DAE参数强烈影响推荐系统的预测准确性,并且效果可以转移到更大尺寸的类似数据集。我们向公众开放我们的代码,这可以使DAE的新用户受益 - 他们可以快速了解DAE如何用于推荐系统和经验丰富的DAE用户 - 他们更容易在不同数据集上调整参数。
translated by 谷歌翻译
深层强化学习方法在具有挑战性的控制任务方面取得了显着的成绩。对结果行为的观察给出了代理人已经构建了支持有洞察力的行动决策的广义表示的印象。我们重新审视RL中的一般化意味着什么,并基于代理在策略上,关闭策略中和不可达状态中的性能提出几个定义。我们提出了一套用于评估具有这些普遍化定义的代理的实用方法。我们在针对深度RL的常见基准测试任务中展示了这些技术,并且我们表明,所学习的网络对于与政策状态略有不同的状态做出了糟糕的决策,即使这些状态不是对抗性的。总之,这些结果质疑深度Q网络学习广义表征的程度,并建议在支持代表性学习的声明之前需要进行更多的实验和分析。
translated by 谷歌翻译
没有测试的软件存在缺陷是一个被广泛接受的原则。由于代理和环境的随机性,最先进模型的复杂性以及预测的顺序性,测试强化学习代理尤其困难。最近,街机学习环境(ALE)已经成为深度学习研究中使用最广泛的基准套件之一,并且最先进的加强学习(RL)代理已被证明在许多ALE任务中经常等于或超过人类表现。由于ALE基于原始Atari游戏的仿真,因此环境不提供内部游戏状态的语义上有意义的表示。这意味着ALE的实用性有限,是支持测试或模型内省的环境。我们提出了ToyBox,这些游戏的重新实现的集合解决了这个关键问题并且能够对RL代理进行强大的测试。
translated by 谷歌翻译
机器学习研究的所有领域,从计算机视觉到强化学习,目前的大量信息使得难以进行科学推理。将无数类似的论文提炼成一系列有用的原则,确定哪些新方法用于特定的应用程序,并确信在开发新思想时与所有相关的相关工作进行比较可能具有挑战性。但是,这样一个快速的越来越多的研究文献是其他领域已经面临的问题 - 特别是医学和流行病学。已经使用了完整的领域,系统评价和荟萃分析来解决这些问题,并且整个期刊都倾向于这种分析。在这里,我们建议机器学习领域可能同样受益于元分析和系统评价,并鼓励沿着这个方向进一步讨论和发展。
translated by 谷歌翻译