研究多层合作研究中的一个关键挑战是不仅需要有效合作的个人代理,而且需要与谁合作。当其他代理人隐藏的情况下,可能是错误的动机和目标时,这在局势中特别关键。社交扣除游戏提供途径来研究个人如何学习如何综合有关其他人的潜在不可靠的信息,并阐明其真正的动机。在这项工作中,我们展示了隐藏的议程,这是一个双队的社交扣除游戏,为在未知团队对齐的情况下学习学习代理的2D环境。环境承认两支球队的丰富战略。在隐藏议程中培训的强化学习代理表明,代理商可以学习各种行为,包括合作和投票,而无需以自然语言沟通。
translated by 谷歌翻译
Adaptive partial linear beamforming meets the need of 5G and future 6G applications for high flexibility and adaptability. Choosing an appropriate tradeoff between conflicting goals opens the recently proposed multiuser (MU) detection method. Due to their high spatial resolution, nonlinear beamforming filters can significantly outperform linear approaches in stationary scenarios with massive connectivity. However, a dramatic decrease in performance can be expected in high mobility scenarios because they are very susceptible to changes in the wireless channel. The robustness of linear filters is required, considering these changes. One way to respond appropriately is to use online machine learning algorithms. The theory of algorithms based on the adaptive projected subgradient method (APSM) is rich, and they promise accurate tracking capabilities in dynamic wireless environments. However, one of the main challenges comes from the real-time implementation of these algorithms, which involve projections on time-varying closed convex sets. While the projection operations are relatively simple, their vast number poses a challenge in ultralow latency (ULL) applications where latency constraints must be satisfied in every radio frame. Taking non-orthogonal multiple access (NOMA) systems as an example, this paper explores the acceleration of APSM-based algorithms through massive parallelization. The result is a GPUaccelerated real-time implementation of an orthogonal frequency-division multiplexing (OFDM)based transceiver that enables detection latency of less than one millisecond and therefore complies with the requirements of 5G and beyond. To meet the stringent physical layer latency requirements, careful co-design of hardware and software is essential, especially in virtualized wireless systems with hardware accelerators.
translated by 谷歌翻译
积极推断是复杂系统中的认知和行为的叙述,它在贝叶斯推论的理论地幔下举起动作,感知和学习。积极的推论已经看到学术研究中的应用越来越多,特别是在寻求模拟人类或动物行为的领域。虽然近年来,来自有效推理文献产生的一些代码已经用Python和Julia这样的开源语言编写,迄今为止,用于模拟活动推理代理的最流行的软件是SPM,Matlab库的DEM工具箱最初开发用于神经影像数据的统计分析和建模。因此,在纯粹的数字和科学学科的应用程序方面,表现出对积极推断的兴趣,因此为在开源科学计算语言中模拟了激活推论的通用,广泛可用的和用户友好的代码,这一切都表现为纯粹的数字以及跨科学学科的应用程序。像python。我们在这里呈现的Python包,Pymdp(参见https://github.com/fifer-active/pymdp)表示朝这个方向的重要一步:即,我们提供了用于模拟有源推断的第一个开源包,部分 - 可观察的马尔可夫决策过程或POMDPS。我们查看包的结构,并解释了模块化设计和定制等优点,同时提供沿着文本代码块,以便演示如何使用它以轻松地构建和运行主动推断过程。我们开发了PyMDP,以增加有效推理框架的可访问性和暴露于有多种纪律背景的研究人员,工程师和开发人员。本着开源软件的精神,我们也希望它在不断增长的积极推理界中产生新的创新,发展和合作。
translated by 谷歌翻译
奖励黑客 - RL代理商在错过奖励功能中利用差距 - 已被广泛观察到,但尚未系统地研究。要了解如何批量奖励,我们会构建具有误报奖励的四个RL环境。我们调查奖励黑客作为代理能力的函数:模型容量,动作空间分辨率,观察空间噪声和培训时间。更有能力的代理经常利用奖励拼写错误,实现更高的代理奖励和较低的真正奖励,而不是更有技能的代理商。此外,我们发现阶段转换的实例:代理人的行为定性转移的能力阈值,导致真正奖励的急剧下降。这种相转变对监测ML系统的安全构成挑战。为了解决这个问题,我们提出了异常策略的异常检测任务,并提供了几个基线探测器。
translated by 谷歌翻译
滤波方程控制给定部分,并且可能嘈杂,依次到达的信号过程的条件分布的演变。它们的数值近似在许多真实应用中起着核心作用,包括数字天气预报,金融和工程。近似滤波方程解决方案的一种经典方法是使用由Gyongy,Krylov,Legland,Legland,Legland的PDE启发方法,称为分裂方法,其中包括其他贡献者。该方法和其他基于PDE的方法,具有特别适用性来解决低维问题。在这项工作中,我们将这种方法与神经网络表示相结合。新方法用于产生信号过程的无通知条件分布的近似值。我们进一步开发递归归一化程序,以恢复信号过程的归一化条件分布。新方案可以在多个时间步骤中迭代,同时保持其渐近无偏见属性完整。我们用Kalman和Benes滤波器的数值近似结果测试神经网络近似。
translated by 谷歌翻译
开放式识别通过将测试样本分类为来自训练或“未知”的已知类之一来概括分类任务。作为一种新的癌症药物鸡尾酒,不断发现改善治疗,预测癌症治疗可以在开放式识别问题方面自然地配制。由于在训练期间建模未知样品,因此从医疗开放式学习中的先前工作的直接实现产生了缺点。因此,我们重新确定问题方法,并应用最近的现有高斯混合变分性AutoEncoder模型,其实现了图像数据集的最新结果,乳腺癌患者数据。与最近的方法相比,我们不仅获得了更准确和稳健的分类结果,平均F1增加了24.5%,但我们还在部署到临床环境方面重新审视开放式识别。
translated by 谷歌翻译
结构分布,即组合空间的分布,通常用于学习观察到数据的潜在概率表示。然而,缩放这些模型是由高计算和内存复杂度相对于潜在表示的大小的瓶颈。诸如隐藏的马尔可夫模型(HMMS)和概率的无内容语法(PCFG)的常见模型在隐藏状态的数量中需要时间和空间二次和立方。这项工作展示了一种简单的方法来降低大类结构化模型的计算和内存复杂性。我们展示通过将中央推理步骤视为矩阵 - 矢量产品,并使用低秩约束,我们可以通过等级进行模型表达性和速度。用神经参数化结构化模型进行语言建模,复音音乐建模,无监督语法诱导和视频建模的实验表明,我们的方法在提供实用加速度的同时匹配大状态空间的标准模型的准确性。
translated by 谷歌翻译
过渡光谱是一种有力的工具,可以解码额外行星气氛的化学成分。在本文中,我们专注于分析来自过渡外部的光谱数据的无监督技术。我们展示了i)的方法,清洁和验证数据,ii)基于概述统计(位置和变异性估计),iii)的初始探索数据分析,iii)探索和量化数据中的现有相关性,IV)预处理和线性变换数据到其主要成分,v)维数减少和歧管学习,vi)聚类和异常检测,vii)可视化和数据的解释。为了说明所提出的无监督方法,我们使用众所周知的公共基准数据集的合成传输谱。我们表明光谱数据中存在高度的相关性,该数据呼叫适当的低维表示。我们探索了许多不同的技术,用于减少这种维数,在概要统计,主成分等方面确定几种合适的选择。我们在主成分基础上发现有趣的结构,即与不同化学制度相对应的明确定义的分支。底层大气。我们证明,这些分支可以以完全无监督的方式用K-Means聚类算法成功恢复。我们倡导第三个主成分的光谱数据的三维表示,以揭示数据中的现有结构并快速表征行星的化学类。
translated by 谷歌翻译
有效的人类学习取决于广泛的教育材料,与学习者目前对该主题保持一致。虽然互联网彻底改变了人类的学习或教育,但仍存在大量资源可访问性障碍。即,过剩的在线信息可以使其充满努力导航和发现高质量的学习材料。在本文中,我们提出了教育资源发现(ERD)管道,用于为新颖域自动化Web资源发现。管道由三个主要步骤组成:数据收集,功能提取和资源分类。我们从一个已知的源域开始,通过传输学习在两个看不见的目标域上进行资源发现。我们首先从一组种子文档中收集频繁查询并在网上搜索以获取候选资源,例如讲座幻灯片和介绍博客帖子。然后我们介绍一个小说预用信息检索深神经网络模型,查询文件屏蔽语言建模(QD-MLM),以提取这些候选​​资源的深度特征。我们应用基于树的分类器来决定候选人是否是一个积极的学习资源。当在两个类似但新的靶域评估时,管道在评估时实现0.94和0.82的F1分数。最后,我们展示了该管道如何使应用程序有益于应用:调查的领先段落生成。这是据我们所知,这是考虑各种网络资源的研究。我们还释放了39,728个手动标记的Web资源的语料库,以及来自NLP,计算机视觉(CV)和统计信息(统计数据)的659个查询。
translated by 谷歌翻译
尽管速率失真优化是传统图像和视频压缩的关键部分,但存在不存在许多方法,将该概念传送到端到端训练的图像压缩。大多数框架包含静态压缩和解压缩模型,在训练后固定,因此不可能实现高效的速率失真优化。在以前的工作中,我们提出了RDONET,它使RDO方法能够与HEVC中的自适应块分区相当。在本文中,我们通过引入RDO的低复杂性估算来增强培训,该培训将结果归因于培训。此外,我们提出了快速且非常快速的RDO推理模式。通过我们的小说训练方法,我们在先前的RDONET模型上实现了MS-SSIM的平均节省19.6%,其在可比较的传统深图像编码器上等于27.3%的速率节省。
translated by 谷歌翻译