通过强化学习(RL)在人工智能方面的最新进展已经在日益复杂的单一代理环境和双人回合制游戏中取得了巨大成功。然而,真实世界包含多个代理,每个代理都独立学习和行动以与其他代理进行合作和竞争,反映这种复杂程度的环境仍然是一个难题。在这项工作中,我们首次演示了一个代理可以在一个流行的3D多人第一人称视频游戏Quake III Arena夺旗中实现人类级别,仅使用像素和游戏点作为输入。这些结果是通过一个新颖的两层优化过程,其中独立RL代理的人口从数千个并行匹配中同时训练,其中代理一起玩并且在随机生成的环境中彼此相对。群体中的每个代理人学习其自己的内部奖励信号以补充来自获胜的稀疏延迟奖励,并且使用新颖的时间分层表示来选择动作,该代表可以使代理在多个时间尺度下进行推理。在游戏过程中,这些代理人基于丰富的学习表示来显示类似人的行为,例如导航,跟随和保护,该学习表示被示出为编码高级游戏知识。在广泛的锦标赛风格评估中,训练有素的球员超过了作为队友和对手的强大的人类球员的胜利率,并且证明远比现有的最先进的特工更强。这些结果表明人工智能的能力显着提升,让我们更接近人类智慧的目标。
translated by 谷歌翻译
推荐系统是个性化的信息访问应用程序;它们在当今的在线环境中无处不在,并且能够有效地找到满足用户需求和品味的项目。随着推荐系统的覆盖范围扩大,显而易见的是,一心一意地关注用户对学术研究的共同看法,模糊了推荐结果的其他重要方面。推荐人系统评估的典型指标未捕获公平性,平衡性,盈利性和互惠性等属性。多利益相关方推荐的概念已经成为描述和理解推荐设置的统一框架,而最终用户并不是唯一关注的焦点。本文介绍了多利益相关方推荐的起源以及系统设计的前景。它提供了当前研究的说明性示例,并概述了该领域的开放性和研究方向。
translated by 谷歌翻译
我们考虑通过随机梯度下降训练的深度网络来最小化L2损失,训练标签受到独立噪声扰动的迭代。我们在任意参数向量附近表征训练动力学的行为,该对应向量实现零训练误差,就与数据点之和相对应的隐式调节项而言,模型相对于参数向量的梯度的L2范数,在每个数据点。然后,我们利用这种一般特征,它适用于任何连接,宽度,深度和激活函数选择的网络,以显示对于具有一维标记数据$(x_1)的双向ReLU网络的任意宽度和L2损失。 ,y_1),\ ldots,(x_n,y_n),$唯一具有零trainingerror的稳定解决方案对应于以下函数:1)在任何一组三个或更多线性训练点上是线性的(即函数没有额外的“扭结” “); 2)改变凸度是拟合训练数据所需的最小次数。此外,对于任意宽度的双层网络,使用tanhor逻辑激活,我们表明,当训练单个$ d $ -dimensionalpoint $(x,y)$时,唯一稳定的解决方案对应于所有隐藏单元的激活的网络数据点以及从隐藏单元到输出的所有权重最多取两个不同的值,或者为零。从这个意义上说,我们表明,当对“简单”数据进行训练时,对应可控参数的模型也是“简单”的;简而言之,尽管适应过度参数化的制度,其中绝大多数可表达的功能复杂且表现不佳,但通过使用噪声表达训练达到的稳定参数几乎是与数据一致的“最简单可能”的假设。这些结果揭示了为什么会出现这样的谜团。深层网络在实践中概括得很好。
translated by 谷歌翻译
在这项工作中,我们提出了一种在时间图中嵌入节点的方法。我们提出了一种算法,该算法随时间学习时间图的节点的渐变,并将该动态结合在用于不同图形预测任务的时间节点嵌入框架中。我们提出了一种联合损失函数,其通过学习组合其历史时间嵌入​​来创建节点的时间嵌入,使得它优化每个给定任务(例如,链接预测)。该算法使用静态节点嵌入进行初始化,然后静态节点嵌入在不同时间点的节点表示上对齐,并最终在联合优化中适应给定任务。我们评估了我们的方法在各种时间图上的有效性,用于时间链路预测和多标签节点分类这两个基本任务,与竞争基线和算法替代方案相比较。我们的算法显示了许多数据集和基线的性能改进,并且对于具有较低聚类系数的无粘性图形尤其有效。
translated by 谷歌翻译
加权模型集成(WMI)将加权模型计数(WMC)扩展到混合离散连续域上的函数集成。它在解决图形模型和概率编程中的推理问题方面具有显着的前景。然而,WMI的最先进工具是有限的性能间隔,忽略了对提高效率至关重要的独立结构。为了解决这个局限性,我们提出了一种有效的模型积分算法,用于具有树原始图的理论。我们通过使用搜索来执行集成来利用稀疏图结构。我们的算法大大提高了这些问题的计算效率,并利用了变量之间的特定于文本的独立性。实验结果表明,与现有的WMI求解器相比,树形依赖性问题的实际加速比较。
translated by 谷歌翻译
本文提出了一种新的分类模型,称为逻辑电路。在ONMNIST和Fashion数据集中,我们的学习算法优于具有更多参数数量级的神经网络。然而,逻辑电路在符号AI中具有明显的起源,形成区别对应的拓扑逻辑电路,例如AC,SPN和PSDD。我们证明了逻辑电路的参数学习是凸优化,而简单的局部搜索算法可以从数据中引出强大的模型结构。
translated by 谷歌翻译
越来越多的可用数据导致了对代表大规模概率知识库的更高需求。一种方法是使用概率数据库,这是一种具有强大假设的模型,可以有效地回答许多有趣的查询。最近关于开放世界概率数据库的工作通过抛弃数据中不存在的任何信息必须是假的假设来加强这些概率数据库的语义。虽然直观,但这些语义并不足以为查询提供合理的答案。我们建议通过使用约束来限制这个开放世界来克服这些问题。我们为一类查询提供了算法,并建立了基本的硬度结果。最后,我们为大类查询提出了一种有效且紧密的近似。
translated by 谷歌翻译
In the general submatrix detection problem, the task is to detect the presence of a small k × k subma-trix with entries sampled from a distribution P in an n × n matrix of samples from Q. This formulation includes a number of well-studied problems, such as biclustering when P and Q are Gaussians and the planted dense subgraph formulation of community detection when the submatrix is a principal minor and P and Q are Bernoulli random variables. These problems all seem to exhibit a universal phenomenon: there is a statistical-computational gap depending on P and Q between the minimum k at which this task can be solved and the minimum k at which it can be solved in polynomial time. Our main result is to tightly characterize this computational barrier as a tradeoff between k and the KL divergences between P and Q through average-case reductions from the planted clique conjecture. These computational lower bounds hold given mild assumptions on P and Q arising naturally from classical binary hypothesis testing. In particular, our results recover and generalize the planted clique lower bounds for Gaussian biclustering in [MW15, BBH18] and for the sparse and general regimes of planted dense subgraph in [HWX15, BBH18]. This yields the first universality principle for computational lower bounds obtained through average-case reductions. To reduce from planted clique to the submatrix detection for a specific pair P and Q, we introduce two techniques for average-case reductions: (1) multivariate rejection kernels which perform an algorithmic change of measure and lift to a larger submatrix while obtaining an optimal tradeoff in KL divergence, and (2) a technique for embedding adjacency matrices of graphs as principal minors in larger matrices that handles distributional issues arising from their diagonal entries and the matching row and column supports of the k × k submatrix. We suspect that these techniques have applications in average-case reductions to other problems and are likely of independent interest. We also characterize the statistical barrier in our general formulation of submatrix detection.
translated by 谷歌翻译
我们通过实证研究探索和竞争之间的相互作用。从与用户交互中学习的系统经常参与探索:做出潜在的次优决策,以获取未来决策的新信息。然而,当多个系统竞争同一个用户市场时,探索可能会在短期内损害系统的声誉,从而产生不利的竞争效应。特别是,当短期声誉成本减少系统要学习的用户数量时,系统可能输入“死亡螺旋”,这会降低其相对于竞争的性能并进一步降低其市场份额。我们询问是否有更好的探索算法在竞争中受到激励。我们在一个程式化的双寡头模型中进行了广泛的数值实验,其中两家公司部署多臂强盗算法并竞争近视用户。我们发现,垄断和垄断倾向于支持一种原始的“贪婪算法”,这种“贪婪算法”不会探索并导致低消费者福利,而当代垄断(具有早期参与者的双寡头)可能会激励更好的带宽算法并导致更高的消费者福利。我们的研究结果通过探索数据可以作为进入在线市场的障碍的角色,揭示了数字经济中的先发优势。
translated by 谷歌翻译
我们提出了一个框架,用于在自适应命令和控制接口的上下文中从话语中引入语义帧。系统根据个人用户的话语和表示控件的相应语义框架进行训练。在训练期间,没有关于话语片段与帧时隙和值之间的对齐的先验信息。此外,训练数据中的语义帧可以包含未在话语中表达的信息。为了解决这种弱监督分类任务,我们提出了一个基于隐马尔可夫模型(HMM)的框架。引入了导致分层HMM的结构修改和称为表达共享的扩展,以最小化用户所需的训练时间和精力。用于本研究的数据集是PATCOR,其包含在声音引导的纸牌游戏Patience的上下文中的命令。实验是在命令的正交和语音转录上进行的,在不同水平的n-gram粒度上进行分段。实验结果表明所有研究的系统扩展都有正面影响,不同输入表示之间存在一些影响差异。此外,对具有最佳系统配置的保持数据的评估实验表明,扩展系统能够以相对较小的训练数据实现高精度。
translated by 谷歌翻译