互惠是人类社会互动的重要特征,也是人们合作的基础。更重要的是,简单的互惠形式已经证明在矩阵游戏社会困境中具有显着的弹性。最着名的是,在针对囚徒困境的比赛中,针对性的策略表现得非常好。不幸的是,这种策略并不适用于现实世界,其中合作或缺陷的选择在时间和空间上得到延伸。在这里,我们提出一般的在线强化学习算法,显示对其共同参与者的互惠行为。我们表明,在与$ 2 $ $ -player Markov游戏以及$ 5 $ -player intertmporal socialdilemmas中进行学习时,它可以为更广泛的群体带来更好的社交结果。我们分析了由此产生的政策,以表明往复行为受其共同参与者行为的强烈影响。
translated by 谷歌翻译
发现和利用环境中的因果结构对于智能代理来说是一项艰巨的挑战。在这里,我们探讨通过元强化学习是否可以出现因果反应。我们通过无模型强化学习训练一个经常性的网络来解决一系列问题,每个问题都包含因果结构。我们发现受过训练的代理人可以在新情况下进行因果推理以获得奖励。代理人可以选择信息干预,从观察数据中得出因果推论,并进行反事实预测。虽然也存在已建立的正式因果推理算法,但在本文中我们表明这种推理可以从无模型强化学习中获得,并且表明复杂环境中的因果推理可能会受益于此处提供的更多端到端的基于学习的方法。通过为代理人提供执行和解释实验的能力,这项工作还为强化学习中的结构探索提供了新的策略。
translated by 谷歌翻译
在观察他人的行为时,人类会对其他人为何如此行事进行推断,以及这对他们对世界的看法意味着什么。人类还使用这样一个事实,即当他人观察时,他们的行为将以这种方式进行解释,从而使他们能够提供信息,从而与他人进行有效沟通。尽管学习算法最近在许多双人游戏,零和游戏中实现了超人的表现,但可扩展的多智能体强化学习算法在复杂的,部分可观察的环境中可以发挥作用的策略和惯例已被证明是难以捉摸的。我们提出了贝叶斯动作解码器(BAD),这是一种新的多智能体学习方法,它使用近似贝叶斯更新来获得公众对环境中所有代理所采取的行动的条件的信念。与公众的信念一起,这种贝叶斯更新有效地定义了一种新的马尔可夫决策过程,即公众信念MDP,其中行动空间由确定性的部分政策组成,由深层网络参数化,可以针对给定的公共状态进行抽样。它利用了这样的事实:如果动作空间被扩充到将私有信息映射到环境动作的部分策略,那么仅作用于该公共信念状态的代理仍然可以学习其私人信息。贝叶斯更新也与人类在观察他人行为时进行的心理推理理论密切相关。我们首先在基于原理的两步矩阵游戏中验证BAD,其中它优于传统的政策梯度方法。然后,我们在具有挑战性的合作部分信息卡游戏Hanabi上评估BAD,其中双人游戏设置方法超越了之前发布的所有学习和手动编码方法。
translated by 谷歌翻译
最近的工作表明,深层强化学习代理可以从不常见的环境奖励中学习类似语言的指令。然而,这给环境设计者带来了设计语言 - 条件向前功能的责任,这些功能可能不容易或易于实现,因为环境的复杂性和语言规模。为了克服这种限制,我们提出了一个框架,在该框架内,使用不是从环境获得的奖励来训练指令条件的RLagents,而是使用从专家示例联合训练的奖励模型。随着奖励模式的改进,他们学会准确地奖励代理人完成任务前环境配置 - 以及指令 - 在专家数据中不存在。该框架有效地将指令所需的表示与它们的执行方式分开。在一个简单的网格世界中,它使代理能够学习一系列需要与块交互并了解空间关系和未指定抽象布置的命令。我们进一步展示了该方法允许我们的代理适应环境中的变化,而无需新的专家示例。
translated by 谷歌翻译
人类群体通常能够找到相互合作的方式,不合时宜的,暂时延长的社会困境。基于行为经济学的模型只能解释这种不现实的无状态矩阵游戏的现象。最近,多智能体强化学习被应用于普遍化社会困境问题,以暂时和空间扩展马尔科夫格。然而,这还没有产生一种能够像人类一样学会合作社会困境的代理人。一个关键的洞察力是,许多(但不是全部)人类个体具有不公平的厌恶社会偏好。这促进了矩阵游戏社会困境的特定解决方案,其中不公平 - 反对个人亲自亲社会并惩罚叛逃者。在这里,我们将这一内容扩展到马尔可夫游戏,并表明它通过与政策性能的有利互动促进了几种类型的顺序社会困境中的合作。特别是,我们发现不公平厌恶改善了跨期社会困境的重要类别的时间信用分配。这些结果有助于解释大规模合作可能如何产生和持续存在。
translated by 谷歌翻译
执法部门或大众媒体机构经常需要面对隐瞒提供隐私保护。共享敏感内容,其中遮蔽或减少技术可能未能完全消除所有可识别的痕迹,可能导致危及生命的后果。因此,能够系统地测量给定技术的面部遮蔽性能是至关重要的。在本文中,我们建议测量三种模拟技术的有效性:高斯模糊,中值模糊和像素化。通过在两种情况下识别编辑的面部来进行编辑:将遮蔽的面部分类为一组身份,并将遮蔽的面部与清晰面部的相似性进行比较。威胁建模还被认为是为每种研究的遮蔽技术提供漏洞分析。基于ourevaluation,我们表明基于像素化的面部遮蔽方法是最有效的。
translated by 谷歌翻译
域适应提供了一组功能强大的模型训练技术,可以提供特定于域的训练数据和具有未知相关性的补充数据。当用户需要使用来自不同来源,不同质量或不同时间范围的数据开发模型时,这些技术非常有用。我们构建了CrossTrainer,一个用于实际领域适应的系统。 CrossTrainer利用损失重新加权,在我们的实证分析中为各种数据集提供始终如一的高模型精度。然而,损失重新加权对于调整昂贵的权重超参数的选择是敏感的。我们利用损失重新加权的独特属性开发优化,允许CrossTrainer输出准确的模型,同时与初始超参数搜索相比改善训练时间。
translated by 谷歌翻译
鱼眼摄像机通常用于获得大视场监视,增强现实以及特别是汽车应用。尽管普遍存在,但很少有公共数据集用于详细评估鱼眼图像上的计算机视觉算法。我们发布了第一个广泛的鱼眼汽车数据集WoodScape,它以1906年发明了鱼眼摄像机的罗伯特·伍德的名字命名.WoodScape包括四个环视摄像机和一些任务,包括分割,深度估计,3D边界框检测和污染检测。实例级别的40个类的语义标注为10,000多个图像提供,并为超过100,000个图像提供其他任务的注释。我们希望鼓励社区适应鱼眼摄像机的计算机视觉模型,而不是天真的整改。
translated by 谷歌翻译
计算哲学是机械化计算技术的运用,利用传统哲学方法难以或不可能找到的哲学见解。计算形而上学是计算哲学,侧重于形而上学。在本文中,我们(a)开发了模态形而上学的结果,其发现是计算机辅助的,并且(b)得出结论,这些结果不仅对哲学的明显好处起作用,而且对于计算机科学的益处也不那么明显,因为新的导致这些结果的计算技术可能在计算机科学中更广泛地应用。本文包括对背景方法及其演变方式的描述,以及对我们新结果的讨论。
translated by 谷歌翻译
我们提出了一个大型数据集,OpenEDS:Open Eye Dataset,使用虚拟现实(VR)头戴式显示器捕获的眼睛图像,该显示器安装有两个同步的视觉相机,在200Hz的帧速率下进行受控照明。该数据集是根据从152个个体参与者收集的眼睛区域的视频捕获编译的,并且被分成四个子集:(i)12,759个图像,其具有关键眼睛区域的像素级注释:虹膜,瞳孔巩膜(ii)252,690未标记的眼睛 - 图像,(iii)来自随机选择的持续时间为1.5秒的视频序列的91,200帧和(iv)143个左右点云数据,这些数据来自从子集中收集的眼睛区域的角膜地形图,152个中的143个参与者。在OpenEDS上评估了Abaseline实验,用于瞳孔,虹膜,巩膜和背景的语义分割任务,其平均交叉转换(mIoU)为98.3%。我们预计OpenEDS将为眼动追踪社区和更广泛的机器学习和计算机视觉社区的研究人员创造机会,以推进VR应用的眼跟踪状态。该数据集可通过https://research.fb.com/programs/openeds-challenge进行下载
translated by 谷歌翻译