通过强化学习(RL)在人工智能方面的最新进展已经在日益复杂的单一代理环境和双人回合制游戏中取得了巨大成功。然而,真实世界包含多个代理,每个代理都独立学习和行动以与其他代理进行合作和竞争,反映这种复杂程度的环境仍然是一个难题。在这项工作中,我们首次演示了一个代理可以在一个流行的3D多人第一人称视频游戏Quake III Arena夺旗中实现人类级别,仅使用像素和游戏点作为输入。这些结果是通过一个新颖的两层优化过程,其中独立RL代理的人口从数千个并行匹配中同时训练,其中代理一起玩并且在随机生成的环境中彼此相对。群体中的每个代理人学习其自己的内部奖励信号以补充来自获胜的稀疏延迟奖励,并且使用新颖的时间分层表示来选择动作,该代表可以使代理在多个时间尺度下进行推理。在游戏过程中,这些代理人基于丰富的学习表示来显示类似人的行为,例如导航,跟随和保护,该学习表示被示出为编码高级游戏知识。在广泛的锦标赛风格评估中,训练有素的球员超过了作为队友和对手的强大的人类球员的胜利率,并且证明远比现有的最先进的特工更强。这些结果表明人工智能的能力显着提升,让我们更接近人类智慧的目标。
translated by 谷歌翻译
由于大数据革命和不断增长的计算能力,人工智能(AI)在过去几年中取得了令人印象深刻的复兴,现在在研究和工业领域都无处不在。创意部门一直是人工智能技术的早期采用者,这种情况一直如此。事实上,最近的技术发展突破了创意应用中智能系统的界限:2016年发布的备受好评的电影“Sunspring”完全是由人工智能技术编写的,也是有史以来第一部名为“Hello World”的音乐专辑,使用人工智能生产的产品已于今年发布。同时,创造性过程的探索性特征为AI提出了重要的技术挑战,例如,在传统的“大数据”方法或者处理,分析和匹配数据的能力下,人工智能技术在有限的数据源下是准确的。从多种形式(文本,声音,图像等)同时进行。本白皮书的目的是了解人工智能的未来技术进步及其对创造性产业日益增长的影响。本文讨论了以下问题:AI在创意产业中的运作方式?它的作用是什么? AI将如何在未来十年内转变创意产业?本白皮书旨在提供关于创意产业中人工智能行为范围的现实视角,提出该技术如何为此类背景下的研究和开发工作做出贡献的愿景,并确定研究和发展挑战。
translated by 谷歌翻译
我们介绍了一种新的损失函数,用于训练深度学习架构以进行分类。它包括最小化在体系结构输出处构建的相似性图上的标签信号的平滑度。等效地,可以将其视为最大化来自不同类的训练输入的网络功能图像之间的距离。因此,在该过程中仅考虑不同类中的示例对之间的距离,并且训练不会阻止来自相同类的输入被映射到输出域中的远程位置。我们表明,这种损失在分类中表现出与使用经典交叉熵训练的架构相似的性能,同时提供有趣的自由度和属性。我们还证明了所提出的损失的兴趣,以增加受过训练的架构对输入偏差的鲁棒性。
translated by 谷歌翻译
将模型训练为高端性能需要大型标记数据集的可用性,这些数据集的获取成本很高。我们的工作目标是自动合成与下游任务相关的标记数据集。我们提出Meta-Sim,它学习合成场景的生成模型,并通过图形引擎获取图像以及相应的地面实况。我们使用神经网络对我们的数据集生成器进行参数化,该神经网络可以修改从概率场景图获得的场景图的属性,从而最小化其渲染输出和目标数据之间的分布差距。如果真实数据集带有小的标记验证集,我们还旨在优化元目标,即下游任务性能。实验表明,该方法可以大大提高人工工程概率场景语法的内容生成质量,无论是定性还是定量,都可以通过对下游任务的性能来衡量。
translated by 谷歌翻译
在计算机视觉中,视觉艺术通常从纯粹的美学角度进行研究,主要是通过分析艺术再现的视觉外观来推断其风格,作者或其代表性特征。然而,在这项工作中,我们从视觉和语言两个方面探索艺术。我们的目标是通过共同分析其美学和语义,弥合anartwork的视觉外观与其潜在意义之间的差距。我们介绍了多模态技术在自动艺术分析领域的应用,1)收集具有精美艺术绘画和评论的多模态数据集,以及2)探索艺术图像中的鲁棒视觉和文本表示。
translated by 谷歌翻译
在过去的几年中,社交机器人已经部署在公共环境中,显然需要具有人类意识的导航功能。在这方面,机器人社区已经努力在导航方法中包括代理或社会公约。然而,很少有作品解决了在阻挡机器人运动轨迹时将人类标记为交互式代理的问题。当前最先进的导航规划人员不会提出替代路径或冻结动作直到路径自由。我们提出了一个框架的第一个原型,旨在提高机器人在室内环境中导航时的社会能力。使用导航和对象检测开源软件完成实现。具体来说,分别是机器人操作系统(ROS)导航堆栈和具有Caffe深度学习模型和MobileNet单次检测器(SSD)的OpenCV。
translated by 谷歌翻译
在图像中分割对象并在音频中分离声源是具有挑战性的任务,部分原因是传统方法需要大量标记数据。在本文中,我们开发了一个神经网络模型,用于视觉对象分割和声源分离,通过自我监督从自然视频中学习。该模型是最近提出的将图像像素映射到声音的工作的扩展。在这里,我们在神经网络中引入学习方法todisentangle概念,并分配语义类别网络特征通道,以便在视频上进行视听培训后实现独立的图像分割和声源分离。我们的评估表明,解开模型在语义分割和声源分离方面优于几个基线。
translated by 谷歌翻译
驾驶需要对各种复杂的环境条件和代理行为做出反应。对每个可能的场景进行明确建模是不现实的。相比之下,模仿学习在理论上可以利用大型人力车辆的数据。特别是行为克隆已成功用于端到端学习简单的视觉运动策略,但扩展到驾驶行为的全部范围仍然是一个未解决的问题。在本文中,我们提出了一个新的基准来实验性地研究行为克隆的可扩展性和限制。我们表明,行为克隆可以带来最先进的结果,包括在看不见的环境中,执行复杂的边界和纵向操作,而不会明确地编程这些反应。然而,我们确认众所周知的局限性(由于数据集偏差和过度拟合),新的泛化问题(由于动态对象和缺乏因果模型),以及在行为克隆之前需要进一步研究的训练不稳定性可以逐渐转向真实世界的驾驶。研究行为克隆方法的代码可以在http://github.com/felipecode/coiltraine找到。
translated by 谷歌翻译
本研究的目的是设计一个人形机器人指南作为老年人和康复患者的助听器。该系统基于人形机器人Pepper,采用合规方法,可以将用户的操作意图与机器人的节奏相匹配。这项可行性研究得到了在康复中心进行的实验评估的支持。我们假设辣椒机器人用作辅助伙伴,也可以通过激励他们进行身体活动来使老年用户受益。
translated by 谷歌翻译
事件相机是视觉传感器,记录异像素亮度变化的异步流,称为“事件”。它们比基于帧的计算机视觉相机具有吸引人的优势,包括高时间分辨率,高动态范围和无运动模糊。由于事件信号的稀疏,非均匀时空布局,模式识别算法通常将事件聚合成基于网格的表示,并随后通过标准视觉管道(例如,卷积神经网络(CNN))对其进行处理。在这项工作中,我们引入了一个通用框架,通过一系列不同的操作将转换流转换为基于网格的表示。我们的框架带有两个主要优势:(i)允许以端到端的方式学习输入事件表示和任务专用网络,以及(ii)提供统一文献中现存事件表示的大多数的分类法。识别小说。根据经验,我们表明,我们的端到端学习事件表示的方法在光流估计和对象识别方面比最先进的方法提高了大约12%。
translated by 谷歌翻译