在人群中导航的机器人需要能够计划安全,有效和人类可预测的轨迹。这是一个特别具有挑战性的问题,因为它需要机器人预测人群中的未来人类预测,其中每个人都隐含地相互协作以避免碰撞。人类轨迹预测的先前方法已经模拟了人类之间的相互作用作为接近度的函数。然而,这并不一定是正确的,因为我们附近的一些人在同一方向上移动可能不像其他人那么重要,但可能在未来与我们发生冲突。在这项工作中,我们提出了社交注意,这是一种新颖的轨迹预测模型,可以捕捉每个人在人群中导航时的相对重要性,而不管他们的接近程度如何。我们在两个可公开获得的人群数据集上展示了我们的方法对最先进方法的表现,并分析了经过培训的注意力模型,以便更好地了解人群在人群中航行时所处理的周围环境。
translated by 谷歌翻译
深度学习,大量注释数据和越来越强大的硬件的突出使得有可能在监督分类任务中达到显着的性能,在许多情况下使训练集饱和。然而,由于至少有三个原因,将学习的分类调整到新的领域仍然是一个难题:(1)领域和任务可能大不相同; (2)新域上可能存在非常有限的注释数据量;(3)由于deepnetworks参数的剪切数,每个新任务的新模型的完全训练在内存方面是禁止的。相反,新任务应该逐步学习,建立在已经学过的任务的预知基础之上,并且没有灾难性的遗忘,即不会损害先前任务的表现。据我们所知,本文提出了第一种多域/任务学习方法,无需使用完全张量化的体系结构进行灾难性的遗忘。我们的主要贡献是多域学习的方法,其将CNN内的相同结构块的组建模为高阶张量。我们证明了这种联合模式自然地利用了不同层之间的相关性,并且导致每个新任务/域比以前的方法更紧凑的表示,这些方法专注于分别调整每个层。我们将所提出的方法应用于视觉十项全能挑战赛的10个数据集,并表明我们的方法在分类准确度和迪卡侬评分方面平均提供约7.5倍的参数数量和优异的性能。特别是,我们的方法优于Visual DecathlonChallenge的所有先前工作。
translated by 谷歌翻译
通常,由于训练和测试环境之间的不匹配,自动语音识别(ASR)系统的性能显着降低。最近,提出了一种基于深度学习的图像到图像翻译技术,用于将图像从源域转换到期望的域,并且应用循环一致的对抗性网络(CycleGAN),允许从语音到语音转换的映射。发言人到目标运动员。但是,这种方法可能不足以去除损坏的ASR的破坏性噪声组件,因为它旨在转换语音本身。在本文中,我们提出了一种基于生成对偶网络(GAN)的域自适应方法,其中解开的表示学习在ASR系统中实现了完整性。特别地,引入两个分离的编码器,上下文和域编码器以学习不同的潜在变量。潜在变量允许我们根据其上下文和域表示来转换语音域。我们通过对鲁棒ASR应用嘈杂到清洁的环境适应,将CHIME4挑战语料库的单词准确度提高了6.55~15.70%。此外,类似于基于CycleGAN的方法,该方法可用于性别不匹配识别中的性别适应。
translated by 谷歌翻译
深度网络本质上消耗大量内存。我们可以在保持性能的同时减少内存需求。特别是,在这项工作中,我们解决了多个任务的记忆有效学习问题。为此,我们提出了一种新颖的网络体系结构,可以为不同的任务生成多个不同配置的网络,称为深度虚拟网络(DVN)。每个DVN都是专门的单一任务和分层结构。包含对应于不同数量的参数的多个层次结构的分层结构使得能够对不同的存储器预算进行多个推断。深度虚拟网络的构建块基于网络参数的不相交集合,我们将其称为单元。深度虚拟网络中最低级别的层次结构是一个单元,更高级别的层次结构包含较低级别的单元和其他附加单元。给定参数数量的预算,可以选择不同级别的深度虚拟网络来执行任务。一个单元可以由不同的DVN共享,允许单个网络中的多个DVN。此外,共享单元通过从其他任务中学到的额外知识为目标任务提供帮助。这种DVN的协作配置使得以记忆感知方式处理不同任务成为可能。我们的实验表明,所提出的方法优于现有的多任务方法。值得注意的是,我们的效率比其他任务更高,因为它允许对所有任务进行内存感知推理。
translated by 谷歌翻译
最近,强化学习与深度神经网络相结合,在许多游戏类型中表现出色。它在固定游戏环境和回合制两种玩家棋盘游戏中超越了人类级别的表现。但是,据我们所知,没有任何研究表明过现代复杂格斗游戏的结果超过人类水平。这是由于现代格斗游戏的固有困难,包括巨大的动作空间,实时约束以及各种要素所需的性能概括。我们克服了这些挑战,并为商业游戏“Blade&Soul”制作了1v1战斗AI代理商。经过培训的代理商与五位专业游戏玩家进行了比赛,获得了62%的胜率。本文介绍了一种实用的强化学习方法,包括一种新颖的自学游戏和数据跳过技术。通过课程,奖励塑造创造了三种不同风格的奖励,并且相互训练以获得良好的表现。此外,本文还提出了数据跳过技术,这些技术可以提高数据效率并促进广阔空间的探索。
translated by 谷歌翻译
我们解决了语义对应的问题,即在描绘同一对象或场景类别的不同实例的图像之间建立腺体流场。我们建议使用带有二元前景掩模注释的图像并进行合成几何变形来训练用于此任务的卷积神经网络(CNN)。使用这些掩模作为监控信号的一部分,在语义流方法之间提供了良好的折衷,其中训练数据的数量受到手动选择点对应的成本的限制,以及语义对齐,其中图像之间的单个全局几何变换的回归可能是敏感的特定于图像的细节,例如背景杂乱。我们提出了一个新的CNN架构,称为SFNet,它实现了这个想法。它利用argmax功能的新的不同版本进行端到端训练,并将面罩和流量一致性与平滑度相结合。实验结果证明了我们的方法的有效性,它显着优于标准基准测试的最新技术水平。
translated by 谷歌翻译
我们提出了一种用于半监督视频对象分割的新颖解决方案。根据问题的性质,可用的提示(例如,具有对象掩模的视频帧)随着中间预测而变得更加丰富。但是,现有的方法无法充分利用这种丰富的信息来源。我们通过利用内存网络解决问题,并学习从所有可用来源中读取相关信息。在我们的框架中,具有对象掩码的过去帧形成外部存储器,并且使用存储器中的掩码信息对作为查询的当前帧进行分段。具体地,查询和存储器在特征空间中是完全匹配的,以前馈方式覆盖所有空时像素定位。与之前的方法相比,指导信息的大量使用使我们能够更好地处理诸如外观变化和遮挡之类的挑战。我们在最新的基准测试集中验证了我们的方法并获得了最先进的性能(Youtube-VOS val集的总分为79.4,分别为DAV.72016 / 2017 val设置的J为88.7和79.2),同时具有快速运行时间( 0.16秒/帧在DAVIS 2016 val set)。
translated by 谷歌翻译
我们在这项工作中的目标是训练一个图像字幕模型,该模型可以生成更密集和信息丰富的字幕。我们引入了“关系字幕”,这是一种新的图像字幕任务,旨在根据图像中对象之间的关系信息生成多个字幕。关系字幕是一种在多样性和信息量方面都有利的框架,可以根据关系导致图像理解。可以将部分语音(POS,即主题 - 对象 - 谓词类别)标签分配给每个英语单词。我们利用POS作为先行来指导字幕中单词的正确序列。为此,我们提出了一个多任务三线网络(MTTSNet),它由三个用于相应POS的重复单元组成,并共同执行POS预测和字幕。我们针对几个基线和竞争方法展示了由拟议模型生成的更多样化和更丰富的表示。
translated by 谷歌翻译
鱼胚模型越来越多地用于评估化学药效和潜在的毒性。本文提出了一种方法,可以在背视图或侧视图中自动检测Medaka鱼胚胎2D图像上的游泳膀胱。在胚胎分割和每个研究方向之后,该方法构建了一个健康胚胎的图谱。然后使用该图谱来定义感兴趣的区域并用离散的全局最优活动轮廓指导游泳者分割。随后根据该分割设计描述符。 。从这些描述符构建自动化随机森林分类器,以便在有和没有游泳膀胱的情况下对胚胎进行分类。所提出的方法在261个图像的adataset上进行评估,其中包含202个具有游泳膀胱的胚胎(其中196个在背侧视图中,6个在侧视图中)和59个没有(其中43个是背视图,16个是侧视图)。在5次交叉验证后,我们在总数据集中获得95%的平均精确率。
translated by 谷歌翻译
本文基于一种新的力估计方案(称为传动力观测器(TFOB)),开发了一种精确的系数弹性致动器(SEA)力控制算法。所提出的方法旨在改善由弹性传递的非线性和测量噪声以及其变形传感器的误差引起的SEA的较低的力测量。本文首先分析了传统SEA传动力传感方法的局限性,然后研究了它的随机特性,这确实为实现与TFOB结合的精确力控制性能奠定了基础。特别地,从频域中的整体闭环系统分析引入了调整参数。这为实现强制控制的SEA系统的最佳性能提供了指导。所提出的算法在实际SEA硬件设置中通过实验验证。
translated by 谷歌翻译