基于自我关注机制的顶部,视觉变压器最近在各种视觉任务上表现出显着的性能。虽然实现出色的性能,但它们仍然需要相对密集的计算成本,随着斑块的数量,自我关注头和变压器块增加而剧烈缩放。在本文中,我们争辩说,由于图像的变化大,因此它们对贴片之间的长距离依赖性建模的需要不同。为此,我们介绍了一个Adavit,一个自适应计算框架,学习在每次输入的基础上派生在整个骨干内的修补程序,自我注意力头和变压器块的使用策略,旨在提高视觉变压器的推理效率图像识别的最小精度降低。以端到端的方式与变压器骨架一起优化,轻量级决策网络连接到骨架上,以便在飞行中产生决定。关于ImageNet的广泛实验表明,与最先进的视觉变压器相比,我们的方法对效率的提高超过了2倍的效率,只有0.8%的准确性,实现了在不同的计算预算上的良好效率/准确性权衡权衡。我们进一步对学习使用政策进行了定量和定性分析,并对视觉变压器的冗余提供了更多的见解。
translated by 谷歌翻译
今天的网络世界难以多变量。在极端品种中收集的指标需要多变量算法以正确检测异常。然而,基于预测的算法,如被广泛证明的方法,通常在数据集中进行次优或不一致。一个关键的常见问题是他们努力成为一个尺寸适合的,但异常在自然中是独特的。我们提出了一种裁定到这种区别的方法。提出FMUAD - 一种基于预测,多方面,无监督的异常检测框架。FMUAD明确,分别捕获异常类型的签名性状 - 空间变化,时间变化和相关变化 - 与独立模块。然后,模块共同学习最佳特征表示,这是非常灵活和直观的,与类别中的大多数其他模型不同。广泛的实验表明我们的FMUAD框架始终如一地优于其他最先进的预测的异常探测器。
translated by 谷歌翻译
自动音频标题(AAC)旨在使用自然语言描述具有标题的音频数据。大多数现有的AAC方法采用编码器 - 解码器结构,其中基于注意的机制是解码器(例如,变压器解码器)中的受欢迎选择,用于预测来自音频特征的标题。这种基于注意的解码器可以从音频特征捕获全局信息,然而,它们在提取本地信息的能力可以是有限的,这可能导致所生成的标题中的质量下降。在本文中,我们介绍了一种具有无注意解码器的AAC方法,其中基于Pann的编码器用于音频特征提取,并且设计了无注意的解码器以引入本地信息。所提出的方法使得能够从音频信号中有效地使用全局和本地信息。实验表明,我们的方法在DCASE 2021挑战的任务6中具有基于标准的解码器的最先进的方法。
translated by 谷歌翻译
自我关注在捕获远程关系时,在提高视觉任务的表现,例如图像分类和图像标题等方面,突出的能力。然而,自我关注模块高度依赖于查询键值特征之间的点产品乘法和维度对齐,这导致两个问题:(1)点产品乘法导致穷举和冗余计算。 (2)由于视觉特征图通常出现作为多维张量,重塑张量特征的尺度,以适应尺寸对齐可能会破坏张量特征图的内部结构。为了解决这些问题,本文提出了一种具有其变体的自我关注插入模块,即合成张量变换(STT),用于直接处理图像张量特征。如果在查询键值之间计算点 - 产品乘法,则基本STT由张量转换组成,以从视觉信息中学习合成注意力。 STT系列的有效性在图像分类和图像标题上验证。实验表明,建议的STT实现了竞争性能,同时保持鲁棒性与基于视觉任务的自我关注相比。
translated by 谷歌翻译
通过集中培训和分散执行的价值功能分解是有助于解决合作多功能协商强化任务的承诺。该地区QMIX的方法之一已成为最先进的,在星际争霸II微型管理基准上实现了最佳性能。然而,已知QMIX中每个代理估计的单调混合是限制它可以表示的关节动作Q值,以及单个代理价值函数估计的全局状态信息,通常导致子优相。为此,我们呈现LSF-SAC,这是一种新颖的框架,其具有基于变分推理的信息共享机制,作为额外的状态信息,以帮助在价值函数分子中提供各个代理。我们证明,这种潜在的个人状态信息共享可以显着扩展价值函数分解的力量,而通过软演员批评设计仍然可以在LSF-SAC中保持完全分散的执行。我们在星际争霸II微型管理挑战上评估LSF-SAC,并证明它在挑战协作任务方面优于几种最先进的方法。我们进一步设定了广泛的消融研究,以定位核算其绩效改进的关键因素。我们认为,这种新的洞察力可以导致新的地方价值估算方法和变分的深度学习算法。可以在https://sites.google.com/view/sacmm处找到演示视频和实现代码。
translated by 谷歌翻译
眼科医生已经使用眼底图像筛选和诊断眼病。然而,不同的设备和眼科医生对眼底图像的质量产生了大的变化。低质量(LQ)降级的眼底图像在临床筛查中容易导致不确定性,并且通常会增加误诊的风险。因此,真实的眼底图像恢复值得研究。不幸的是,到目前为止,这项任务尚未探索真正的临床基准。在本文中,我们研究了真正的临床眼底图像恢复问题。首先,我们建立一个临床数据集,真实的眼底(RF),包括120个低质量和高质量(HQ)图像对。然后,我们提出了一种新型的变压器的生成对抗网络(RFRMANER)来恢复临床眼底图像的实际降级。我们网络中的关键组件是基于窗口的自我关注块(WSAB),其捕获非本地自我相似性和远程依赖性。为了产生更明显的令人愉悦的结果,介绍了一种基于变压器的鉴别器。在我们的临床基准测试中的广泛实验表明,所提出的rformer显着优于最先进的(SOTA)方法。此外,诸如船舶分割和光盘/杯子检测之类的下游任务的实验表明我们所提出的rformer益处临床眼底图像分析和应用。将发布数据集,代码和模型。
translated by 谷歌翻译
最近,自主驾驶社会上有许多进展,吸引了学术界和工业的很多关注。然而,现有的作品主要专注于汽车,自动驾驶卡车算法和模型仍然需要额外的开发。在本文中,我们介绍了智能自动驾驶卡车系统。我们所呈现的系统由三个主要组成部分组成,1)一个现实的交通仿真模块,用于在测试场景中产生现实的交通流量,2)设计和评估了在现实世界部署中模仿实际卡车响应的高保真卡车模型,3 )具有基于学习的决策算法和多模轨迹策划仪的智能计划模块,考虑到卡车的约束,道路斜率变化和周围的交通流量。我们为每个组分单独提供定量评估,以证明每个部件的保真度和性能。我们还将我们的建议系统部署在真正的卡车上,并进行真实的世界实验,表明我们的系统能力缓解了SIM-TO-REAL差距。我们的代码可以在https://github.com/inceptioresearch/iits提供
translated by 谷歌翻译
半监控视频对象分割(VOS)是指在近年来在第一帧中的注释中分割剩余帧中的目标对象,该帧近年来已经积极研究。关键挑战在于找到利用过去框架的时空上下文的有效方法来帮助学习当前帧的判别目标表示。在本文中,我们提出了一种具有专门设计的交互式变压器的新型暹罗网络,称为SITVOS,以实现从历史到当前帧的有效上下文传播。从技术上讲,我们使用变换器编码器和解码器单独处理过去的帧和当前帧,即,编码器从过去的帧中对目标对象的强大的时空上下文进行编码,而解码器将当前帧的特征嵌入为查询。从编码器输出检索目标。为了进一步增强目标表示,设计了一种特征交互模块(FIM)以促进编码器和解码器之间的信息流。此外,我们使用暹罗架构来提取过去和当前帧的骨干功能,它能够重用并且比现有方法更有效。三个挑战基准测试的实验结果验证了SITVOS在最先进的方法上的优越性。
translated by 谷歌翻译
我们研究了线性函数近似的政策评估问题,并且目前具有强烈的最优性保证的高效实用算法。我们首先通过证明在这个问题中建立基线的下限来建立基线和随机错误。特别是,我们在与转换内核的静止分布相关联的实例相关规范中证明了Oracle复杂性下限,并使用本地渐近最低限度机械在随机误差中证明依赖于随机误差的实例相关的下限IID观察模型。现有算法未能匹配这些下限中的至少一个:为了说明,我们分析了时间差异学习的方差减少变体,特别是它未能实现Oracle复杂性下限。为了解决这个问题,我们开发了加速,方差减少的快速时间差算法(VRFTD),其同时匹配两个下限,并达到实例 - 最优性的强烈概念。最后,我们将VRFTD算法扩展到Markovian观察的设置,并提供与I.I.D中的实例相关的收敛结果。设置到与链条的混合时间成比例的乘法因子。我们的理论保证最佳的最佳保证是通过数值实验证实的。
translated by 谷歌翻译
量子计算在解决特定问题方面具有优异的优势,例如整数分解和Simon的问题。对于机器学习中的更多一般任务,通过应用变分量子电路,最近已经提出了越来越多的量子算法,特别是在监督学习和无监督的学习中。但是,在加固学习中已经完成了一点工作,可以说是更重要和挑战性的。以前的Quantum加固学习的工作主要集中在行动空间是离散的离散控制任务。在这项工作中,我们开发了一种基于软演员 - 评论家的量子强化学习算法 - 用于连续控制的最先进方法之一。具体地,我们使用由变形量子电路和经典人工神经网络组成的混合量子级策略网络。在标准强化学习基准测试中测试,我们认为这种Quantum版本的软演员 - 评论家与原始的软演员 - 评论家相当,使用远不可调节的参数。此外,我们分析了不同超参数和策略网络架构的影响,指出了量子增强学习的建筑设计的重要性。
translated by 谷歌翻译