最近建议的MaskFormer \ Cite {MaskFormer}对语义分割的任务提供了刷新的透视图:它从流行的像素级分类范例转移到蒙版级分类方法。实质上,它生成对应于类别段的配对概率和掩码,并在推理的分割映射期间结合它们。因此,分割质量依赖于查询如何捕获类别的语义信息及其空间位置。在我们的研究中,我们发现单尺度特征顶部的每个掩模分类解码器不足以提取可靠的概率或掩模。对于挖掘功能金字塔的丰富语义信息,我们提出了一个基于变压器的金字塔融合变压器(PFT),用于多尺度特征顶部的每个掩模方法语义分段。为了有效地利用不同分辨率的图像特征而不会产生过多的计算开销,PFT使用多尺度变压器解码器,具有跨尺度间间的关注来交换互补信息。广泛的实验评估和消融展示了我们框架的功效。特别是,与屏蔽Former相比,我们通过Reset-101c实现了3.2 miou改进了Reset-101c。此外,在ADE20K验证集上,我们的Swin-B骨架的结果与单尺度和多尺寸推断的屏蔽骨架中的较大的Swin-L骨架相匹配,分别实现54.1 miou和55.3 miou。使用Swin-L骨干,我们在ADE20K验证集中实现了56.0 Miou单尺度结果和57.2多尺度结果,从而获得数据集的最先进的性能。
translated by 谷歌翻译
股票运动预测(SMP)旨在预测上市公司的股份量股份,由于金融市场的挥发性,这是一个具有挑战性的任务。最近的财务研究表明,动量溢出效应在股票波动中发挥着重要作用。然而,以前的研究通常只学习相关公司之间的简单连接信息,这不可避免地未能模仿真实金融市场中上市公司的复杂关系。为了解决这个问题,我们首先建立一个更全面的市场知识图(MKG),其中包含有限的公司,包括上市公司及其相关的高管,以及包括明确关系和隐性关系的混合关系。之后,我们提出了一种新颖的双重关注网络,以了解基于构造的MKG用于库存预测的势头溢出信号。对九个SOTA基线构建数据集的实证实验表明,所提出的丹林公司能够改善与构造的MKG的库存预测。
translated by 谷歌翻译
在图像美学质量评估的任务中,由于美学数据集的正常分布,难以达到高分区域和低得分面积。为了减少标签中的错误并解决正常数据分布的问题,我们提出了一个具有名为AMD-CR的分类和回归的新的美学混合数据集,我们培训了元重传网络以重新重量培训数据的损失不同。此外,我们还提供了一种基于二进制分类任务的伪标签的不同阶段的培训策略,然后我们将其用于审美培训,该课程涉及分类和回归任务的不同阶段。在网络结构的构造中,我们构建一种可以适应输入图像的任何大小的美学自适应块(AAB)结构。此外,我们还使用高效的通道注意力(ECA)来加强每个任务的特征提取能力。实验结果表明,与SROCC中的常规方法相比,我们的方法改善了0.1112。该方法还可以帮助找到无人驾驶飞行器(UAV)和车辆的最佳审美路径规划。
translated by 谷歌翻译
作为沉浸式多媒体服务的重要申请形式,自由视视频(FVV)使用户能够通过强烈的互动来实现沉重的沉浸体验。然而,虚拟视图合成算法的计算复杂性对FVV系统的实时性能构成了重大挑战。此外,用户交互的个性使得难以为具有传统架构的系统同时为多个用户提供服务。在本文中,我们将基于CNN的视图插值算法进行了新颖,实时地合成密集的虚拟视图。基于此,我们还构建了具有多用户导向的流策略的端到端的现场自由视系统。我们的系统可以使用单个Edge服务器同时为多个用户提供服务,而无需在客户端上带来大视图综合负载。我们分析整个系统,并表明我们的方法在视觉质量和延迟方面使用户成为一个令人愉快的沉浸体验。
translated by 谷歌翻译
汤普森抽样(TS)吸引了对强盗区域的兴趣。它在20世纪30年代介绍,但近年来尚未经过理论上证明。其在组合多武装强盗(CMAB)设置中的所有分析都需要精确的Oracle来提供任何输入的最佳解决方案。然而,这种Oracle通常是不可行的,因为许多组合优化问题是NP - 硬,并且只有近似oracles可用。一个例子(王和陈,2018)已经表明TS的失败来学习近似Oracle。但是,此Oracle罕见,仅用于特定问题实例。它仍然是一个开放的问题,无论TS的收敛分析是否可以扩展到CMAB中的精确oracle。在本文中,我们在贪婪的Oracle下研究了这个问题,这是一个常见的(近似)Oracle,具有理论上的保证来解决许多(离线)组合优化问题。我们提供了一个问题依赖性遗憾的遗憾下限为$ \ omega(\ log t / delta ^ 2)$,以量化Ts的硬度来解决贪婪的甲骨文的CMAB问题,其中$ T $是时间范围和$ Delta $是一些奖励差距。我们还提供几乎匹配的遗憾上限。这些是TS解决CMAB与常见近似甲骨文的第一个理论结果,并打破TS无法使用近似神谕的误解。
translated by 谷歌翻译
促进辅助(AAN)控制旨在通过鼓励患者积极参与促进机器人辅助康复的治疗结果。大多数AAN控制器使用阻抗控制来在目标运动周围创建柔性的力字段,以确保在允许中等运动错误的同时进行跟踪精度。然而,由于控制力场的形状的参数通常根据关于关于对象学习能力的简单假设在线手动调整或在线调整,因此可以限制传统AAN控制器的有效性。在这项工作中,我们提出了一种新颖的自适应AAN控制器,其能够根据每个单独的电动机能力和任务要求自动重塑力场以相位相关的方式重塑力场。该拟议的控制器包括使用路径积分算法的修改策略改进,一种无模型的采样的增强学习方法,该方法实时地学习了特定于主题的阻抗景观,以及嵌入AAN PARADIGM的分层策略参数评估结构通过指定性能驱动的学习目标。通过跑步机培训课程通过具有能够在动力踝足矫形器的协助学习改变的步态模式的跑步机培训课程,通过跑步机培训课程进行实验验证,拟议的控制策略及其促进短期运动适应能力的适应性。
translated by 谷歌翻译
在[Mannor和Shamir,Neurips 2011]中提出的图表反馈的强盗问题由指向图$ G =(v,e)$,其中$ v $是强盗臂的集合,并且一旦触发臂一旦触发,所有入射武器都被观察到。基本问题是图形的结构如何影响Min-Max后悔。我们提出了分数分别捕捉上限和下限的美元弱统治号码$ \ delta ^ * $和$ k $ -packing独立号码的概念。我们表明,两种概念通过将它们与弱主导集合的线性程序和其双分数顶点包装组对齐,通过对齐它们通过对齐它们是固有的连接。基于这一联系,我们利用了强大的二元定理来证明一般遗憾的上限$ o \ left(\ left(\ delta ^ * \ log | v | \右)^ {\ frac {1} {3}} t ^ {\ frac {2} {3}} \右)$和一个下限$ \ oomega \ left(\ left(\ delta ^ * / \ alpha \ over)^ {\ frac {1} {3}} t ^ {\ frac {2} {3}}右)$ where $ \ alpha $是双线性程序的完整性差距。因此,我们的界限紧紧达到一个$ \左(\ log | v | \ over)^ {\ frac {1} {3}} $ thace,其中顶点包装问题包括树和图表有限度。此外,我们表明,对于几个特殊的图形,我们可以摆脱$ \左(\ log | v | \右)^ {\ frac {1} {3}} $ factor并建立最佳遗憾。
translated by 谷歌翻译
我们提出了块茎:一种简单的时空视频动作检测解决方案。与依赖于离线演员检测器或手工设计的演员位置假设的现有方法不同,我们建议通过同时执行动作定位和识别从单个表示来直接检测视频中的动作微管。块茎学习一组管芯查询,并利用微调模块来模拟视频剪辑的动态时空性质,其有效地加强了与在时空空间中的演员位置假设相比的模型容量。对于包含过渡状态或场景变更的视频,我们提出了一种上下文意识的分类头来利用短期和长期上下文来加强行动分类,以及用于检测精确的时间动作程度的动作开关回归头。块茎直接产生具有可变长度的动作管,甚至对长视频剪辑保持良好的结果。块茎在常用的动作检测数据集AVA,UCF101-24和JHMDB51-21上优于先前的最先进。
translated by 谷歌翻译
智能城市的智能交通灯可以最佳地减少交通拥堵。在这项研究中,我们采用了加强学习,培训了城市移动模拟器的红绿灯的控制代理。由于现有工程的差异,除了基于价值的方法之外,利用基于策略的深度加强学习方法,近端策略优化(PPO),例如Deep Q网络(DQN)和双DQN(DDQN)。首先,将获得PPO的最佳政策与来自DQN和DDQN的PPO相比。发现PPO的政策比其他政策更好。接下来,而不是固定间隔的流量光阶段,我们采用具有可变时间间隔的光相位,这导致更好的策略来传递流量流。然后,研究了环境和行动干扰的影响,以展示基于学习的控制器是强大的。最后,我们考虑不平衡的交通流量,并发现智能流量可以适度地对不平衡的流量方案执行,尽管它仅从平衡流量方案中了解最佳策略。
translated by 谷歌翻译
由于缺乏培训数据和异质知识来源,知识接地的对话系统是挑战的。由于培训数据中涵盖的有限主题,现有系统在不良主题上表现不佳。此外,异构知识源使系统概括到其他任务的系统,因为不同知识表示中的知识来源需要不同的知识编码器。为了解决这些挑战,我们呈现插头,将不同知识来源均匀化为知识接地的对话生成任务的统一知识来源的语言模型。插头在对话生成任务上进行预先培训,调节统一的基本知识表示。它可以通过一些培训示例概括到不同下游知识接地的对话一代任务。两个基准测试的实证评估表明,我们的模型越好跨越不同的知识接地任务。它可以在完全监督的设置下实现具有最先进的方法的可比性,并且显着优于零拍摄和少量拍摄设置中的其他方法。
translated by 谷歌翻译