视觉变压器在计算机视觉任务中表现出色。但是,其(本地)自我注意机制的计算成本很昂贵。相比之下,CNN具有内置的电感偏置效率更高。最近的作品表明,CNN有望通过学习建筑设计和培训协议来与视觉变形金刚竞争。然而,现有方法要么忽略多层次特征,要么缺乏动态繁荣,从而导致次优性能。在本文中,我们提出了一种名为MCA的新型注意力机制,该机制通过多个内核大小捕获了输入图像的不同模式,并启用具有门控机制的输入自适应权重。根据MCA,我们提出了一个名为Convformer的神经网络。争辩者采用了视觉变压器的一般体系结构,同时用我们提出的MCA代替了(本地)自我注意的机制。广泛的实验结果表明,在各种任务中,应变器优于相似的大小视觉变压器(VIT)和卷积神经网络(CNN)。例如,在ImageNet数据集上,交货式S,Convformer-l实现82.8%的最新性能,top-1的精度为83.6%。此外,在ADE20K上,Convformer-S优于1.5 miOU的Swin-T,在Coco上具有较小型号的Coco上的0.9边界盒AP。代码和型号将可用。
translated by 谷歌翻译
神经体系结构搜索方法寻求具有有效的体重共享超级网训练的最佳候选者。但是,最近的研究表明,关于独立架构和共享重量网络之间的性能的排名一致性差。在本文中,我们提出了提前引导的一声NAS(PGONA),以加强超级网的排名相关性。具体而言,我们首先探讨激活功能的效果,并提出基于三明治规则的平衡采样策略,以减轻超级网中的重量耦合。然后,采用了拖鞋和禅宗得分来指导超级网的训练,并具有排名相关性损失。我们的PGONA在CVPR2022第二轻型NAS挑战赛的SuperNet轨道中排名第三。代码可在https://github.com/pprp/cvpr2022-nas?competition-track1-3th-solution中找到。
translated by 谷歌翻译
在本文中,我们提出了MENAS,这是一种有效的基于多试剂进化的NAS方法,人类干预较少。具体而言,我们提出了一个扩大的搜索空间(Mobilenet3-MT),用于Imagenet-1K,并提高两个方面的搜索效率。首先,MENAS共同探索建筑和最佳修剪候选人(彩票),逐渐减少了人口中的平均模型。每种型号都经过培训,并由其彩票票取代,而不是首先搜索繁琐的网络然后进行修剪。其次,我们介绍了个人体重共享,该分享专门用于多重试验NAS,旨在通过分享父母和子女网络之间的权重来摊销培训成本。与超级网的重量共享相比,单个体重分享的排名一致性更为可靠,同时通过防止复杂的超级网训练易于实现。此外,为了使被困在小型模型中的进化过程正规化,在制定父群体时,我们保留了最大模型的小比例,这被证明有益于增强模型性能。广泛的实验结果证明了十分的优势。在ImagEnet-1K数据库上,MENA可实现80.5%的TOP-1准确性,而无需涉及知识蒸馏或更大的图像分辨率。代码和型号将可用。
translated by 谷歌翻译
基于骨架的人类动作识别最近引起了人们对外观变化的敏感性和更多骨架数据的可访问性的敏感性。但是,即使在实践中捕获的3D骨骼也对观点和方向仍然敏感,并给出了不同人体关节的阻塞和人类关节定位中的误差。骨骼数据的这种视图差异可能会严重影响动作识别的性能。为了解决这个问题,我们在本文中提出了一种新的视图不变的表示方法,而没有任何手动动作标签,用于基于骨架的人类行动识别。具体而言,我们通过最大化从不同观点提取的表示形式之间的相互信息来利用同一个人同时对同一个人进行的多视图骨架数据,然后提出一个全局 - 局部对比度损失,以模拟多规模CO - 空间和时间域中的发生关系。广泛的实验结果表明,所提出的方法对输入骨骼数据的视图差异是可靠的,并显着提高了基于无监督骨架的人类动作方法的性能,从而在两个具有挑战性的多视图上产生了新的最新精确度Pkummd和NTU RGB+d的基准。
translated by 谷歌翻译
培训强大的政策对于现实世界中的政策部署至关重要,或者处理不同动态系统中未知动态不匹配。域随机化〜(DR)是一种简单而优雅的方法,可以训练保守的政策,以反对不同的动态系统,而无需有关目标系统参数的专家知识。但是,现有的作品表明,通过DR培训的政策往往保守过度保守,并且在目标领域的表现差。我们的关键见解是,具有不同参数的动态系统为策略提供了不同级别的难度,并且由于策略的发展,在系统中表现良好的难度正在不断变化。如果我们可以为该政策进行适当的困难来积极地对系统进行采样,它将稳定培训过程,并防止政策变得过于保守或过度优势。为了实现这一想法,我们引入了主动动力学偏好(ADP),从而量化了采样系统参数的信息性和密度。 ADP积极选择具有高信息性和低密度的系统参数。我们在四个机器人运动任务中验证我们的方法,并在训练环境和测试环境之间存在各种差异。广泛的结果表明,与几个基线相比,我们的方法对系统不一致具有较高的鲁棒性。
translated by 谷歌翻译
最近,为了提高无监督的图像检索性能,通过设计语义相似性矩阵提出了许多无监督的哈希方法,该方法基于预先训练的CNN模型提取的图像功能之间的相似性。但是,这些方法中的大多数倾向于忽略图像中包含的高级抽象语义概念。直观地,概念在计算图像之间的相似性中起着重要作用。在实际情况下,每个图像都与某些概念相关联,如果两个图像共享更相同的概念,则两个图像之间的相似性将更大。受到上述直觉的启发,在这项工作中,我们提出了一种带有语义概念挖掘的新颖无监督的散列散布,称为UHSCM,该挖掘利用VLP模型来构建高质量的相似性矩阵。具体而言,首先收集一组随机选择的概念。然后,通过使用及时的工程进行视觉预审进(VLP)模型,该模型在视觉表示学习中表现出强大的力量,根据训练图像将一组概念降低。接下来,提出的方法UHSCM应用了VLP模型,并再次提示挖掘每个图像的概念分布,并基于挖掘的概念分布构建高质量的语义相似性矩阵。最后,以语义相似性矩阵作为指导信息,提出了一种新颖的散列损失,并提出了基于对比度损失的正则化项,以优化哈希网络。在三个基准数据集上进行的大量实验表明,所提出的方法在图像检索任务中优于最新基准。
translated by 谷歌翻译
会话推荐系统(CRS)已成为一个新兴的研究主题,试图通过交互式对话进行建议,这些对话通常由发电和建议模块组成。 CRS的先前工作倾向于将更多的外部和领域特定知识纳入项目评论,以提高性能。尽管事实的收集和注释特定于外部领域的信息需要大量的人类努力并脱离了普遍性,但过多的额外知识在它们之间带来了更大的困难。因此,我们建议从上下文中充分发现和提取内部知识。我们将实体级别和上下文级别的表示形式捕获为对建议的共同模拟用户的偏好,在这种情况下,时间吸引的注意力旨在强调实体级表示中最近出现的项目。我们进一步使用预训练的巴特来初始化生成模块,以减轻数据稀缺性并增强上下文建模。除了在流行数据集(REDIAIL)上进行实验外,我们还包括一个多域数据集(OpenDialKg)来显示我们模型的有效性。两个数据集的实验都表明,我们的模型在大多数评估指标上都具有更好的性能,其外部知识较少,并且可以很好地推广到其他领域。对建议和生成任务的其他分析证明了我们在不同情况下模型的有效性。
translated by 谷歌翻译
我们定义了一个名为“扩展单词对齐”的新颖概念,以提高后编辑辅助效率。基于扩展的单词对齐方式,我们进一步提出了一个名为精制单词级量化宽松的新颖任务,该任务输出精制标签和单词级对应关系。与原始单词级别的量化宽松相比,新任务能够直接指出编辑操作,从而提高效率。为了提取扩展单词对齐,我们采用了基于Mbert的监督方法。为了解决精致的单词级量化宽松,我们首先通过训练基于Mbert和XLM-R的序列标记的回归模型来预测原始量化量子标签。然后,我们使用扩展单词对齐来完善原始文字标签。另外,我们提取源差距对应关系,同时获得GAP标签。两种语言对的实验显示了我们方法的可行性,并为我们提供了进一步改进的灵感。
translated by 谷歌翻译
最近在生物医学中大型数据集的可用性激发了多种医疗保健应用的代表性学习方法的开发。尽管预测性能取得了进步,但这种方法的临床实用性在暴露于现实世界数据时受到限制。在这里,我们开发模型诊断措施,以检测部署过程中潜在的陷阱,而无需访问外部数据。具体而言,我们专注于通过数据转换建模电生理信号(EEG)的现实数据转移,并通过分析a)模型的潜在空间和b)预测性不确定性在这些变换下扩展了常规的基于任务的评估。我们使用公开可用的大规模临床EEG进行了多个EEG功能编码器和两个临床相关的下游任务进行实验。在这种实验环境中,我们的结果表明,在提出的数据转移下,潜在空间完整性和模型不确定性的度量可能有助于预测部署过程中的性能退化。
translated by 谷歌翻译
在混乱的环境中自动二次运动的敏捷飞行需要受到限制的运动计划和控制,但要受翻译和旋转动力学的影响。传统的基于模型的方法通常需要复杂的设计和重型计算。在本文中,我们开发了一种基于深厚的增强学习方法,该方法解决了通过动态狭窄大门飞行的挑战性任务。我们设计了一个模型预测控制器,其自适应跟踪参考参考由深神经网络(DNN)进行了参数。这些参考文献包括遍历时间和四型SE(3)遍历姿势,这些姿势鼓励机器人从各种初始条件中使用最大的安全边缘飞行大门。为了应对在高度动态环境中的训练困难,我们开发了一个增强的学习框架,以有效地训练DNN,从而很好地介绍了各种环境。此外,我们提出了一种二进制搜索算法,该算法允许在线适应(3)对动态门的引用。最后,通过广泛的高保真模拟,我们表明我们的方法对门的速度不确定性具有鲁棒性,并适应了不同的门轨迹和方向。
translated by 谷歌翻译