现有的锚定面向对象检测方法已经实现了惊人的结果,但这些方法需要一些手动预设盒,这引入了额外的超参数和计算。现有的锚定方法通常具有复杂的架构,并且不易部署。我们的目标是提出一种简单易于部署的空中图像检测算法。在本文中,我们介绍了基于FCOS的单级锚定旋转对象检测器(FCOSR),可以在大多数平台上部署。 FCOSR具有简单的架构,包括卷积图层。我们的工作侧重于培训阶段的标签分配策略。我们使用椭圆中心采样方法来定义面向定向框(obb)的合适采样区域。模糊样本分配策略为重叠对象提供合理的标签。为解决采样问题不足,设计了一种多级采样模块。这些策略将更合适的标签分配给培训样本。我们的算法分别在DOTA1.0,DOTA1.5和HRSC2016数据集上实现79.25,75.41和90.15映射。 FCOSR在单规模评估中展示了其他方法的卓越性能。我们将轻量级FCOSR模型转换为Tensorrt格式,该格式在Dota1.0上以10.68 fps在jetson Xavier NX上实现73.93映射。该代码可用于:https://github.com/lzh420202/fcosr
translated by 谷歌翻译
跨模型检索已成为仅限文本搜索引擎(SE)最重要的升级之一。最近,通过早期交互的成对文本图像输入的强大表示,Vision-Language(VL)变压器的准确性已经表现优于文本图像检索的现有方法。然而,当使用相同的范例来推理时,VL变压器的效率仍然太低,不能应用于真正的跨模型SE。通过人类学习机制和使用跨模型知识的启发,本文提出了一种新颖的视觉语言分解变压器(VLDEFormer),这大大提高了VL变压器的效率,同时保持了它们的出色准确性。通过所提出的方法,跨模型检索分为两个阶段:VL变压器学习阶段和V​​L分解阶段。后期阶段发挥单一模态索引的作用,这在某种程度上是文本SE的术语索引。该模型从早期交互预训练中学习跨模型知识,然后将其分解为单个编码器。分解只需要监督和达到1000美元+ $倍的小目标数据集,并且少于0.6美元\%平均召回。 VLDEFormer还优于COCO和FLICKR30K的最先进的视觉语义嵌入方法。
translated by 谷歌翻译
从文本中提取方面 - 极性对是细粒度情绪分析的重要任务。虽然该任务的现有方法已经获得了许多进展,但它们在文本中捕获方面 - 极性对之间的关​​系,从而降低提取性能。此外,现有的最先进的方法,即基于令牌的SE静态标记和基于跨度的分类,具有它们自己的缺陷,例如极性不一致,从前者中单独标记标记和后者的异构分类导致的极性不一致。其中与方面相关和极性相关的标签混合。为了弥补上述缺陷,从最近的关系提取的进步开始,我们建议直接从具有关系提取技术的文本生成方向极性对,关于方面是各方面是才能的一致关系相应的极性是关系。基于该角度来看,我们介绍了一种位置和方面感知的序列2序列模型,用于宽高学对的关节提取。该模型的特征在于,它不仅通过序列解码中的序列解码而在文本中捕获的宽度极性对之间的关​​系,而且通过位置和方面感知的关注的方面和极性之间的相关性。在三个基准数据集上执行的实验,表明我们的模型优于现有的最先进的方法,对其进行了重大信息。
translated by 谷歌翻译
智能城市的智能交通灯可以最佳地减少交通拥堵。在这项研究中,我们采用了加强学习,培训了城市移动模拟器的红绿灯的控制代理。由于现有工程的差异,除了基于价值的方法之外,利用基于策略的深度加强学习方法,近端策略优化(PPO),例如Deep Q网络(DQN)和双DQN(DDQN)。首先,将获得PPO的最佳政策与来自DQN和DDQN的PPO相比。发现PPO的政策比其他政策更好。接下来,而不是固定间隔的流量光阶段,我们采用具有可变时间间隔的光相位,这导致更好的策略来传递流量流。然后,研究了环境和行动干扰的影响,以展示基于学习的控制器是强大的。最后,我们考虑不平衡的交通流量,并发现智能流量可以适度地对不平衡的流量方案执行,尽管它仅从平衡流量方案中了解最佳策略。
translated by 谷歌翻译
由于缺乏培训数据和异质知识来源,知识接地的对话系统是挑战的。由于培训数据中涵盖的有限主题,现有系统在不良主题上表现不佳。此外,异构知识源使系统概括到其他任务的系统,因为不同知识表示中的知识来源需要不同的知识编码器。为了解决这些挑战,我们呈现插头,将不同知识来源均匀化为知识接地的对话生成任务的统一知识来源的语言模型。插头在对话生成任务上进行预先培训,调节统一的基本知识表示。它可以通过一些培训示例概括到不同下游知识接地的对话一代任务。两个基准测试的实证评估表明,我们的模型越好跨越不同的知识接地任务。它可以在完全监督的设置下实现具有最先进的方法的可比性,并且显着优于零拍摄和少量拍摄设置中的其他方法。
translated by 谷歌翻译
人体对象交互(HOI)检测是高级人以人为中心的场景理解的基本任务。我们提出了短语,其中包含了Hoi分支和一个新型短语分支,以利用语言和改进关系表达。具体而言,短语分支由语义嵌入式监督,其基础事实自动从原始的Hoi注释自动转换,而无需额外的人力努力。同时,提出了一种新颖的标签组合方法来处理会安的长尾问题,由语义邻居复合新型短语标签。此外,为了优化短语分支,提出了由蒸馏损失和平衡三态损耗组成的损失。进行了广泛的实验,以证明拟议的短语疗养的有效性,这使得对基线的显着改善,并超越了以前的最先进的方法,以满足的HICO-DET基准。
translated by 谷歌翻译
最近,基于变压器的图像分割方法对先前的解决方案取得了显着的成功。虽然对于视频域,如何有效地模拟时间上下文,以跨越帧的对象实例的注意仍然是一个打开问题。在本文中,我们提出了一种具有新颖的实例感知时间融合方法的在线视频实例分段框架。我们首先利用表示,即全局上下文(实例代码)和CNN特征映射中的潜在代码来表示实例和像素级别功能。基于此表示,我们介绍了一种无裁剪的时间融合方法来模拟视频帧之间的时间一致性。具体地,我们在实例代码中编码全局实例特定信息,并在实例代码和CNN特征映射之间构建与混合关注的帧间上下文融合。使用订单约束进一步强制执行实例代码之间的帧间一致性。通过利用学习的混合时间一致性,我们能够直接检索和维护帧中的实例标识,从而消除了先前方法中的复杂帧实例匹配。已经在流行的VIS数据集中进行了广泛的实验,即YouTube-Vis-19/21。我们的模式实现了所有在线VIS方法中的最佳性能。值得注意的是,我们的模型也在使用Reset-50骨干时eClipses所有脱机方法。
translated by 谷歌翻译
视觉变压器(VITS)已成为各种视觉任务的流行结构和优于卷积神经网络(CNNS)。然而,这种强大的变形金机带来了巨大的计算负担。而这背后的基本障碍是排气的令牌到令牌比较。为了缓解这一点,我们深入研究Vit的模型属性,观察到VITS表现出稀疏关注,具有高令牌相似性。这直观地向我们介绍了可行的结构不可知的尺寸,令牌编号,以降低计算成本。基于这一探索,我们为香草vits提出了一种通用的自我切片学习方法,即坐下。具体而言,我们首先设计一种新颖的令牌减肥模块(TSM),可以通过动态令牌聚集来提高VIT的推理效率。不同于令牌硬滴,我们的TSM轻轻地集成了冗余令牌变成了更少的信息,可以在不切断图像中的鉴别性令牌关系的情况下动态缩放视觉注意。此外,我们介绍了一种简洁的密集知识蒸馏(DKD)框架,其密集地以柔性自动编码器方式传送无组织的令牌信息。由于教师和学生之间的结构类似,我们的框架可以有效地利用结构知识以获得更好的收敛性。最后,我们进行了广泛的实验来评估我们的坐姿。它展示了我们的方法可以通过1.7倍加速VITS,其精度下降可忽略不计,甚至在3.6倍上加速VITS,同时保持其性能的97%。令人惊讶的是,通过简单地武装LV-VIT与我们的坐线,我们在想象中实现了新的最先进的表现,超过了最近文学中的所有CNN和VITS。
translated by 谷歌翻译
自我关注已成为最近网络架构的一个组成部分,例如,统治主要图像和视频基准的变压器。这是因为自我关注可以灵活地模拟远程信息。出于同样的原因,研究人员最近使尝试恢复多层Perceptron(MLP)并提出一些类似MLP的架构,显示出极大的潜力。然而,当前的MLP样架构不擅长捕获本地细节并缺乏对图像和/或视频中的核心细节的逐步了解。为了克服这个问题,我们提出了一种新颖的Morphmlp架构,该架构专注于在低级层处捕获本地细节,同时逐渐改变,以专注于高级层的长期建模。具体地,我们设计一个完全连接的层,称为Morphfc,两个可变过滤器,其沿着高度和宽度尺寸逐渐地发展其接收领域。更有趣的是,我们建议灵活地调整视频域中的Morphfc层。为了我们最好的知识,我们是第一个创建类似MLP骨干的用于学习视频表示的骨干。最后,我们对图像分类,语义分割和视频分类进行了广泛的实验。我们的Morphmlp,如此自我关注的自由骨干,可以与基于自我关注的型号一样强大。
translated by 谷歌翻译
Minive散列(Minhash)是一种经典方法,用于有效地估计大规模二进制(0/1)数据中的Jaccrad相似性。为了为每个数据向量产生$ k $哈希值,Minhash的标准理论需要k $独立的排列。有趣的是,最近的“循环Minhash”(C-MINASH)的工作表明,仅需要两个排列。第一排列破坏了数据的结构,并且第二个置换以循环方式重新使用$ K $时间。令人惊讶的是,证明C-MINHASH的估计准确性被严格小于原始MINAHASH的精度。最近的工作进一步证明,实际上只需要一个排列。请注意,C-MINHASH与在NIPS'12中发布的“一个权限散列(oph)”的众所周知的工作不同。使用不同“致密化”方案的OPH及其变体是标准Minhash的流行替代品。致密化步骤是必要的,以便处理存在于一个处于一个置换散列中的空箱。在本文中,我们建议纳入C-MINHASH的基本思想,以提高一个置换散列的准确性。基本上,我们为OPH开发了一种新的致密化方法,而与OPH的所有现有的致密化方案相比,实现了最小的估计方差。我们所提出的方法名为C-OPH(循环oph)。在初始排列(缩小数据的现有结构)之后,C-OPH只需要长度$ D / k $(而不是$ d $)的“较短”排列,其中$ d $是原始数据维度和$ k $是oph中的垃圾箱总数。这种短排列以循环移位方式重新使用以美元的价格。可以表明,Jaccard相似性的估计方差严格小于现有(致密化)OPH方法的方差。
translated by 谷歌翻译