Vision-Language预培训是一个新兴和快速发展的研究主题,将多模态知识从丰富的资源预训练任务转移到有限资源下游任务。与主要学习单个通用编码器的现有作品不同,我们提出了一种可训练的通用编码器 - 解码器网络(UNI-EDEN),以促进视觉语言感知(例如,视觉问题应答)和生成(例如,图像标题)。 UNI-EDEN是一种基于双流变换器的结构,由三个模块组成:对象和句子编码器,其单独了解每个模态的表示,以及通过模态交互能够实现多模态推理和句子的句子解码器。考虑到每个图像的语言表示可以跨越该层次结构的不同粒度,包括从简单到全面,个人标签,短语和自然句子,我们通过多粒愿景语言代理任务预先列车UNI-EDEN:屏蔽对象分类(MOC),蒙版区域短语生成(MRPG),图像句匹配(ISM)和屏蔽句生成(MSG)。以这种方式,UNI-EDEN赋予了多模态表示提取和语言建模的功率。广泛的实验证明了通过微调到四个视觉语言感知和发电下游任务来展示Uni-Eden的概括性。
translated by 谷歌翻译
BERT型结构导致了视觉语言预培训的革命,并在众多视觉语言下游任务上实现最先进的结果。现有解决方案主要用掩码令牌的多模态输入大小化,以触发基于掩码的代理预训练任务(例如,屏蔽语言建模和屏蔽对象/帧预测)。在这项工作中,我们认为这种掩码的输入将不可避免地引入跨模型匹配代理任务的噪声,从而留下探索的固有视觉语言协会。作为替代方案,我们推导出一种特定形式的用于视频预培训的跨模型代理目标,即对比跨模型匹配和去噪(Coco)。通过将蒙版帧/单词序列视为主要取消屏蔽的噪声增强,通过同时追求掩蔽和未掩蔽输入之间的模态匹配和模态匹配和模态的帧间匹配和模态的帧内偏离,通过对比方式来加强视频协会。我们的CoCo代理目标可以进一步集成到用于视频预训练的任何BERT型编码器解码器结构中,被命名为对比跨模态伯特(Coco-Bert)。我们在电视数据集上预先火车Coco-Bert以及新收集的大型GIF视频数据集(动作)。通过广泛的下游任务(例如,跨模型检索,视频问题回答和视频标题)进行广泛的实验,我们证明了Coco-Bert作为预训练的结构的优越性。
translated by 谷歌翻译
智能城市的智能交通灯可以最佳地减少交通拥堵。在这项研究中,我们采用了加强学习,培训了城市移动模拟器的红绿灯的控制代理。由于现有工程的差异,除了基于价值的方法之外,利用基于策略的深度加强学习方法,近端策略优化(PPO),例如Deep Q网络(DQN)和双DQN(DDQN)。首先,将获得PPO的最佳政策与来自DQN和DDQN的PPO相比。发现PPO的政策比其他政策更好。接下来,而不是固定间隔的流量光阶段,我们采用具有可变时间间隔的光相位,这导致更好的策略来传递流量流。然后,研究了环境和行动干扰的影响,以展示基于学习的控制器是强大的。最后,我们考虑不平衡的交通流量,并发现智能流量可以适度地对不平衡的流量方案执行,尽管它仅从平衡流量方案中了解最佳策略。
translated by 谷歌翻译
由于缺乏培训数据和异质知识来源,知识接地的对话系统是挑战的。由于培训数据中涵盖的有限主题,现有系统在不良主题上表现不佳。此外,异构知识源使系统概括到其他任务的系统,因为不同知识表示中的知识来源需要不同的知识编码器。为了解决这些挑战,我们呈现插头,将不同知识来源均匀化为知识接地的对话生成任务的统一知识来源的语言模型。插头在对话生成任务上进行预先培训,调节统一的基本知识表示。它可以通过一些培训示例概括到不同下游知识接地的对话一代任务。两个基准测试的实证评估表明,我们的模型越好跨越不同的知识接地任务。它可以在完全监督的设置下实现具有最先进的方法的可比性,并且显着优于零拍摄和少量拍摄设置中的其他方法。
translated by 谷歌翻译
人体对象交互(HOI)检测是高级人以人为中心的场景理解的基本任务。我们提出了短语,其中包含了Hoi分支和一个新型短语分支,以利用语言和改进关系表达。具体而言,短语分支由语义嵌入式监督,其基础事实自动从原始的Hoi注释自动转换,而无需额外的人力努力。同时,提出了一种新颖的标签组合方法来处理会安的长尾问题,由语义邻居复合新型短语标签。此外,为了优化短语分支,提出了由蒸馏损失和平衡三态损耗组成的损失。进行了广泛的实验,以证明拟议的短语疗养的有效性,这使得对基线的显着改善,并超越了以前的最先进的方法,以满足的HICO-DET基准。
translated by 谷歌翻译
最近,基于变压器的图像分割方法对先前的解决方案取得了显着的成功。虽然对于视频域,如何有效地模拟时间上下文,以跨越帧的对象实例的注意仍然是一个打开问题。在本文中,我们提出了一种具有新颖的实例感知时间融合方法的在线视频实例分段框架。我们首先利用表示,即全局上下文(实例代码)和CNN特征映射中的潜在代码来表示实例和像素级别功能。基于此表示,我们介绍了一种无裁剪的时间融合方法来模拟视频帧之间的时间一致性。具体地,我们在实例代码中编码全局实例特定信息,并在实例代码和CNN特征映射之间构建与混合关注的帧间上下文融合。使用订单约束进一步强制执行实例代码之间的帧间一致性。通过利用学习的混合时间一致性,我们能够直接检索和维护帧中的实例标识,从而消除了先前方法中的复杂帧实例匹配。已经在流行的VIS数据集中进行了广泛的实验,即YouTube-Vis-19/21。我们的模式实现了所有在线VIS方法中的最佳性能。值得注意的是,我们的模型也在使用Reset-50骨干时eClipses所有脱机方法。
translated by 谷歌翻译
视觉变压器(VITS)已成为各种视觉任务的流行结构和优于卷积神经网络(CNNS)。然而,这种强大的变形金机带来了巨大的计算负担。而这背后的基本障碍是排气的令牌到令牌比较。为了缓解这一点,我们深入研究Vit的模型属性,观察到VITS表现出稀疏关注,具有高令牌相似性。这直观地向我们介绍了可行的结构不可知的尺寸,令牌编号,以降低计算成本。基于这一探索,我们为香草vits提出了一种通用的自我切片学习方法,即坐下。具体而言,我们首先设计一种新颖的令牌减肥模块(TSM),可以通过动态令牌聚集来提高VIT的推理效率。不同于令牌硬滴,我们的TSM轻轻地集成了冗余令牌变成了更少的信息,可以在不切断图像中的鉴别性令牌关系的情况下动态缩放视觉注意。此外,我们介绍了一种简洁的密集知识蒸馏(DKD)框架,其密集地以柔性自动编码器方式传送无组织的令牌信息。由于教师和学生之间的结构类似,我们的框架可以有效地利用结构知识以获得更好的收敛性。最后,我们进行了广泛的实验来评估我们的坐姿。它展示了我们的方法可以通过1.7倍加速VITS,其精度下降可忽略不计,甚至在3.6倍上加速VITS,同时保持其性能的97%。令人惊讶的是,通过简单地武装LV-VIT与我们的坐线,我们在想象中实现了新的最先进的表现,超过了最近文学中的所有CNN和VITS。
translated by 谷歌翻译
自我关注已成为最近网络架构的一个组成部分,例如,统治主要图像和视频基准的变压器。这是因为自我关注可以灵活地模拟远程信息。出于同样的原因,研究人员最近使尝试恢复多层Perceptron(MLP)并提出一些类似MLP的架构,显示出极大的潜力。然而,当前的MLP样架构不擅长捕获本地细节并缺乏对图像和/或视频中的核心细节的逐步了解。为了克服这个问题,我们提出了一种新颖的Morphmlp架构,该架构专注于在低级层处捕获本地细节,同时逐渐改变,以专注于高级层的长期建模。具体地,我们设计一个完全连接的层,称为Morphfc,两个可变过滤器,其沿着高度和宽度尺寸逐渐地发展其接收领域。更有趣的是,我们建议灵活地调整视频域中的Morphfc层。为了我们最好的知识,我们是第一个创建类似MLP骨干的用于学习视频表示的骨干。最后,我们对图像分类,语义分割和视频分类进行了广泛的实验。我们的Morphmlp,如此自我关注的自由骨干,可以与基于自我关注的型号一样强大。
translated by 谷歌翻译
Minive散列(Minhash)是一种经典方法,用于有效地估计大规模二进制(0/1)数据中的Jaccrad相似性。为了为每个数据向量产生$ k $哈希值,Minhash的标准理论需要k $独立的排列。有趣的是,最近的“循环Minhash”(C-MINASH)的工作表明,仅需要两个排列。第一排列破坏了数据的结构,并且第二个置换以循环方式重新使用$ K $时间。令人惊讶的是,证明C-MINHASH的估计准确性被严格小于原始MINAHASH的精度。最近的工作进一步证明,实际上只需要一个排列。请注意,C-MINHASH与在NIPS'12中发布的“一个权限散列(oph)”的众所周知的工作不同。使用不同“致密化”方案的OPH及其变体是标准Minhash的流行替代品。致密化步骤是必要的,以便处理存在于一个处于一个置换散列中的空箱。在本文中,我们建议纳入C-MINHASH的基本思想,以提高一个置换散列的准确性。基本上,我们为OPH开发了一种新的致密化方法,而与OPH的所有现有的致密化方案相比,实现了最小的估计方差。我们所提出的方法名为C-OPH(循环oph)。在初始排列(缩小数据的现有结构)之后,C-OPH只需要长度$ D / k $(而不是$ d $)的“较短”排列,其中$ d $是原始数据维度和$ k $是oph中的垃圾箱总数。这种短排列以循环移位方式重新使用以美元的价格。可以表明,Jaccard相似性的估计方差严格小于现有(致密化)OPH方法的方差。
translated by 谷歌翻译
最近,已探索了一系列算法,用于GaN压缩,旨在在部署资源受限的边缘设备上的GAN时减少巨大的计算开销和内存使用。然而,大多数现有的GaN压缩工作仅重点介绍如何压缩发电机,而未能考虑鉴别者。在这项工作中,我们重新审视鉴别者在GaN压缩中的作用和设计一种用于GAN压缩的新型发电机 - 鉴别器协作压缩方案,称为GCC。在GCC中,选择性激活鉴别器根据局部容量约束和全局协调约束自动选择和激活卷积通道,这有助于在对策训练期间与轻质发电机保持纳什平衡,避免模式塌陷。原始发电机和鉴别器也从头开始优化,作为教师模型,逐步优化修剪的发生器和选择性激活鉴别器。一种新的在线协同蒸馏方案旨在充分利用教师发生器和鉴别器的中间特征,以进一步提高轻质发电机的性能。对各种GAN的一代任务的广泛实验证明了GCC的有效性和泛化。其中,GCC有助于降低80%的计算成本,同时在图像转换任务中保持相当的性能。我们的代码和模型可在https://github.com/sjleo/gcc上使用。
translated by 谷歌翻译