Pure transformers have shown great potential for vision tasks recently. However, their accuracy in small or medium datasets is not satisfactory. Although some existing methods introduce a CNN as a teacher to guide the training process by distillation, the gap between teacher and student networks would lead to sub-optimal performance. In this work, we propose a new One-shot Vision transformer search framework with Online distillation, namely OVO. OVO samples sub-nets for both teacher and student networks for better distillation results. Benefiting from the online distillation, thousands of subnets in the supernet are well-trained without extra finetuning or retraining. In experiments, OVO-Ti achieves 73.32% top-1 accuracy on ImageNet and 75.2% on CIFAR-100, respectively.
translated by 谷歌翻译
视觉变压器在计算机视觉任务中表现出色。但是,其(本地)自我注意机制的计算成本很昂贵。相比之下,CNN具有内置的电感偏置效率更高。最近的作品表明,CNN有望通过学习建筑设计和培训协议来与视觉变形金刚竞争。然而,现有方法要么忽略多层次特征,要么缺乏动态繁荣,从而导致次优性能。在本文中,我们提出了一种名为MCA的新型注意力机制,该机制通过多个内核大小捕获了输入图像的不同模式,并启用具有门控机制的输入自适应权重。根据MCA,我们提出了一个名为Convformer的神经网络。争辩者采用了视觉变压器的一般体系结构,同时用我们提出的MCA代替了(本地)自我注意的机制。广泛的实验结果表明,在各种任务中,应变器优于相似的大小视觉变压器(VIT)和卷积神经网络(CNN)。例如,在ImageNet数据集上,交货式S,Convformer-l实现82.8%的最新性能,top-1的精度为83.6%。此外,在ADE20K上,Convformer-S优于1.5 miOU的Swin-T,在Coco上具有较小型号的Coco上的0.9边界盒AP。代码和型号将可用。
translated by 谷歌翻译
本文回顾了AIM 2022上压缩图像和视频超级分辨率的挑战。这项挑战包括两条曲目。轨道1的目标是压缩图像的超分辨率,轨迹〜2靶向压缩视频的超分辨率。在轨道1中,我们使用流行的数据集DIV2K作为培训,验证和测试集。在轨道2中,我们提出了LDV 3.0数据集,其中包含365个视频,包括LDV 2.0数据集(335个视频)和30个其他视频。在这一挑战中,有12支球队和2支球队分别提交了赛道1和赛道2的最终结果。所提出的方法和解决方案衡量了压缩图像和视频上超分辨率的最先进。提出的LDV 3.0数据集可在https://github.com/renyang-home/ldv_dataset上找到。此挑战的首页是在https://github.com/renyang-home/aim22_compresssr。
translated by 谷歌翻译
神经体系结构搜索方法寻求具有有效的体重共享超级网训练的最佳候选者。但是,最近的研究表明,关于独立架构和共享重量网络之间的性能的排名一致性差。在本文中,我们提出了提前引导的一声NAS(PGONA),以加强超级网的排名相关性。具体而言,我们首先探讨激活功能的效果,并提出基于三明治规则的平衡采样策略,以减轻超级网中的重量耦合。然后,采用了拖鞋和禅宗得分来指导超级网的训练,并具有排名相关性损失。我们的PGONA在CVPR2022第二轻型NAS挑战赛的SuperNet轨道中排名第三。代码可在https://github.com/pprp/cvpr2022-nas?competition-track1-3th-solution中找到。
translated by 谷歌翻译
在过去的几十年中,卷积神经网络(CNN)在计算机视觉方面取得了令人印象深刻的成功。图像卷积操作可帮助CNN在与图像相关的任务上获得良好的性能。但是,图像卷积具有很高的计算复杂性,难以实现。本文提出了可以在频域中训练的Cemnet。这项研究的最重要动机是,我们可以根据互相关定理替换频域中的直接元素乘法操作来替换频域中的图像卷积,从而显然降低了计算复杂性。我们进一步介绍了一种体重固定机制,以减轻过度拟合的问题,并分析批准,泄漏的速度和频域中辍学的工作行为,以设计其为Cemnet的对应物。此外,为了处理由离散的傅立叶变换带来的复杂输入,我们为CENNET设计了两个分支网络结构。实验结果表明,Cemnet在MNIST和CIFAR-10数据库上取得了良好的性能。
translated by 谷歌翻译
在本文中,我们提出了MENAS,这是一种有效的基于多试剂进化的NAS方法,人类干预较少。具体而言,我们提出了一个扩大的搜索空间(Mobilenet3-MT),用于Imagenet-1K,并提高两个方面的搜索效率。首先,MENAS共同探索建筑和最佳修剪候选人(彩票),逐渐减少了人口中的平均模型。每种型号都经过培训,并由其彩票票取代,而不是首先搜索繁琐的网络然后进行修剪。其次,我们介绍了个人体重共享,该分享专门用于多重试验NAS,旨在通过分享父母和子女网络之间的权重来摊销培训成本。与超级网的重量共享相比,单个体重分享的排名一致性更为可靠,同时通过防止复杂的超级网训练易于实现。此外,为了使被困在小型模型中的进化过程正规化,在制定父群体时,我们保留了最大模型的小比例,这被证明有益于增强模型性能。广泛的实验结果证明了十分的优势。在ImagEnet-1K数据库上,MENA可实现80.5%的TOP-1准确性,而无需涉及知识蒸馏或更大的图像分辨率。代码和型号将可用。
translated by 谷歌翻译
视觉语言预训练(VLP)模型在各种下游任务上表现出色。他们的成功在很大程度上取决于预训练的跨模式数据集的规模。但是,中文中缺乏大规模数据集和基准阻碍了中国VLP模型和更广泛的多语言应用程序的发展。在这项工作中,我们发布了一个名为Wukong的大型中国跨模式数据集,其中包含从网络收集的1亿个中文图像文本对。 Wukong旨在基准基准不同的多模式预训练方法,以促进VLP研究和社区发展。此外,我们发布了一组模型,预先训练了各种图像编码器(vit-b/vit-l/swint),还将高级预训练技术应用于VLP,例如锁定图像文本调整,相对于代币的相似性学习和减少互动。还提供了广泛的实验和不同下游任务的基准测试,包括新的最大人验证的图像文本测试数据集。实验表明,Wukong可以作为不同的跨模式学习方法的有前途的中国预培训数据集和基准。对于10个数据集上的零摄像图像分类任务,$ Wukong_ {vit-l} $达到的平均准确度为73.03%。对于图像文本检索任务,它在AIC-ICC上的平均召回率为71.6%,比Wenlan 2.0高12.9%。此外,我们的Wukong模型在下游任务上进行了基准测试,例如多个数据集上的其他变体,例如Flickr8k-CN,Flickr-30K-CN,Coco-CN,Coco-CN等。更多信息可以参考:https://wukong-dataset.github.io/wukong-dataset/。
translated by 谷歌翻译
最近,视觉变压器(VIT)在计算机视野中连续建立了新的里程碑,而高计算和内存成本使其在工业生产中的传播困难。修剪是一种用于硬件效率的传统模型压缩范例,已广泛应用于各种DNN结构。尽管如此,它含糊不清,如何在vit结构上进行独家修剪。考虑三个关键点:结构特征,VITS的内部数据模式和相关边缘设备部署,我们利用输入令牌稀疏性并提出了一种计算感知软修剪框架,可以在扁平的vanilla变压器上设置。和CNN型结构,例如基于池的Vit(坑)。更具体地说,我们设计了一种基于动态关注的多头令牌选择器,它是一个轻量级模块,用于自适应实例 - 明智令牌选择。我们进一步引入了一种软修剪技术,它将选择器模块生成的较少的信息令牌集成到将参与后续计算的包令牌,而不是完全丢弃。我们的框架通过我们所提出的计算感知培训策略,我们通过特定边缘设备的准确性和计算限制之间的权衡。实验结果表明,我们的框架显着降低了VIT的计算成本,同时在图像分类上保持了可比性。此外,我们的框架可以保证所识别的模型,以满足移动设备和FPGA的资源规范,甚至在移动平台上实现DEIT-T的实时执行。例如,我们的方法在移动设备上减少了DEIT-T至26毫秒的延迟(26%$ \ SIM 41%的41%),在移动设备上,在0.25%$ \ sim $ 4%的ImageNet上的前1个精度高出4%。我们的代码即将发布。
translated by 谷歌翻译
Different people speak with diverse personalized speaking styles. Although existing one-shot talking head methods have made significant progress in lip sync, natural facial expressions, and stable head motions, they still cannot generate diverse speaking styles in the final talking head videos. To tackle this problem, we propose a one-shot style-controllable talking face generation framework. In a nutshell, we aim to attain a speaking style from an arbitrary reference speaking video and then drive the one-shot portrait to speak with the reference speaking style and another piece of audio. Specifically, we first develop a style encoder to extract dynamic facial motion patterns of a style reference video and then encode them into a style code. Afterward, we introduce a style-controllable decoder to synthesize stylized facial animations from the speech content and style code. In order to integrate the reference speaking style into generated videos, we design a style-aware adaptive transformer, which enables the encoded style code to adjust the weights of the feed-forward layers accordingly. Thanks to the style-aware adaptation mechanism, the reference speaking style can be better embedded into synthesized videos during decoding. Extensive experiments demonstrate that our method is capable of generating talking head videos with diverse speaking styles from only one portrait image and an audio clip while achieving authentic visual effects. Project Page: https://github.com/FuxiVirtualHuman/styletalk.
translated by 谷歌翻译
Nowadays, time-stamped web documents related to a general news query floods spread throughout the Internet, and timeline summarization targets concisely summarizing the evolution trajectory of events along the timeline. Unlike traditional document summarization, timeline summarization needs to model the time series information of the input events and summarize important events in chronological order. To tackle this challenge, in this paper, we propose a Unified Timeline Summarizer (UTS) that can generate abstractive and extractive timeline summaries in time order. Concretely, in the encoder part, we propose a graph-based event encoder that relates multiple events according to their content dependency and learns a global representation of each event. In the decoder part, to ensure the chronological order of the abstractive summary, we propose to extract the feature of event-level attention in its generation process with sequential information remained and use it to simulate the evolutionary attention of the ground truth summary. The event-level attention can also be used to assist in extracting summary, where the extracted summary also comes in time sequence. We augment the previous Chinese large-scale timeline summarization dataset and collect a new English timeline dataset. Extensive experiments conducted on these datasets and on the out-of-domain Timeline 17 dataset show that UTS achieves state-of-the-art performance in terms of both automatic and human evaluations.
translated by 谷歌翻译