空间冗余广泛存在于视觉识别任务中,即图像或视频帧中的判别特征通常对应于像素的子集,而剩余区域与手头的任务无关。因此,在时间和空间消耗方面,处理具有相等计算量的所有像素的静态模型导致相当冗余。在本文中,我们将图像识别问题标准为顺序粗致细特征学习过程,模仿人类视觉系统。具体地,所提出的浏览和焦点网络(GFNET)首先以低分辨率比例提取输入图像的快速全局表示,然后策略性地参加一系列突出(小)区域以学习更精细的功能。顺序过程自然地促进了在测试时间的自适应推断,因为一旦模型对其预测充分信心,可以终止它,避免了进一步的冗余计算。值得注意的是,在我们模型中定位判别区域的问题被制定为增强学习任务,因此不需要除分类标签之外的其他手动注释。 GFNET是一般的,灵活,因为它与任何现成的骨干网型号(例如MobileCenets,Abservennet和TSM)兼容,可以方便地部署为特征提取器。对各种图像分类和视频识别任务的广泛实验以及各种骨干模型,证明了我们方法的显着效率。例如,它通过1.3倍降低了高效MobileNet-V3的平均等待时间,而不会牺牲精度。代码和预先训练的模型可在https://github.com/blackfeather-wang/gfnet-pytorch获得。
translated by 谷歌翻译
最近的作品表明,通过降低空间冗余,可以显着提高视频识别的计算效率。作为代表性的工作,自适应焦点方法(Adafocus)通过动态识别和参加每个视频帧中的信息区域来实现精度和推理速度之间的有利权衡。然而,除非领需要一个复杂的三阶段训练管道(涉及强化学习),导致收敛缓慢,对从业者不友好。这项工作通过引入基于分配的内插的补丁选择操作来重新重新培训ADAFOCUS作为简单的单级算法,实现有效的端到端优化。我们进一步提出了一种改进的培训计划,以解决一级制定的问题,包括缺乏监督,投入多样性和培训稳定性。此外,提出了一种条件 - 退出技术,用于在没有额外训练的情况下在Adafocus的顶部执行时间自适应计算。在六个基准数据集(即,ActivityNet,FCVID,Mini-Kinetics,Something-V1&V2和Jesters)上进行了广泛的实验表明,我们的模型显着优于原始的Adafocus和其他竞争基础,同时培训更简单和有效。代码可在https://github.com/leaplabthu/adafocusv2获得。
translated by 谷歌翻译
最近的研究表明,减少时间和空间冗余都是有效的视频识别方法的有效方法,例如,将大多数计算分配给与任务相关的框架或每个帧中最有价值的图像区域。但是,在大多数现有的作品中,任何一种类型的冗余通常都是用另一个缺失建模的。本文探讨了在最近提出的ADAFOCUSV2算法之上的时空动态计算的统一配方,从而有助于改进的ADAFOCUSV3框架。我们的方法仅在一些小但有益的3D视频立方体上激活昂贵的高容量网络来降低计算成本。这些立方体是从框架高度,宽度和视频持续时间形成的空间中裁剪的,而它们的位置则以每样本样本为基础的轻加权政策网络自适应地确定。在测试时间,与每个视频相对应的立方体的数量是动态配置的,即,对视频立方体进行顺序处理,直到产生足够可靠的预测为止。值得注意的是,可以通过近似可插入深度特征的插值来有效地训练adafocusv3。六个基准数据集(即ActivityNet,FCVID,Mini-Kinetics,Something Something V1&V2和潜水48)上的广泛经验结果表明,我们的模型比竞争性基线要高得多。
translated by 谷歌翻译
现有作品通常集中于减少架构冗余以加速图像分类,但忽略输入图像的空间冗余。本文提出了有效的图像分类管道来解决此问题。我们首先通过称为Anchornet的轻量级补丁提案网络在输入图像上查明任务感知区域。然后,我们将这些局部语义斑块的空间冗余量喂入一般分类网络。与Deep CNN的流行设计不同,我们旨在仔细设计无中间卷积桨的锚固板的接收场。这样可以确保从高级空间位置到特定输入图像补丁的确切映射。每个补丁的贡献是可以解释的。此外,AnchOrnet与任何下游架构兼容。 Imagenet上的实验结果表明,我们的方法优于SOTA动态推理方法,其推理成本较少。我们的代码可在https://github.com/winycg/anchornet上找到。
translated by 谷歌翻译
在本文中,我们提出了一个名为OcSampler的框架,以探索一个紧凑而有效的视频表示,其中一个短剪辑以获得高效的视频识别。最近的作品宁愿通过根据其重要性选择一个框架作为顺序决策任务的帧采样,而我们呈现了一个专用的学习实例的视频冷凝策略的新范式,以选择仅在单个视频中表示整个视频的信息帧步。我们的基本动机是高效的视频识别任务在于一次地处理整个序列而不是顺序拾取帧。因此,这些策略在一个步骤中与简单而有效的策略网络一起导出从光加权略微脱脂网络。此外,我们以帧编号预算扩展了所提出的方法,使框架能够以尽可能少的帧的高度置信度产生正确的预测。四个基准测试,即ActivityNet,Mini-Kinetics,FCVID,Mini-Sports1M的实验证明了我们在准确性,理论计算费用,实际推理速度方面对先前方法的效果。我们还在不同分类器,采样框架和搜索空间上评估其泛化电量。特别是,我们在ActivityNet上达到76.9%的地图和21.7 GFLOPS,具有令人印象深刻的吞吐量:123.9个视频/ s在单个Titan XP GPU上。
translated by 谷歌翻译
动态神经网络是深度学习中的新兴的研究课题。与具有推断阶段的固定计算图和参数的静态模型相比,动态网络可以使其结构或参数适应不同的输入,从而在本调查中的准确性,计算效率,适应性等方面的显着优势。我们全面地通过将动态网络分为三个主要类别:1)使用数据相关的架构或参数进行处理的实例 - Wise-Wise DiveS动态模型的速度开发区域2)关于图像数据的不同空间位置和3)沿着诸如视频和文本的顺序数据的时间维度执行自适应推断的时间明智的动态模型进行自适应计算的空间 - 方向动态网络。系统地审查了动态网络的重要研究问题,例如架构设计,决策方案,优化技术和应用。最后,我们与有趣的未来研究方向讨论了该领域的开放问题。
translated by 谷歌翻译
大多数现有的深神经网络都是静态的,这意味着它们只能以固定的复杂性推断。但资源预算可以大幅度不同。即使在一个设备上,实惠预算也可以用不同的场景改变,并且对每个所需预算的反复培训网络是非常昂贵的。因此,在这项工作中,我们提出了一种称为Mutualnet的一般方法,以训练可以以各种资源约束运行的单个网络。我们的方法列举了具有各种网络宽度和输入分辨率的模型配置队列。这种相互学习方案不仅允许模型以不同的宽度分辨率配置运行,而且还可以在这些配置之间传输独特的知识,帮助模型来学习更强大的表示。 Mutualnet是一般的培训方法,可以应用于各种网络结构(例如,2D网络:MobileNets,Reset,3D网络:速度,X3D)和各种任务(例如,图像分类,对象检测,分段和动作识别),并证明了实现各种数据集的一致性改进。由于我们只培训了这一模型,它对独立培训多种型号而言,它也大大降低了培训成本。令人惊讶的是,如果动态资源约束不是一个问题,则可以使用Mutualnet来显着提高单个网络的性能。总之,Mutualnet是静态和自适应,2D和3D网络的统一方法。代码和预先训练的模型可用于\ url {https://github.com/tayang1122/mutualnet}。
translated by 谷歌翻译
在本文中,我们基于任何卷积神经网络中中间注意图的弱监督生成机制,并更加直接地披露了注意模块的有效性,以充分利用其潜力。鉴于现有的神经网络配备了任意注意模块,我们介绍了一个元评论家网络,以评估主网络中注意力图的质量。由于我们设计的奖励的离散性,提出的学习方法是在强化学习环境中安排的,在此设置中,注意力参与者和经常性的批评家交替优化,以提供临时注意力表示的即时批评和修订,因此,由于深度强化的注意力学习而引起了人们的关注。 (Dreal)。它可以普遍应用于具有不同类型的注意模块的网络体系结构,并通过最大程度地提高每个单独注意模块产生的最终识别性能的相对增益来促进其表现能力,如类别和实例识别基准的广泛实验所证明的那样。
translated by 谷歌翻译
深度卷积神经网络(CNNS)通常是复杂的设计,具有许多可学习的参数,用于准确性原因。为了缓解在移动设备上部署它们的昂贵成本,最近的作品使挖掘预定识别架构中的冗余作出了巨大努力。然而,尚未完全研究现代CNN的输入分辨率的冗余,即输入图像的分辨率是固定的。在本文中,我们观察到,用于准确预测给定图像的最小分辨率使用相同的神经网络是不同的。为此,我们提出了一种新颖的动态分辨率网络(DRNET),其中基于每个输入样本动态地确定输入分辨率。其中,利用所需网络共同地探索具有可忽略的计算成本的分辨率预测器。具体地,预测器学习可以保留的最小分辨率,并且甚至超过每个图像的原始识别准确性。在推断过程中,每个输入图像将被调整为其预测的分辨率,以最小化整体计算负担。然后,我们对几个基准网络和数据集进行了广泛的实验。结果表明,我们的DRNET可以嵌入到任何现成的网络架构中,以获得计算复杂性的相当大降低。例如,DR-RESET-50实现了类似的性能,计算减少约34%,同时增加了1.4%的准确度,与原始Resnet-50上的计算减少相比,在ImageNet上的原始resnet-50增加了10%。
translated by 谷歌翻译
当目标是将非常大的图像与微小的信息对象分类非常大的图像时,计算机愿景中的应用越来越多的计算机愿景中的应用程序越来越多地挑战。具体而言,这些分类任务面临两个关键挑战:$ i $)输入图像的大小通常按照MEGA或GIGA - 像素的顺序,然而,由于内存约束,现有的深层架构不容易操作在这种大图像上因此,我们寻求一种进程的记忆有效的方法来处理这些图像;和II $)只有非常小的输入图像的输入图像是信息的信息,导致对图像比率的低感兴趣区域(ROI)。然而,大多数当前的卷积神经网络(CNNS)被设计用于具有相对大的ROI和小图像尺寸(Sub-Peapixel)的图像分类数据集。现有方法孤立地解决了这两个挑战。我们介绍了一个端到端的CNN模型被称为缩放网络,利用分层注意采样,用于使用单个GPU分类大型物体。我们在四个大图像组织病理学,道路场和卫星成像数据集中评估我们的方法,以及一个简谓的病理学数据集。实验结果表明,我们的模型比现有方法达到更高的准确性,同时需要更少的内存资源。
translated by 谷歌翻译
Segblocks通过根据图像区域的复杂性动态调整处理分辨率来降低现有神经网络的计算成本。我们的方法将图像拆分为低复杂性的块和尺寸块块,从而减少了操作数量和内存消耗的数量。轻量级的政策网络选择复杂区域,是使用强化学习训练的。此外,我们介绍了CUDA中实现的几个模块以处理块中的图像。最重要的是,我们的新颖的阻止模块可以防止现有方法遭受的块边界的特征不连续性,同时保持记忆消耗受到控制。我们对语义分割的城市景观,Camvid和Mapillary Vistas数据集进行的实验表明,与具有相似复杂性的静态基准相比,动态处理图像与复杂性的折衷相对于复杂性更高。例如,我们的方法将SwiftNet-RN18的浮点操作数量降低了60%,并将推理速度提高50%,而CityScapes的MIOU准确性仅降低0.3%。
translated by 谷歌翻译
近年来,计算机视觉社区中最受欢迎的技术之一就是深度学习技术。作为一种数据驱动的技术,深层模型需要大量准确标记的培训数据,这在许多现实世界中通常是无法访问的。数据空间解决方案是数据增强(DA),可以人为地从原始样本中生成新图像。图像增强策略可能因数据集而有所不同,因为不同的数据类型可能需要不同的增强以促进模型培训。但是,DA策略的设计主要由具有领域知识的人类专家决定,这被认为是高度主观和错误的。为了减轻此类问题,一个新颖的方向是使用自动数据增强(AUTODA)技术自动从给定数据集中学习图像增强策略。 Autoda模型的目的是找到可以最大化模型性能提高的最佳DA策略。这项调查从图像分类的角度讨论了Autoda技术出现的根本原因。我们确定标准自动赛车模型的三个关键组件:搜索空间,搜索算法和评估功能。根据他们的架构,我们提供了现有图像AUTODA方法的系统分类法。本文介绍了Autoda领域的主要作品,讨论了他们的利弊,并提出了一些潜在的方向以进行未来的改进。
translated by 谷歌翻译
由于存储器和计算资源有限,部署在移动设备上的卷积神经网络(CNNS)是困难的。我们的目标是通过利用特征图中的冗余来设计包括CPU和GPU的异构设备的高效神经网络,这很少在神经结构设计中进行了研究。对于类似CPU的设备,我们提出了一种新颖的CPU高效的Ghost(C-Ghost)模块,以生成从廉价操作的更多特征映射。基于一组内在的特征映射,我们使用廉价的成本应用一系列线性变换,以生成许多幽灵特征图,可以完全揭示内在特征的信息。所提出的C-Ghost模块可以作为即插即用组件,以升级现有的卷积神经网络。 C-Ghost瓶颈旨在堆叠C-Ghost模块,然后可以轻松建立轻量级的C-Ghostnet。我们进一步考虑GPU设备的有效网络。在建筑阶段的情况下,不涉及太多的GPU效率(例如,深度明智的卷积),我们建议利用阶段明智的特征冗余来制定GPU高效的幽灵(G-GHOST)阶段结构。舞台中的特征被分成两个部分,其中使用具有较少输出通道的原始块处理第一部分,用于生成内在特征,另一个通过利用阶段明智的冗余来生成廉价的操作。在基准测试上进行的实验证明了所提出的C-Ghost模块和G-Ghost阶段的有效性。 C-Ghostnet和G-Ghostnet分别可以分别实现CPU和GPU的准确性和延迟的最佳权衡。代码可在https://github.com/huawei-noah/cv-backbones获得。
translated by 谷歌翻译
与准确性和计算成本具有密切关系的图像分辨率在网络培训中发挥了关键作用。在本文中,我们观察到缩小图像保留相对完整的形状语义,但是失去了广泛的纹理信息。通过形状语义的一致性和纹理信息的脆弱的启发,我们提出了一个名为时间性解决方案递减的新颖培训策略。其中,我们在时域中随机将训练图像降低到较小的分辨率。在使用缩小图像和原始图像的替代训练期间,图像中的不稳定纹理信息导致纹理相关模式与正确标签之间的相关性较弱,自然强制执行模型,以更多地依赖于稳健的形状属性。符合人类决策规则。令人惊讶的是,我们的方法大大提高了卷积神经网络的计算效率。在Imagenet分类上,使用33%的计算量(随机将培训图像随机降低到112 $ \倍112美元)仍然可以将resnet-50从76.32%提高到77.71%,并使用63%的计算量(随机减少在50%时期的训练图像到112 x 112)可以改善resnet-50至78.18%。
translated by 谷歌翻译
数据冗余在深神经网络(DNN)的输入和中间结果中无处不在。它为提高DNN性能和效率提供了许多重要的机会,并在大量工作中探索了。这些研究在几年中都在许多场所散布。他们关注的目标范围从图像到视频和文本,以及他们用于检测和利用数据冗余的技术在许多方面也有所不同。尚无对许多努力进行系统的检查和摘要,使研究人员很难对先前的工作,最新技术,差异和共享原则以及尚未探索的领域和方向进行全面看法。本文试图填补空白。它调查了有关该主题的数百篇论文,引入了一种新颖的分类法,以将各种技术纳入一个单一的分类框架,对用于利用数据冗余的主要方法进行了全面描述,以改善数据的多种DNN,并指出一组未来探索的研究机会。
translated by 谷歌翻译
在本文中,我们从经验上研究了如何充分利用低分辨率框架以进行有效的视频识别。现有方法主要集中于开发紧凑的网络或减轻视频输入的时间冗余以提高效率,而压缩框架分辨率很少被认为是有希望的解决方案。一个主要问题是低分辨率帧的识别准确性不佳。因此,我们首先分析低分辨率帧上性能降解的根本原因。我们的主要发现是,降级的主要原因不是在下采样过程中的信息丢失,而是网络体系结构和输入量表之间的不匹配。通过知识蒸馏(KD)的成功,我们建议通过跨分辨率KD(RESKD)弥合网络和输入大小之间的差距。我们的工作表明,RESKD是一种简单但有效的方法,可以提高低分辨率帧的识别精度。没有铃铛和哨子,RESKD在四个大规模基准数据集(即ActivityNet,FCVID,Mini-Kinetics,sopeings soseings ossings v2)上,就效率和准确性上的所有竞争方法都大大超过了所有竞争方法。此外,我们广泛地展示了其对最先进的体系结构(即3D-CNN和视频变压器)的有效性,以及对超低分辨率帧的可扩展性。结果表明,RESKD可以作为最先进视频识别的一般推理加速方法。我们的代码将在https://github.com/cvmi-lab/reskd上找到。
translated by 谷歌翻译
零拍摄学习(ZSL)旨在通过语义相关转移观察到的课程的学习知识。有希望的策略是学习一个全球本地代表,将全球信息纳入额外的地方(即输入的小部分/地区)。但是,现有方法根据显式功能发现本地,而无需挖掘区域内部属性和关系。在这项工作中,我们提出了一种新的熵引导的增强部分卷积网络(ERPCNET),其基于没有人为注释区域的语义相关性和视觉相关性地提取和聚集在地区。 ERPCNET使用加强部分卷积和熵指导;它不仅在动态发现全球合作的地方,而且还可以更快地收敛于政策梯度优化。我们通过在ZSL和四个基准数据集中的ZSL和广义零射击学习(GZSL)设置下,通过比较来展示ERPCNET的性能。我们还显示ERPCNet是时间高效,可通过可视化分析来解释。
translated by 谷歌翻译
视频变压器在主要视频识别基准上取得了令人印象深刻的结果,但它们遭受了高计算成本。在本文中,我们呈现Stts,一个令牌选择框架,动态地在输入视频样本上调节的时间和空间尺寸的几个信息令牌。具体而言,我们将令牌选择作为一个排名问题,估计每个令牌通过轻量级选择网络的重要性,并且只有顶级分数的人将用于下游评估。在时间维度中,我们将最相关的帧保持对识别作用类别的帧,而在空间维度中,我们确定特征映射中最辨别的区域,而不会影响大多数视频变换器中以分层方式使用的空间上下文。由于令牌选择的决定是不可差异的,因此我们采用了一个扰动最大的可分辨率Top-K运算符,用于最终培训。我们对动力学-400进行广泛的实验,最近推出的视频变压器骨架MVIT。我们的框架实现了类似的结果,同时需要计算20%。我们还表明我们的方法与其他变压器架构兼容。
translated by 谷歌翻译
Due to object detection's close relationship with video analysis and image understanding, it has attracted much research attention in recent years. Traditional object detection methods are built on handcrafted features and shallow trainable architectures. Their performance easily stagnates by constructing complex ensembles which combine multiple low-level image features with high-level context from object detectors and scene classifiers. With the rapid development in deep learning, more powerful tools, which are able to learn semantic, high-level, deeper features, are introduced to address the problems existing in traditional architectures. These models behave differently in network architecture, training strategy and optimization function, etc. In this paper, we provide a review on deep learning based object detection frameworks. Our review begins with a brief introduction on the history of deep learning and its representative tool, namely Convolutional Neural Network (CNN). Then we focus on typical generic object detection architectures along with some modifications and useful tricks to improve detection performance further. As distinct specific detection tasks exhibit different characteristics, we also briefly survey several specific tasks, including salient object detection, face detection and pedestrian detection. Experimental analyses are also provided to compare various methods and draw some meaningful conclusions. Finally, several promising directions and tasks are provided to serve as guidelines for future work in both object detection and relevant neural network based learning systems.
translated by 谷歌翻译
为了使用各种类型的数据理解现实世界,人工智能(AI)是当今最常用的技术。在分析数据中找到模式的同时表示主要任务。这是通过提取代表性特征步骤来执行的,该步骤是使用统计算法或使用某些特定过滤器进行的。但是,从大规模数据中选择有用的功能代表了至关重要的挑战。现在,随着卷积神经网络(CNN)的发展,功能提取操作变得更加自动和更容易。 CNN允许处理大规模的数据,并涵盖特定任务的不同方案。对于计算机视觉任务,卷积网络也用于为深度学习模型的其他部分提取功能。选择合适的网络用于特征提取或DL模型的其他部分不是随机工作。因此,这种模型的实现可能与目标任务以及其计算复杂性有关。已经提出了许多网络,并成为任何AI任务中任何DL模型的著名网络。这些网络被利用用于特征提取或在任何名为骨架的DL模型的开头。骨干是以前在许多其他任务中训练并证明其有效性的已知网络。在本文中,现有骨干的概述,例如详细说明给出了VGG,Resnets,Densenet等。此外,通过对所使用的骨干进行审查,讨论了几个计算机视觉任务。此外,还基于每个任务的骨干,还提供了性能的比较。
translated by 谷歌翻译