气候变化仍然是一个迫在眉睫的问题,目前影响社会大。重要的是,我们作为一个社会,包括计算机愿景(CV)社区采取措施限制对环境的影响。在本文中,我们(a)分析了CV方法递减递减的效果,(b)提出了一种\ entyit {'nofade''}:一种基于新的基于熵的度量来量化模型 - 数据集 - 复杂性关系。我们表明一些简历的任务正在达到饱和度,而其他CV任务几乎完全饱和。在这种光中,Nofade允许CV社区在类似的基础上比较模型和数据集,建立不良平台。
translated by 谷歌翻译
深度学习的最近历史一直是成就之一:从游戏中的人类胜利到图像分类,语音识别,翻译和其他任务的世界领先表现。但是,这一进展带来了对计算能力的渴望。本文分类了这种依赖性的程度,表明各种应用程序的进展非常依赖于计算能力的增加。推断向前的信仰表明,沿当前线的进步正在经济,技术和环境上迅速变得不可持续。因此,在这些应用程序中的持续进展将需要更大的计算方法,这要么必须从变化到深度学习或转移到其他机器学习方法。
translated by 谷歌翻译
我们提出Segnext,这是一种简单的卷积网络体系结构,用于语义分割。由于自我注意力在编码空间信息中的效率,基于变压器的最新模型已主导语义分割领域。在本文中,我们表明卷积注意是一种比变形金刚中的自我注意机制更有效的编码上下文信息的方法。通过重新检查成功分割模型所拥有的特征,我们发现了几个关键组件,从而导致分割模型的性能提高。这促使我们设计了一个新型的卷积注意网络,该网络使用廉价的卷积操作。没有铃铛和哨子,我们的Segnext显着提高了先前最先进的方法对流行基准测试的性能,包括ADE20K,CityScapes,Coco-stuff,Pascal VOC,Pascal Context和ISAID。值得注意的是,segnext优于w/ nas-fpn的效率超过lavenet-l2,在帕斯卡VOC 2012测试排行榜上仅使用1/10参数,在Pascal VOC 2012测试排行榜上达到90.6%。平均而言,与具有相同或更少计算的ADE20K数据集上的最新方法相比,Segnext的改进约为2.0%。代码可在https://github.com/uyzhang/jseg(jittor)和https://github.com/visual-cratch-network/segnext(pytorch)获得。
translated by 谷歌翻译
The success of deep learning in vision can be attributed to: (a) models with high capacity; (b) increased computational power; and (c) availability of large-scale labeled data. Since 2012, there have been significant advances in representation capabilities of the models and computational capabilities of GPUs. But the size of the biggest dataset has surprisingly remained constant. What will happen if we increase the dataset size by 10× or 100×? This paper takes a step towards clearing the clouds of mystery surrounding the relationship between 'enormous data' and visual deep learning. By exploiting the JFT-300M dataset which has more than 375M noisy labels for 300M images, we investigate how the performance of current vision tasks would change if this data was used for representation learning. Our paper delivers some surprising (and some expected) findings. First, we find that the performance on vision tasks increases logarithmically based on volume of training data size. Second, we show that representation learning (or pretraining) still holds a lot of promise. One can improve performance on many vision tasks by just training a better base model. Finally, as expected, we present new state-of-theart results for different vision tasks including image classification, object detection, semantic segmentation and human pose estimation. Our sincere hope is that this inspires vision community to not undervalue the data and develop collective efforts in building larger datasets.
translated by 谷歌翻译
联合学习(FL)是分布式学习范例,可以从边缘设备上的分散数据集中学习全局或个性化模型。然而,在计算机视觉域中,由于统一的流行框架缺乏探索,FL的模型性能远远落后于集中培训。在诸如物体检测和图像分割之类的高级计算机视觉任务中,FL很少有效地说明。为了弥合差距并促进电脑视觉任务的流动,在这项工作中,我们提出了一个联邦学习库和基准框架,命名为FEDCV,评估了三个最具代表性的计算机视觉任务:图像分类,图像分割,和物体检测。我们提供非I.I.D。基准测试数据集,模型和各种参考FL算法。我们的基准研究表明,存在多种挑战值得未来的探索:集中式培训技巧可能不会直接申请fl;非i.i.d。 DataSet实际上将模型精度降级到不同的任务中的某种程度;给出了联合培训的系统效率,具有挑战性,鉴于大量参数和每个客户端记忆成本。我们认为,这种图书馆和基准以及可比的评估设置是必要的,以便在计算机视觉任务中进行有意义的进展。 Fedcv公开可用:https://github.com/fedml-ai/fedcv。
translated by 谷歌翻译
计算机愿景领域正在快速发展,特别是在神经结构设计的新方法的背景下。这些模型有助于(1)气候危机 - 增加二氧化碳排放量和(2)隐私危机 - 数据泄漏问题。为了解决经常忽视的影响计算机愿景(CV)社区对这些危机,我们概述了一个新颖的道德框架,\ Textit {P4ai}:AI的原则,是AI内伦理困境的增强原则看法。然后,我们建议使用P4AI向社区制定具体的建议,以减轻气候和隐私危机。
translated by 谷歌翻译
语义细分是许多视觉系统的骨干,从自动驾驶汽车和机器人导航到增强现实和电信。在有限的资源信封内经常在严格的延迟约束下运行,对有效执行的优化变得很重要。同时,目标平台的异质功能以及不同应用程序的不同限制需要设计和培训多个针对特定目标的细分模型,从而导致过度维护成本。为此,我们提出了一个框架,用于将最新的分割CNN转换为多EXIT语义细分(MESS)网络:经过特殊训练的模型,这些模型沿其深度沿其深度进行参数化的早期出口到i)在推断过程中动态保存计算更容易的样本和ii)通过提供可定制的速度准确性权衡来节省培训和维护成本。设计和培训此类网络天真地损害了性能。因此,我们为多EXIT网络提出了新颖的两期培训方案。此外,Mess的参数化可以使附件分割头的数字,位置和体系结构以及退出策略通过详尽的搜索在<1GPUH中进行部署。这使得混乱能够快速适应每个目标用例的设备功能和应用要求,并提供火车一路上的部署解决方案。与原始的骨干网络相比,Mess变体具有相同精度的潜伏期增长率高达2.83倍,而相同的计算预算的潜伏期提高到同一计算预算的准确性高5.33 pp。最后,与最先进的技术相比,MESS提供了更快的架构选择订单。
translated by 谷歌翻译
Jitendra Malik once said, "Supervision is the opium of the AI researcher". Most deep learning techniques heavily rely on extreme amounts of human labels to work effectively. In today's world, the rate of data creation greatly surpasses the rate of data annotation. Full reliance on human annotations is just a temporary means to solve current closed problems in AI. In reality, only a tiny fraction of data is annotated. Annotation Efficient Learning (AEL) is a study of algorithms to train models effectively with fewer annotations. To thrive in AEL environments, we need deep learning techniques that rely less on manual annotations (e.g., image, bounding-box, and per-pixel labels), but learn useful information from unlabeled data. In this thesis, we explore five different techniques for handling AEL.
translated by 谷歌翻译
Semantic segmentation usually benefits from global contexts, fine localisation information, multi-scale features, etc. To advance Transformer-based segmenters with these aspects, we present a simple yet powerful semantic segmentation architecture, termed as IncepFormer. IncepFormer has two critical contributions as following. First, it introduces a novel pyramid structured Transformer encoder which harvests global context and fine localisation features simultaneously. These features are concatenated and fed into a convolution layer for final per-pixel prediction. Second, IncepFormer integrates an Inception-like architecture with depth-wise convolutions, and a light-weight feed-forward module in each self-attention layer, efficiently obtaining rich local multi-scale object features. Extensive experiments on five benchmarks show that our IncepFormer is superior to state-of-the-art methods in both accuracy and speed, e.g., 1) our IncepFormer-S achieves 47.7% mIoU on ADE20K which outperforms the existing best method by 1% while only costs half parameters and fewer FLOPs. 2) Our IncepFormer-B finally achieves 82.0% mIoU on Cityscapes dataset with 39.6M parameters. Code is available:github.com/shendu0321/IncepFormer.
translated by 谷歌翻译
深度神经网络中的建筑进步导致了跨越一系列计算机视觉任务的巨大飞跃。神经建筑搜索(NAS)并没有依靠人类的专业知识,而是成为自动化建筑设计的有前途的途径。尽管图像分类的最新成就提出了机会,但NAS的承诺尚未对更具挑战性的语义细分任务进行彻底评估。将NAS应用于语义分割的主要挑战来自两个方面:(i)要处理的高分辨率图像; (ii)针对自动驾驶等应用的实时推理速度(即实时语义细分)的其他要求。为了应对此类挑战,我们在本文中提出了一种替代辅助的多目标方法。通过一系列自定义预测模型,我们的方法有效地将原始的NAS任务转换为普通的多目标优化问题。然后是用于填充选择的层次预筛选标准,我们的方法逐渐实现了一组有效的体系结构在细分精度和推理速度之间进行交易。对三个基准数据集的经验评估以及使用华为地图集200 dk的应用程序的实证评估表明,我们的方法可以识别架构明显优于人类专家手动设计和通过其他NAS方法自动设计的现有最先进的体系结构。
translated by 谷歌翻译
用于移动设备的有效神经网络骨干通常针对诸如FLOPS或参数计数之类的指标进行优化。但是,这些指标在移动设备上部署时可能与网络的延迟不太相关。因此,我们通过在移动设备上部署多个移动友好网络来对不同指标进行广泛的分析。我们在最近有效的神经网络中识别和分析建筑和优化瓶颈,并提供减轻这些瓶颈的方法。为此,我们设计了一个高效的骨干莫比尼蛋白,在iPhone12上的推理时间低于1毫秒,ImageNet上的Top-1精度为75.9%。我们表明,Mobileone在高效体系结构中实现了最先进的性能,同时在移动设备上的速度更快。我们的最佳模型在38倍的速度中,在Imagenet上的性能与移动形式相似。与在类似延迟时,我们的模型在ImageNet上获得了2.3%的TOP-1精度。此外,我们表明我们的模型概括为多个任务 - 图像分类,对象检测和语义分割,与在移动设备上部署时现有的有效体系结构相比,延迟和准确性的显着提高。
translated by 谷歌翻译
Scene parsing is challenging for unrestricted open vocabulary and diverse scenes. In this paper, we exploit the capability of global context information by different-regionbased context aggregation through our pyramid pooling module together with the proposed pyramid scene parsing network (PSPNet). Our global prior representation is effective to produce good quality results on the scene parsing task, while PSPNet provides a superior framework for pixellevel prediction. The proposed approach achieves state-ofthe-art performance on various datasets. It came first in Im-ageNet scene parsing challenge 2016, PASCAL VOC 2012 benchmark and Cityscapes benchmark. A single PSPNet yields the new record of mIoU accuracy 85.4% on PASCAL VOC 2012 and accuracy 80.2% on Cityscapes.
translated by 谷歌翻译
我们从实际应用的角度重新审视了现有的出色变压器。他们中的大多数甚至不如基本的重新连接系列效率那么高,并且偏离了现实的部署方案。这可能是由于当前的标准测量计算效率,例如FLOPS或参数是单方面的,次优的和对硬件的不敏感的。因此,本文直接将特定硬件的紧张延迟视为效率指标,该指标提供了涉及计算能力,内存成本和带宽的更全面的反馈。基于一系列受控实验,这项工作为面向浓度和部署的网络设计提供了四个实用指南,例如,在阶段级别,早期的变压器和晚期CNN,在Block Level的早期CNN和Late Transformer。因此,提出了一个面向Tensortrt的变压器家族,缩写为TRT-VIT。广泛的实验表明,在不同的视觉任务(例如,图像分类,对象检测和语义细分)方面,TRT-VIT显着优于现有的Convnet和视觉变压器。例如,在82.7%的Imagenet-1k Top-1精度下,TRT-VIT比CSWIN快2.7 $ \ times $,比双胞胎快2.0 $ \ times $。在MS-COCO对象检测任务上,TRT-VIT与双胞胎达到可比的性能,而推理速度则增加了2.8 $ \ times $。
translated by 谷歌翻译
Pre-training is a dominant paradigm in computer vision. For example, supervised ImageNet pre-training is commonly used to initialize the backbones of object detection and segmentation models. He et al. [1], for example, show a contrasting result that ImageNet pre-training has limited impact on COCO object detection. Here we investigate self-training as another method to utilize additional data on the same setup and contrast it against ImageNet pre-training. Our study reveals the generality and flexibility of self-training with three additional insights: 1) stronger data augmentation and more labeled data further diminish the value of pre-training, 2) unlike pre-training, self-training is always helpful when using stronger data augmentation, in both low-data and high-data regimes, and 3) in the case that pre-training is helpful, self-training improves upon pre-training. For example, on the COCO object detection dataset, pre-training benefits when we use one fifth of the labeled data, and hurts accuracy when we use all labeled data. Self-training, on the other hand, shows positive improvements from +1.3 to +3.4AP across all dataset sizes. In other words, self-training works well exactly on the same setup that pre-training does not work (using ImageNet to help COCO). On the PASCAL segmentation dataset, which is a much smaller dataset than COCO, though pre-training does help significantly, self-training improves upon the pre-trained model. On COCO object detection, we achieve 54.3AP, an improvement of +1.5AP over the strongest SpineNet model. On PASCAL segmentation, we achieve 90.5 mIOU, an improvement of +1.5% mIOU over the previous state-of-the-art result by DeepLabv3+. 1 ⇤ Authors contributed equally. 1 Code and checkpoints for our models are available at https://github.com/tensorflow/tpu/tree/ master/models/official/detection/projects/self_training 34th Conference on Neural Information Processing Systems (NeurIPS 2020), Vancouver, Canada.
translated by 谷歌翻译
为了实现不断增长的准确性,通常会开发大型和复杂的神经网络。这样的模型需要高度的计算资源,因此不能在边缘设备上部署。由于它们在几个应用领域的有用性,建立资源有效的通用网络非常感兴趣。在这项工作中,我们努力有效地结合了CNN和变压器模型的优势,并提出了一种新的有效混合体系结构。特别是在EDGENEXT中,我们引入了分裂深度转置注意力(SDTA)编码器,该编码器将输入张量分解为多个通道组,并利用深度旋转以及跨通道维度的自我注意力,以隐含地增加接受场并编码多尺度特征。我们在分类,检测和分割任务上进行的广泛实验揭示了所提出的方法的优点,优于相对较低的计算要求的最先进方法。我们具有130万参数的EDGENEXT模型在Imagenet-1k上达到71.2 \%TOP-1的精度,超过移动设备的绝对增益为2.2 \%,而拖鞋减少了28 \%。此外,我们具有560万参数的EDGENEXT模型在Imagenet-1k上达到了79.4 \%TOP-1的精度。代码和模型可在https://t.ly/_vu9上公开获得。
translated by 谷歌翻译
视觉变压器由于能够捕获图像中的长期依赖性的能力而成功地应用于图像识别任务。但是,变压器与现有卷积神经网络(CNN)之间的性能和计算成本仍然存在差距。在本文中,我们旨在解决此问题,并开发一个网络,该网络不仅可以超越规范变压器,而且可以超越高性能卷积模型。我们通过利用变压器来捕获长期依赖性和CNN来建模本地特征,从而提出了一个新的基于变压器的混合网络。此外,我们将其扩展为获得一个称为CMT的模型家族,比以前的基于卷积和基于变压器的模型获得了更好的准确性和效率。特别是,我们的CMT-S在ImageNet上获得了83.5%的TOP-1精度,而在拖鞋上的拖曳率分别比现有的DEIT和EficitiveNet小14倍和2倍。拟议的CMT-S还可以很好地概括CIFAR10(99.2%),CIFAR100(91.7%),花(98.7%)以及其他具有挑战性的视觉数据集,例如可可(44.3%地图),计算成本较小。
translated by 谷歌翻译
几乎所有用于计算机视觉任务的最先进的神经网络都受到(1)在目标数据集上的大规模数据集和(2)FINETUNING上的预培训(1)预培训。该策略有助于减少对目标数据集的依赖,并提高目标任务的收敛速率和泛化。虽然对大型数据集进行预训练非常有用,但其最重要的缺点是高培训成本。要解决此问题,我们提出了有效的过滤方法,以从训练前的数据集中选择相关子集。此外,我们发现,在训练前的图像分辨率降低图像分辨率在成本和性能之间提供了很大的权衡。我们通过在无监督和监督设置中的想象中进行预测,并在各种目标数据集和任务集合中进行预测,通过预先培训来验证我们的技术。我们提出的方法大大降低了预训练成本并提供了强大的性能提升。最后,我们通过在我们的子集上调整可用模型来提高标准ImageNet预培训1-3%,并在从更大的规模数据集中过滤的数据集上进行预训练。
translated by 谷歌翻译
神经结构搜索(NAS)已被广泛采用设计准确,高效的图像分类模型。但是,将NAS应用于新的计算机愿景任务仍然需要大量的努力。这是因为1)以前的NAS研究已经过度优先考虑图像分类,同时在很大程度上忽略了其他任务; 2)许多NAS工作侧重于优化特定于任务特定的组件,这些组件不能有利地转移到其他任务; 3)现有的NAS方法通常被设计为“Proxyless”,需要大量努力与每个新任务的培训管道集成。为了解决这些挑战,我们提出了FBNetv5,这是一个NAS框架,可以在各种视觉任务中寻找神经架构,以降低计算成本和人力努力。具体而言,我们设计1)一个简单但包容性和可转换的搜索空间; 2)用目标任务培训管道解开的多址搜索过程; 3)一种算法,用于同时搜索具有计算成本不可知的多个任务的架构到任务数。我们评估所提出的FBNetv5目标三个基本视觉任务 - 图像分类,对象检测和语义分割。 FBNETV5在单一搜索中搜索的模型在所有三个任务中都表现优于先前的议定书 - 现有技术:图像分类(例如,与FBNetv3相比,在与FBNetv3相比的同一拖鞋下的1 + 1.3%Imageet Top-1精度。 (例如,+ 1.8%较高的Ade20k Val。Miou比SegFormer为3.6倍的拖鞋),对象检测(例如,+ 1.1%Coco Val。与yolox相比,拖鞋的1.2倍的地图。
translated by 谷歌翻译
Model efficiency has become increasingly important in computer vision. In this paper, we systematically study neural network architecture design choices for object detection and propose several key optimizations to improve efficiency. First, we propose a weighted bi-directional feature pyramid network (BiFPN), which allows easy and fast multiscale feature fusion; Second, we propose a compound scaling method that uniformly scales the resolution, depth, and width for all backbone, feature network, and box/class prediction networks at the same time. Based on these optimizations and better backbones, we have developed a new family of object detectors, called EfficientDet, which consistently achieve much better efficiency than prior art across a wide spectrum of resource constraints. In particular, with singlemodel and single-scale, our EfficientDet-D7 achieves stateof-the-art 55.1 AP on COCO test-dev with 77M parameters and 410B FLOPs 1 , being 4x -9x smaller and using 13x -42x fewer FLOPs than previous detectors. Code is available at https://github.com/google/automl/tree/ master/efficientdet.
translated by 谷歌翻译
在本文中,我们介绍了ML-解码器,是一种基于新的关注的分类头。 ML-解码器通过查询预测类标签的存在,与全局平均池相比,能够更好地利用空间数据。通过重新设计解码器架构,并使用新颖的组解码方案,ML-Decoder是高效的,并且可以缩放到数千个类。与使用较大的骨架相比,ML-解码器一致地提供更好的速度准确性权衡。 ML-Decoder也是多功能的 - 它可以用作各种分类头的替代品,并在用Word查询操作时概括到未经看的类。新型查询增强进一步提高了其泛化能力。使用ML-Decoder,我们实现了最先进的结果:在MS-Coco多标签上,我们达到91.4%地图;在Nus宽零点上,我们达到31.1%ZSL地图;在Imagenet单一标签上,我们与Vanilla Reset50骨干骨架达到80.7%的新顶级得分,无需额外的数据或蒸馏。公共代码可在:https://github.com/alibaba-miil/ml_decoder
translated by 谷歌翻译