Temporal Action Localization (TAL) methods typically operate on top of feature sequences from a frozen snippet encoder that is pretrained with the Trimmed Action Classification (TAC) tasks, resulting in a task discrepancy problem. While existing TAL methods mitigate this issue either by retraining the encoder with a pretext task or by end-to-end fine-tuning, they commonly require an overload of high memory and computation. In this work, we introduce Soft-Landing (SoLa) strategy, an efficient yet effective framework to bridge the transferability gap between the pretrained encoder and the downstream tasks by incorporating a light-weight neural network, i.e., a SoLa module, on top of the frozen encoder. We also propose an unsupervised training scheme for the SoLa module; it learns with inter-frame Similarity Matching that uses the frame interval as its supervisory signal, eliminating the need for temporal annotations. Experimental evaluation on various benchmarks for downstream TAL tasks shows that our method effectively alleviates the task discrepancy problem with remarkable computational efficiency.
translated by 谷歌翻译
The role of mobile cameras increased dramatically over the past few years, leading to more and more research in automatic image quality enhancement and RAW photo processing. In this Mobile AI challenge, the target was to develop an efficient end-to-end AI-based image signal processing (ISP) pipeline replacing the standard mobile ISPs that can run on modern smartphone GPUs using TensorFlow Lite. The participants were provided with a large-scale Fujifilm UltraISP dataset consisting of thousands of paired photos captured with a normal mobile camera sensor and a professional 102MP medium-format FujiFilm GFX100 camera. The runtime of the resulting models was evaluated on the Snapdragon's 8 Gen 1 GPU that provides excellent acceleration results for the majority of common deep learning ops. The proposed solutions are compatible with all recent mobile GPUs, being able to process Full HD photos in less than 20-50 milliseconds while achieving high fidelity results. A detailed description of all models developed in this challenge is provided in this paper.
translated by 谷歌翻译
隐式3D表示的最新进展,即神经辐射场(NERFS),以可区分的方式使准确且具有逼真的3D重建成为可能。这种新的表示可以有效地以一种紧凑的格式传达数百个高分辨率图像的信息,并允许对新观点的逼真综合。在这项工作中,使用NERF的变体称为全体氧,我们为感知任务创建了第一个大规模隐式表示数据集,称为Fustection,该数据集由两个部分组成,这些部分既包含以对象为中心和场景为中心的扫描,用于分类和分段, 。它显示了原始数据集的显着内存压缩率(96.4 \%),同时以统一形式包含2D和3D信息。我们构建了直接作为输入这种隐式格式的分类和分割模型,并提出了一种新颖的增强技术,以避免在图像的背景上过度拟合。代码和数据可在https://postech-cvlab.github.io/perfception中公开获得。
translated by 谷歌翻译
尽管机器学习在视觉对象跟踪的任务上进行了广泛采用,但最近基于学习的方法在很大程度上忽略了一个事实,即视觉跟踪是其本质上的序列级任务。他们在很大程度上依赖框架级训练,这不可避免地会导致数据分布和任务目标的培训和测试之间的不一致。这项工作介绍了基于强化学习的视觉跟踪序列训练策略,并讨论了数据采样,学习目标和数据增强的序列级设计如何提高跟踪算法的准确性和稳健性。我们对包括LASOT,TrackingNet和GoT-10K在内的标准基准测试的实验表明,四个代表性跟踪模型,SiamRPN ++,Siamattn,Transt和TRDIMP,通过在不修改建筑架构的情况下将提出的方法纳入训练中,从而不断改进。
translated by 谷歌翻译
知识蒸馏是将“知识”从大型模型(教师)转移到更紧凑的(学生)的过程,通常在模型压缩的背景下使用。当两个模型都具有相同的体系结构时,此过程称为自distillation。几项轶事表明,一个自灭的学生可以在持有的数据上胜过老师的表现。在这项工作中,我们系统地研究了许多设置。我们首先表明,即使有一个高度准确的老师,自我介绍也使学生在所有情况下都可以超越老师。其次,我们重新审视了(自我)蒸馏的现有理论解释,并确定矛盾的例子,揭示了这些解释的可能缺点。最后,我们通过损失景观几何形状的镜头为自我鉴定的动态提供了另一种解释。我们进行了广泛的实验,以表明自我验证会导致最小化的最小值,从而导致更好的概括。
translated by 谷歌翻译
我们研究学习特征姿势的问题,即比例和方向,以构成感兴趣的图像区域。尽管它显然很简单,但问题是不平凡的。很难获得具有模型直接从中学习的明确姿势注释的大规模图像区域。为了解决这个问题,我们通过直方图对准技术提出了一个自制的学习框架。它通过随机重新缩放/旋转来生成成对的图像贴片,然后训练估计器以预测其比例/方向值,从而使其相对差异与所使用的重新分组/旋转一致。估算器学会了预测规模/方向的非参数直方图分布,而无需任何监督。实验表明,它在规模/方向估计中显着优于先前的方法,还可以通过将我们的斑块姿势纳入匹配过程中来改善图像匹配和6个DOF相机姿势估计。
translated by 谷歌翻译
人类视觉具有一种特殊类型的视觉处理系统,称为外围视觉。外围视觉将整个视野分为多个轮廓区域,使我们能够在不同区域感知各种视觉特征。在这项工作中,我们采用了一种以生物学启发的方法,并探索以建模深度神经网络中的外围视觉以进行视觉识别。我们建议将编码编码的外围位置纳入多头自我发项层,以使网络学会将视野分配到给定培训数据的各种外围区域。我们在大规模的成像网数据集上评估了所提出的网络,称为Pervit,并系统地研究了机器感知模型的内部工作原理,这表明网络学会了与人类视觉相似的感知视觉数据。各种模型大小的图像分类任务中的最新性能证明了该方法的功效。
translated by 谷歌翻译
尽管自回归模型在图像生成上取得了令人鼓舞的结果,但它们的单向生成过程阻止了所得图像完全反映全球环境。为了解决这个问题,我们提出了一个有效的图像生成框架,该框架与上下文RQ-Transformer的草稿和革命框架在生成过程中考虑了全局上下文。作为广义的VQ-VAE,RQ-VAE首先将高分辨率图像表示为一系列离散代码堆栈。序列中的代码堆栈被随机掩盖后,对上下文RQ转换器进行了训练,以根据图像的未掩盖上下文来填充蒙版的代码堆栈。然后,上下文的RQ-Transformer使用我们的两阶段解码,草稿和重新观察并生成图像,同时在生成过程中利用图像的全局上下文。具体来说。在草稿阶段,尽管质量相当低,但我们的模型首先着重于产生多样化的图像。然后,在修订阶段,模型迭代地改善了图像的质量,同时保留了生成图像的全局环境。在实验中,我们的方法在条件图像生成上实现了最新的结果。我们还验证了,通过有效控制图像生成中质量多样性权衡的质量多样性权衡,草稿进行解码可以实现高性能。
translated by 谷歌翻译
将零件组装成对象是一个组合问题,在现实世界中的各种情况下都会出现,并且涉及科学和工程学中的许多应用。以前的相关工作可以解决限制案例,其单位零件或拼图形状的部分相同,这大大减轻了问题的组合挑战。在这项工作中,我们介绍了形状组装的更具挑战性的问题,该问题涉及具有模糊连接的任意形状的无纹理碎片,然后提出了一种基于学习的方法来解决它。我们证明了具有各种情况的形状组装任务的有效性,包括具有异常片段(例如缺失和扭曲),不同数量的片段和不同旋转离散化的情况。
translated by 谷歌翻译
私人推论(PI)可以直接对密码安全的数据进行推断。虽然有望解决许多隐私问题,但由于极端的运行时间,它的使用有限。与明文推断不同,在PI非线性函数(即relu)中,延迟是由拖曳支配的,即瓶颈。因此,实用的PI需要新颖的恢复优化。为了减少PI潜伏期,我们提出了一种基于梯度的算法,该算法在维持预测准确性的同时选择性地线性地线性性地线性性地线性性性地线性性地线性性地线性性性地线性性性地线性化。我们评估了几种标准PI基准测试的算法。结果表明,比目前的最新水平(70 \%的ISO-ACCURACY \%),最高$ 4.25 \%$的准确性(ISO-RELU计数为50K)或$ 2.2 \ tims $少于$ $ $ $。 - 准确空间。为了补充经验结果,我们提出了一个“无免费午餐”定理,该定理阐明了如何以及何时进行网络线性化,同时保持预测准确性。公共代码可在\ url {https://github.com/nyu-dice-lab/selective_network_linearization}获得。
translated by 谷歌翻译