高分辨率表示学习在许多视觉问题中起着重要作用,例如姿势估计和语义分割。最近开发用于人工估计的高分辨率网络(HRNet)〜\ _引用{SunXLW19}通过在\ emph {parallel}中连接高到低分辨率的卷积来维持整个过程的高分辨率表示,并产生强大的高分辨率表示通过反复进行平行卷积的融合。在本文中,我们通过引入简单而有效的修改对高分辨率表示进行了进一步的研究,并将其应用于广泛的视觉任务。我们通过聚合来自所有并行卷积的(上采样的)表示来增强高分辨率表示,而不是仅仅是高分辨率卷积中的表示,如在{SunXLW19}中所做的那样。这种简单的修改可以产生更强的表现形式,并且可以通过卓越的结我们展示了在城市景观,LIP和PASCAL背景下的语义分割以及AFLW,COFW,$ 300 $ W和WFLW的面部地标检测的最佳结果。此外,我们从高分辨率表示构建多级表示,并将其应用于更快的R-CNN对象检测框架和扩展框架。所提出的方法在现有的COCO对象检测单模型网络上取得了优异的成果。代码和模型已在\ url {https://github.com/HRNet}上公开。
translated by 谷歌翻译
这是用于人体姿势估计的深度高分辨率表示学习的官方pytorch实现。在这项工作中,我们对人体姿势估计问题感兴趣,重点是学习可靠的高分辨率表示。大多数现有方法从高分辨率网络产生的低分辨率表示中恢复高分辨率表示。相反,我们提出的网络在整个过程中保持高分辨率的表示。我们从高分辨率子网开始作为第一阶段,逐一逐步添加高到低分辨率子网以形成更多阶段,并且并行地连接它们的分辨率子网。我们进行重复的多尺度融合,使得从高到低分辨率的表示中的每一个一遍又一遍地从其他平行表示接收信息,从而导致丰富的高分辨率表示。结果,预测的关键点热图可能更准确并且在空间上更精确。我们通过两个基准数据集的优越姿态估计结果,经验证明了我们网络的有效性:COCO关键点检测数据集和MPII人体姿势数据集。代码和模型已在\ url {https://github.com/leoxiaobin/deep-high-resolution-net.pytorch}公开发布。
translated by 谷歌翻译
密集事件字幕旨在检测和描述视频中包含的所有感兴趣的事件。尽管该领域有了先进的发展,但现有的方法通过利用密集的时间注释来解决这个问题,这在时间上是消耗源的。本文提出了一个新问题:弱监督密集事件字幕,不需要时间分段注释进行模型训练。我们的解决方案基于一对一的对应假设,每个标题描述一个时间片段,每个时间片段都有一个标题,其中包含当前的基准数据集和大多数真实案例。我们将问题分解为一对双重问题:事件字幕和句子定位,并提出一个循环系统来训练我们的模型。提供了广泛的实验结果,以证明我们的模型在视频中的密集事件字幕和句子本地化的能力。
translated by 谷歌翻译
本文提出了一个有效的模块空间瓶颈,用于加速深度神经网络中的卷积层。核心思想是将卷积分解为两个阶段,首先减少特征映射的空间分辨率,然后将其恢复到所需的大小。这种操作降低了空间域中的采样密度,这与信道域中的网络加速方法无关,但又是互补的。使用不同的采样率,我们可以在识别准确度和模型复杂度之间进行权衡。作为基本构建块,空间瓶颈可用于替换单个卷积层或两个卷积层的组合。通过将其应用于深度剩余网络,我们通过空间瓶颈来验证空间瓶颈的有效性。空间瓶颈分别在常规和通道瓶颈残余块上实现2倍和1.4倍的加速,在识别低分辨率图像时保留了准确性,甚至在识别高分辨率图像方面得到了改进。
translated by 谷歌翻译
In this paper, we address the problem of scene parsing with deep learning and focus on the context aggregation strategy for robust segmentation. Motivated by that the label of a pixel is the category of the object that the pixel belongs to, we introduce an object context pooling (OCP) scheme, which represents each pixel by exploiting the set of pixels that belong to the same object category with such a pixel, and we call the set of pixels as object context. Our implementation, inspired by the self-attention approach , consists of two steps: (i) compute the similarities between each pixel and all the pixels, forming a so-called object context map for each pixel served as a sur-rogate for the true object context, and (ii) represent the pixel by aggregating the features of all the pixels weighted by the similarities. The resulting representation is more robust compared to existing context aggregation schemes, e.g., pyramid pooling modules (PPM) in PSPNet and atrous spatial pyramid pooling (ASPP), which do not differentiate the context pixels belonging to the same object category or not, making the reliability of contextually aggre-gated representations limited. We empirically demonstrate our approach and two pyramid extensions with state-of-the-art performance on three semantic segmentation benchmarks: Cityscapes, ADE20K and LIP. Code has been made available at: https://github.com/PkuRainBow/ OCNet.pytorch.
translated by 谷歌翻译
在本文中,我们感兴趣的是构建轻量级和高效的卷积神经网络。受两种设计模式的成功启发,结构化稀疏内核的组合,例如交错组卷积(IGC),以及低秩内核的组合,例如瓶颈模块,我们研究了这两种设计模式的组合,使用组织稀疏低秩内核,形成卷积核。我们不是在通道上引入互补条件,而是引入一个松散的互补条件,通过在超级通道上施加互补条件来制定,以指导生成密集卷积核的设计。生成的网络称为IGCV3。我们凭经验证明低秩和稀疏内核的组合提高了我们提出的方法的性能和优越性,我们提出的技术,IGCV2和MobileNetV2在CIFAR和ImageNet上的图像分类和COCO上的对象检测。
translated by 谷歌翻译
大多数卷积神经网络具有相同的特征:每个卷积层后面跟着一个非线性激活层,其中RectifiedLinear Unit(ReLU)是最广泛使用的。在本文中,我们认为这两层之间具有相等比例的设计结构可能不是最佳选择,因为它可能导致较差的泛化能力。因此,我们需要研究一种更合适的方法来使用ReLU来探索更好的网络架构。具体而言,我们提出了一个比例模块,以便将卷积和ReLU之间的比率保持为N:M(N> M)。比例模块几乎可以应用于所有网络,无需额外的计算成本来提高性能。综合实验结果表明,该方法在不同网络体系结构的不同基准测试中取得了较好的性能,验证了工作的优越性。
translated by 谷歌翻译
Nearest neighbor search is a problem of finding the data points from thedatabase such that the distances from them to the query point are the smallest.Learning to hash is one of the major solutions to this problem and has beenwidely studied recently. In this paper, we present a comprehensive survey ofthe learning to hash algorithms, categorize them according to the manners ofpreserving the similarities into: pairwise similarity preserving, multiwisesimilarity preserving, implicit similarity preserving, as well as quantization,and discuss their relations. We separate quantization from pairwise similaritypreserving as the objective function is very different though quantization, aswe show, can be derived from preserving the pairwise similarities. In addition,we present the evaluation protocols, and the general performance analysis, andpoint out that the quantization algorithms perform superiorly in terms ofsearch accuracy, search time cost, and space cost. Finally, we introduce a fewemerging topics.
translated by 谷歌翻译
突出物体检测引起了人们的极大兴趣,并且最近设计了各种启发式计算模型。在本文中,我们将显着性图计算表示为回归问题。我们的方法,基于多级图像分割,利用监督学习方法将区域特征向量映射到显着性得分。跨越多个层次的Saliencyscores最终被融合以产生显着图。贡献是双重的。一个是我们提出用于显着对象检测的区别区域特征整合方法。与现有的启发式模型相比,我们提出的方法能够自动整合高维区域显着特征并选择判别性。另一个是通过研究标准通用区域属性以及两个广泛研究的显着对象检测概念,即区域对比度和背景,我们的方法明显优于六个基准数据集的最新方法。同时,我们证明了我们的方法运行速度与大多数现有算法一样快。
translated by 谷歌翻译
最近,综合学习的进展提出了合成图像的训练模型,可以有效地降低人力和物质资源的成本。然而,由于与真实图像相比合成图像的不同分布,所期望的性能仍然不能实现。真实图像由多种形式的光取向组成,而合成图像由均匀的光取向组成。这些特征分别被认为是室外和室内场景的特征。解决这个问题,前一种方法学会了一种模型来改善合成图像的真实感。与以往的方法不同,本文采用净化真实图像的第一步。通过风格转移任务,将室外真实图像的分布转换为室内合成图像,从而减少光的影响。因此,本文提出了一种区域时间风格转移网络,其保留了输入图像(真实图像)的图像内容信息(例如,注视方向,瞳孔中心位置),同时推断了风格图像的风格信息(例如,图像颜色结构,语义特征)。合成图像)。此外,网络加速了模型的收敛速度,并适应多尺度图像。使用混合研究(定性和定量)方法进行实验,以证明在复杂方向上纯化真实图像的可能性。定性地,将所提出的方法与LPW数据集的一系列室内和室外场景中的可用方法进行比较。在定量计中,它通过在交叉数据集上训练凝视估计模型来评估纯化图像。结果显示,与原始实际图像相比,基线方法有显着改进。
translated by 谷歌翻译