这是用于人体姿势估计的深度高分辨率表示学习的官方pytorch实现。在这项工作中,我们对人体姿势估计问题感兴趣,重点是学习可靠的高分辨率表示。大多数现有方法从高分辨率网络产生的低分辨率表示中恢复高分辨率表示。相反,我们提出的网络在整个过程中保持高分辨率的表示。我们从高分辨率子网开始作为第一阶段,逐一逐步添加高到低分辨率子网以形成更多阶段,并且并行地连接它们的分辨率子网。我们进行重复的多尺度融合,使得从高到低分辨率的表示中的每一个一遍又一遍地从其他平行表示接收信息,从而导致丰富的高分辨率表示。结果,预测的关键点热图可能更准确并且在空间上更精确。我们通过两个基准数据集的优越姿态估计结果,经验证明了我们网络的有效性:COCO关键点检测数据集和MPII人体姿势数据集。代码和模型已在\ url {https://github.com/leoxiaobin/deep-high-resolution-net.pytorch}公开发布。
translated by 谷歌翻译
密集事件字幕旨在检测和描述视频中包含的所有感兴趣的事件。尽管该领域有了先进的发展,但现有的方法通过利用密集的时间注释来解决这个问题,这在时间上是消耗源的。本文提出了一个新问题:弱监督密集事件字幕,不需要时间分段注释进行模型训练。我们的解决方案基于一对一的对应假设,每个标题描述一个时间片段,每个时间片段都有一个标题,其中包含当前的基准数据集和大多数真实案例。我们将问题分解为一对双重问题:事件字幕和句子定位,并提出一个循环系统来训练我们的模型。提供了广泛的实验结果,以证明我们的模型在视频中的密集事件字幕和句子本地化的能力。
translated by 谷歌翻译
本文提出了一个有效的模块空间瓶颈,用于加速深度神经网络中的卷积层。核心思想是将卷积分解为两个阶段,首先减少特征映射的空间分辨率,然后将其恢复到所需的大小。这种操作降低了空间域中的采样密度,这与信道域中的网络加速方法无关,但又是互补的。使用不同的采样率,我们可以在识别准确度和模型复杂度之间进行权衡。作为基本构建块,空间瓶颈可用于替换单个卷积层或两个卷积层的组合。通过将其应用于深度剩余网络,我们通过空间瓶颈来验证空间瓶颈的有效性。空间瓶颈分别在常规和通道瓶颈残余块上实现2倍和1.4倍的加速,在识别低分辨率图像时保留了准确性,甚至在识别高分辨率图像方面得到了改进。
translated by 谷歌翻译
In this paper, we address the problem of scene parsing with deep learning and focus on the context aggregation strategy for robust segmentation. Motivated by that the label of a pixel is the category of the object that the pixel belongs to, we introduce an object context pooling (OCP) scheme, which represents each pixel by exploiting the set of pixels that belong to the same object category with such a pixel, and we call the set of pixels as object context. Our implementation, inspired by the self-attention approach , consists of two steps: (i) compute the similarities between each pixel and all the pixels, forming a so-called object context map for each pixel served as a sur-rogate for the true object context, and (ii) represent the pixel by aggregating the features of all the pixels weighted by the similarities. The resulting representation is more robust compared to existing context aggregation schemes, e.g., pyramid pooling modules (PPM) in PSPNet and atrous spatial pyramid pooling (ASPP), which do not differentiate the context pixels belonging to the same object category or not, making the reliability of contextually aggre-gated representations limited. We empirically demonstrate our approach and two pyramid extensions with state-of-the-art performance on three semantic segmentation benchmarks: Cityscapes, ADE20K and LIP. Code has been made available at: https://github.com/PkuRainBow/ OCNet.pytorch.
translated by 谷歌翻译
在本文中,我们感兴趣的是构建轻量级和高效的卷积神经网络。受两种设计模式的成功启发,结构化稀疏内核的组合,例如交错组卷积(IGC),以及低秩内核的组合,例如瓶颈模块,我们研究了这两种设计模式的组合,使用组织稀疏低秩内核,形成卷积核。我们不是在通道上引入互补条件,而是引入一个松散的互补条件,通过在超级通道上施加互补条件来制定,以指导生成密集卷积核的设计。生成的网络称为IGCV3。我们凭经验证明低秩和稀疏内核的组合提高了我们提出的方法的性能和优越性,我们提出的技术,IGCV2和MobileNetV2在CIFAR和ImageNet上的图像分类和COCO上的对象检测。
translated by 谷歌翻译
与静态图像中的物体检测相比,由于图像质量下降,视频中的物体检测更具挑战性。解决此问题的有效方法是通过将相同的对象链接到视频以形成小管并在小集中聚合分类分数来利用时间上下文。在本文中,我们专注于获得高质量的对象链接结果,以便更好地分类。与通过在相邻帧之间选中框来链接对象的先前方法不同,我们建议在同一帧中链接。为了实现这一目标,我们在以下方面扩展了先前的方法:(1)一个立方体提议网络,提取对象运动的时空候选长方体; (2)短的小管检测网络,用于检测短视频段中的短小管; (3)短小管连接算法,其连接时间上重叠的短小管以形成长管。在ImageNet VID数据集上的实验表明,我们的方法优于静态图像检测器和先前的现有技术。特别是,对于快速移动的对象,我们的方法比静态图像检测器提高了8.8%。
translated by 谷歌翻译
大多数卷积神经网络具有相同的特征:每个卷积层后面跟着一个非线性激活层,其中RectifiedLinear Unit(ReLU)是最广泛使用的。在本文中,我们认为这两层之间具有相等比例的设计结构可能不是最佳选择,因为它可能导致较差的泛化能力。因此,我们需要研究一种更合适的方法来使用ReLU来探索更好的网络架构。具体而言,我们提出了一个比例模块,以便将卷积和ReLU之间的比率保持为N:M(N> M)。比例模块几乎可以应用于所有网络,无需额外的计算成本来提高性能。综合实验结果表明,该方法在不同网络体系结构的不同基准测试中取得了较好的性能,验证了工作的优越性。
translated by 谷歌翻译
Nearest neighbor search is a problem of finding the data points from thedatabase such that the distances from them to the query point are the smallest.Learning to hash is one of the major solutions to this problem and has beenwidely studied recently. In this paper, we present a comprehensive survey ofthe learning to hash algorithms, categorize them according to the manners ofpreserving the similarities into: pairwise similarity preserving, multiwisesimilarity preserving, implicit similarity preserving, as well as quantization,and discuss their relations. We separate quantization from pairwise similaritypreserving as the objective function is very different though quantization, aswe show, can be derived from preserving the pairwise similarities. In addition,we present the evaluation protocols, and the general performance analysis, andpoint out that the quantization algorithms perform superiorly in terms ofsearch accuracy, search time cost, and space cost. Finally, we introduce a fewemerging topics.
translated by 谷歌翻译
突出物体检测引起了人们的极大兴趣,并且最近设计了各种启发式计算模型。在本文中,我们将显着性图计算表示为回归问题。我们的方法,基于多级图像分割,利用监督学习方法将区域特征向量映射到显着性得分。跨越多个层次的Saliencyscores最终被融合以产生显着图。贡献是双重的。一个是我们提出用于显着对象检测的区别区域特征整合方法。与现有的启发式模型相比,我们提出的方法能够自动整合高维区域显着特征并选择判别性。另一个是通过研究标准通用区域属性以及两个广泛研究的显着对象检测概念,即区域对比度和背景,我们的方法明显优于六个基准数据集的最新方法。同时,我们证明了我们的方法运行速度与大多数现有算法一样快。
translated by 谷歌翻译
最近,综合学习的进展提出了合成图像的训练模型,可以有效地降低人力和物质资源的成本。然而,由于与真实图像相比合成图像的不同分布,所期望的性能仍然不能实现。真实图像由多种形式的光取向组成,而合成图像由均匀的光取向组成。这些特征分别被认为是室外和室内场景的特征。解决这个问题,前一种方法学会了一种模型来改善合成图像的真实感。与以往的方法不同,本文采用净化真实图像的第一步。通过风格转移任务,将室外真实图像的分布转换为室内合成图像,从而减少光的影响。因此,本文提出了一种区域时间风格转移网络,其保留了输入图像(真实图像)的图像内容信息(例如,注视方向,瞳孔中心位置),同时推断了风格图像的风格信息(例如,图像颜色结构,语义特征)。合成图像)。此外,网络加速了模型的收敛速度,并适应多尺度图像。使用混合研究(定性和定量)方法进行实验,以证明在复杂方向上纯化真实图像的可能性。定性地,将所提出的方法与LPW数据集的一系列室内和室外场景中的可用方法进行比较。在定量计中,它通过在交叉数据集上训练凝视估计模型来评估纯化图像。结果显示,与原始实际图像相比,基线方法有显着改进。
translated by 谷歌翻译