由于不同相机的显着级别变化,人员重新识别(重新识别)仍然具有挑战性。最近,人们对利用生成模型来增加训练数据和增强输入变化的不变性产生了浓厚的兴趣。然而,现有方法中的生成管道与判别性重新学习阶段保持相对分离。因此,通常以生成的数据以直接的方式训练re-id模型。在本文中,我们通过更好地利用生成的数据来寻求改进学习的重新嵌入嵌入。为此,我们提出了一个联合学习框架,将端到端的重新学习和数据融合在一起。我们的模型涉及一个生成模块,它将每个人分别编码为外观代码和结构代码,以及与生成模块共享外观编码器的adiscriminative模块。通过切换外观或结构代码,生成模块能够生成高质量的交叉ID组合图像,这些图像在线反馈到外观编码器并用于改进判别模块。提出的联合学习框架在没有基线的情况下显着改善使用生成的数据,在几个基准数据集上实现最先进的性能。
translated by 谷歌翻译
在本文中,我们提出了一种简单而有效的填充方案,可用作现有卷积神经网络的插入模块。我们称之为基于部分卷积的填充,直觉可以将填充区域视为空洞,将原始输入视为非空洞。具体地,在卷积操作期间,基于填充区域和卷积窗口区域之间的比率,对卷积结果重新加权近图像边界。利用各种深度网络模型对ImageNet分类和语义分割进行的广泛实验表明,所提出的填充方案始终优于标准零填充,具有更高的准确性。
translated by 谷歌翻译
最近的深度网络在各种语义分割任务上实现了最先进的性能。尽管取得了这些进展,但这些模型经常面临现实世界“野外任务”的挑战,其中存在标记的训练/源数据与看不见的测试/目标数据之间的巨大差异。特别是,这种差异通常被称为“域间隙”,并且可能导致显着降低的性能,这不能通过进一步增加表现能力来容易地补救。无监督域适应(UDA)旨在克服没有目标域标签的这种问题。在本文中,我们提出了一种基于迭代自我训练过程的新型UDA框架,其中问题被表述为潜在的可变损失最小化,并且可以通过在目标数据上生成伪标签并用这些标签重新训练模型来解决。除了自我训练之外,我们还提出了一种新颖的平衡自我训练框架,以避免大类在伪标签生成上的逐渐优势,并引入空间先验来精炼生成的标签。综合实验表明,所提出的方法在多个主要的UDA设置下实现了最新的语义分割性能。
translated by 谷歌翻译
边缘检测是其在感知分组中的作用及其广泛应用的最基本的视觉问题之一。最近代表性学习的进步已经导致该领域的相当大的改进。许多现有技术的边缘检测模型是用完全卷积网络(FCN)学习的。然而,由于边缘的精细结构,基于FCN的边缘学习倾向于易于错位标签。在评估基准中考虑了这样的问题,类似的问题在一般边缘学习中没有明确解决。在本文中,我们表明标签错位会导致边缘学习质量显着下降,并通过提出同时边缘对齐和学习框架来解决这个问题。为此,我们制定了一个概率模型,其中边缘对齐被视为潜在变量优化,并在网络训练期间进行端到端学习。实验展示了这项工作的几个应用,包括改进的边缘检测和最先进的性能,以及噪声注释的自动细化。
translated by 谷歌翻译
A family of super deep networks, referred to as residual networks or ResNet [14], achieved record-beating performance in various visual tasks such as image recognition, object detection, and semantic segmentation. The ability to train very deep networks naturally pushed the researchers to use enormous resources to achieve the best performance. Consequently, in many applications super deep residual networks were employed for just a marginal improvement in performance. In this paper, we propose-ResNet that allows us to automatically discard redundant layers, which produces responses that are smaller than a threshold , with a marginal or no loss in performance. The-ResNet architecture can be achieved using a few additional rectified linear units in the original ResNet. Our method does not use any additional variables nor numerous trials like other hyper-parameter optimization techniques. The layer selection is achieved using a single training process and the evaluation is performed on CIFAR-10, CIFAR-100, SVHN, and ImageNet datasets. In some instances, we achieve about 80% reduction in the number of parameters.
translated by 谷歌翻译
本文讨论了开放式协议下的深层识别(FR)问题,其中理想的面部特征预期在适当选择的度量空间下具有比最小的类间距离更小的最大类距离。然而,现有的算法很少能够有效地实现这一标准。为此,我们提出角度softmax(A-Softmax)损失可折叠卷积神经网络(CNN)来学习角度判别特征。从几何学角度来看,A-Softmax损失可以被视为对超球面流形的严格限制性约束,这种约束与先前的面也位于流形上有着内在的匹配。此外,可以通过参数$ m $定量调整矩形边距的大小。我们进一步推出特定的$ m $来近似理想的特征标准。对野外标记面(LFW),Youtube面(YTF)和MegaFace挑战的广泛分析和实验表明,在FR任务中A-Softmax损失的优越性。该代码也已公开发布。
translated by 谷歌翻译
持续学习旨在使机器学习模型能够以顺序方式学习过去和未来任务的通用解决方案空间。 Conventionalmodels在学习新任务时倾向于忘记先前任务的知识,这种现象称为灾难性遗忘。当在持续学习中使用贝叶斯模型时,可以在两个方面保留以前任务的知识:1)。参数的后验分布,包含先前任务中推理的知识,然后作为后续任务的先验; 2)。核心集,包含以前任务的数据分布知识。在这里,我们通过分别使用自然梯度和斯坦梯度表明贝叶斯连续学习可以通过这两种方式得到促进。
translated by 谷歌翻译
视频对象移除在视频处理中是一项具有挑战性的任务,通常需要大量的人力。给定每个帧中前景对象的掩码,目标是完成(绘制)对象区域并生成目标对象的视频。虽然最近基于深度学习的方法在图像修复任务中取得了巨大成功,但是当应用于视频时,它们经常导致帧之间的结果不一致。在这项工作中,我们提出了一种新颖的基于学习的视频对象去除网络(VORNet),通过结合光流翘曲和基于图像的修复模型,以时空一致的方式解决视频对象去除任务。实验在我们的合成视频上完成基于YouTube-VOS视频分割数据集的对象移除(SVOR)数据集,客观和主观评估表明,与现有方法相比,我们的VORNet生成更多空间和时间上一致的视频。
translated by 谷歌翻译
我们通过$ \ ell_1 $ -minimization研究从一组信号中全局恢复字典的问题。我们假设信号是asi.i.d生成的。来自完整参考字典$ D ^ * \ in \ mathbb R ^ {K \ times K} $的$ K $原子的随机线性组合,其中线性组合系数来自伯努利型模型或精确稀疏模型。首先,我们获得必要且充分的规范条件,引用的字典$ D ^ * $是预期的$ \ ell_1 $目标函数的一个尖锐的局部最小值。我们的结果大大扩展了Wu和Yu(2015)的结果,并允许组合系数是非负的。其次,我们在所引用的字典的目标值最小的区域上获得显式绑定。第三,我们证明了参考字典是唯一的尖锐局部最小值,从而建立了第一个已知的$ \ ell_1 $ -minimization字典学习的全局属性。在理论结果的推动下,我们引入了基于扰动的测试来确定adictionary是否是目标函数的尖锐局部最小值。此外,我们还提出了一种新的基于Block CoordinateDescent的字典学习算法,称为DL-BCD,保证具有单调收敛性。模拟研究表明DL-BCD在恢复率方面具有竞争性,与许多状态相比。 -art字典学习算法。
translated by 谷歌翻译
能够解释来自实时视频流的场景的视觉算法对于计算机辅助手术系统来实现上下文感知行为是必要的。在腹腔镜手术中,这种系统所需的一种特定算法是手术阶段的识别,对于该手术阶段,现有技术是基于CNN-LSTM的模型。许多使用此类模型的先前工作已经以完全监督的方式训练它们,需要完全注释的数据集。相反,我们的工作面临着在提供大量注释数据(低于所有可用视频录像的25%)的情况下学习手术阶段识别的问题。我们提出了ateacher / student类型的方法,其中一个称为教师的强预测器,事先在一个关于地面实况注释视频的小数据集上进行训练,为更大的数据集生成合成注释,另一个模型 - 学生 - 从中​​学习。在我们的案例中,教师采用了新颖的CNN-biLSTM-CRF架构,仅用于离线推理。另一方面,学生是能够进行实时预测的CNN-LSTM。各种数量的手动注释视频的结果证明了新CNN-biLSTM-CRF预测器的优越性以及使用针对未注释视频生成的合成标签从CNN-LSTMtrained获得的改进性能。对于离线和在线手术阶段识别,只有很少的注释记录可用,这种新的教师/学生策略通过有效地利用未注释的数据提供了有价值的性能改进。
translated by 谷歌翻译