在本文中,我们提出了硬人身份挖掘(HPIM),它试图通过硬实例挖掘来提高人员识别的探索效率。它受到以下观察的推动:一些人分享的属性越多,分离他们的身份就越困难。基于这种观察,我们通过传递的属性描述器开发HPIM,这是一种深度多属性分类器,是从源noisyperson属性数据集训练而来的。我们将每个图像编码为目标人物重新ID数据集中的属性概率描述。然后在属性代码空间中,我们将每个人视为分布,以在不同的实际场景中生成特定于视图的属性代码。因此,我们将特定于人的统计矩从第零到高阶进行估计,这些统计矩进一步用于计算人与人之间的中心矩差异。这种差异是选择硬性身份来组织适当的小批量的基础,而不涉及改变内部学习的人物代表性。它作为硬实例挖掘的补充工具,有助于探索由随机抽样身份构建的小批量中的全局而不是本地硬实例约束。两个人重新识别基准的广泛实验验证了我们提出的算法的有效性。
translated by 谷歌翻译
主成分分析(PCA)是数据分析中维数减少和特征提取的流行工具。存在PCA的概率转换,称为概率PCA(PPCA)。然而,标准PCA和PCA不稳健,因为它们对异常值敏感。为了缓解这一问题,本文将自学习机制引入到PPCA中,提出了一种称为自我概率主成分分析(SP-PPCA)的新方法。此外,我们基于替代搜索策略和期望最大化算法设计了相应的优化算法。 SP-PPCA寻找最佳投影向量并迭代地滤除异常值。对合成问题和现实世界数据集的实验清楚地表明,SP-PPCA能够减少或消除异常值的影响。
translated by 谷歌翻译
高分辨率表示学习在许多视觉问题中起着重要作用,例如姿势估计和语义分割。最近开发用于人工估计的高分辨率网络(HRNet)〜\ _引用{SunXLW19}通过在\ emph {parallel}中连接高到低分辨率的卷积来维持整个过程的高分辨率表示,并产生强大的高分辨率表示通过反复进行平行卷积的融合。在本文中,我们通过引入简单而有效的修改对高分辨率表示进行了进一步的研究,并将其应用于广泛的视觉任务。我们通过聚合来自所有并行卷积的(上采样的)表示来增强高分辨率表示,而不是仅仅是高分辨率卷积中的表示,如在{SunXLW19}中所做的那样。这种简单的修改可以产生更强的表现形式,并且可以通过卓越的结我们展示了在城市景观,LIP和PASCAL背景下的语义分割以及AFLW,COFW,$ 300 $ W和WFLW的面部地标检测的最佳结果。此外,我们从高分辨率表示构建多级表示,并将其应用于更快的R-CNN对象检测框架和扩展框架。所提出的方法在现有的COCO对象检测单模型网络上取得了优异的成果。代码和模型已在\ url {https://github.com/HRNet}上公开。
translated by 谷歌翻译
这是用于人体姿势估计的深度高分辨率表示学习的官方pytorch实现。在这项工作中,我们对人体姿势估计问题感兴趣,重点是学习可靠的高分辨率表示。大多数现有方法从高分辨率网络产生的低分辨率表示中恢复高分辨率表示。相反,我们提出的网络在整个过程中保持高分辨率的表示。我们从高分辨率子网开始作为第一阶段,逐一逐步添加高到低分辨率子网以形成更多阶段,并且并行地连接它们的分辨率子网。我们进行重复的多尺度融合,使得从高到低分辨率的表示中的每一个一遍又一遍地从其他平行表示接收信息,从而导致丰富的高分辨率表示。结果,预测的关键点热图可能更准确并且在空间上更精确。我们通过两个基准数据集的优越姿态估计结果,经验证明了我们网络的有效性:COCO关键点检测数据集和MPII人体姿势数据集。代码和模型已在\ url {https://github.com/leoxiaobin/deep-high-resolution-net.pytorch}公开发布。
translated by 谷歌翻译
识别行人属性是计算机视觉社区的一项重要任务,因为它在视频监控中发挥着重要作用。已经提出Manyalgorithms来处理该任务。本文的目的是使用传统方法或基于深度学习网络来回顾现有作品。首先,我们介绍了行人属性识别的背景(简称PAR),包括行人属性的基本概念和相应的挑战。其次,我们介绍了现有的基准,包括流行的数据集和评估标准。第三,分析了多任务学习和多标签学习的概念,并阐述了这两种学习算法与行人属性识别之间的关系。我们还回顾了一些在深度学习社区中广泛应用的流行网络架构。第四,我们分析了这个任务的流行解决方案,例如属性组,基于部分,\ emph {etc}。第五,我们展示了一些应用程序,这些应用程序考虑了行人属性并实现了更好的性能。最后,本文对本文进行了论述,并为行人属性识别提供了几个可能的研究方向。可以从以下网站找到本文的项目页面:\ url {https://sites.google.com/view/ahu-pedestrianattributes/}。
translated by 谷歌翻译
将各种信息模式融入机器学习过程正在成为一种新趋势。来自各种来源的数据可以提供比单一数据更多的信息,无论它们是异构的还是同构的。现有的基于深度学习的算法通常直接将来自每个域的特征连接起来以表示输入数据。他们很少考虑数据的质量,这是相关多模式问题的关键问题。在本文中,我们提出了一种有效的质量感知深度神经网络,以使用深度强化学习(DRL)对来自每个领域的数据的权重进行建模。具体而言,我们将每个域的权重作为决策问题,并教导代理学习与环境交互。代理可以通过离散动作选择来调整每个域的权重,并且如果显着性结果得到改善则获得肯定的奖励。代理的目标是在完成其顺序动作选择后获得最大奖励。我们以粗到细的方式验证所提出的多模态显着性检测算法。粗略显着图是从编码器 - 解码器框架生成的,该框架通过内容损失和对抗性损失进行训练。最终结果可以通过来自每个域的地图的自适应加权来获得。对两种显着物体检测基准进行的实验验证了我们提出的质量感知深度神经网络的有效性。
translated by 谷歌翻译
逐个检测框架需要一组正和负训练样本来学习用于目标对象的精确定位的鲁棒跟踪模型。但是,现有的跟踪模型主要是独立处理不同的样本,而忽略它们之间的关系信息。在本文中,我们提出了一种新颖的结构感知深度神经网络来克服这些局限性。特别地,我们构造了一个图表来表示训练样本之间的成对关系,另外还将自然语言作为监督信息来强有力地学习特征表示和分类器。为了改善目标的状态并重新跟踪目标,当它从重度遮挡和视野中恢复时,我们会巧妙地设计一个新的子网,从视觉和自然语言线索的指导中学习目标驱动的视觉。扩展五个跟踪基准数据集的实验验证了我们提出的方法的有效性。
translated by 谷歌翻译
通过马尔可夫链的传统显着性检测仅考虑边界节点。然而,除了边界线索之外,背景先验和前景提示线索还起到补充作用以增强显着性检测。在本文中,我们提出了一种基于吸收马尔可夫链的显着性检测方法,该方法考虑边界信息和前景先验线索。所提出的方法通过双向马尔可夫链将边界和前景先验线索结合起来。具体地,图像是第一个分段的超像素,并且选择四个边界节点(复制为虚拟节点)。随后,计算过渡节点随机游走到吸收状态的吸收时间,以获得前景可能性。同时,使用前景作为虚拟吸收节点计算吸收时间并获得背景可能性。最后,融合两个获得的结果以使用成本函数获得组合显着图,以进行多尺度的进一步优化。实验结果证明了我们提出的模型在4个基准数据集上的表现优于17种最先进的方法。
translated by 谷歌翻译
YouTube提供了一个前所未有的机会,可以探索机器学习方法如何改善医疗信息传播。我们提出了一个跨学科的镜头,将机器学习方法与医疗保健信息学主题相结合,以解决开发可扩展的算法解决方案的关键问题,从健康素养和患者教育的角度评估视频。我们开发了一种深度学习方法,以了解YouTube视频中编码的医学知识水平。初步结果表明,我们可以从YouTube视频中提取医学知识,并根据嵌入的知识对视频进行分类,并获得令人满意的表现。 Deeplearning方法在知识提取,自然语言理解和图像分类方面显示出巨大的希望,特别是在以病人为中心的护理和精准医学的时代。
translated by 谷歌翻译
近年来,在姿势跟踪和姿势跟踪兴趣增加方面取得了重大进展。同时,总体算法和系统复杂性也增加,使得算法分析和比较更加困难。这项工作提供了简单有效的baseline方法。它们有助于鼓励和评估现场的新想法。在具有挑战性的基准测试中取得了最先进的成果。该代码将在https://github.com/leoxiaobin/pose.pytorch上提供。
translated by 谷歌翻译