在本文中,我们提出了一种准确且可扩展的faceclustering任务方法。我们的目标是根据潜在的特征对一组面孔进行分组。我们将此任务表示为链接预测问题:如果两个面具有相同的标识,则它们之间存在链接。关键思想是我们在实例(face)周围的特征空间中找到本地上下文,其中包含有关此实例与其邻居之间的链接关系的丰富信息。通过构造每个实例周围的子图作为输入数据(描述局部上下文),我们利用图卷积网络(GCN)来进行推理并推断子图中对之间链接的可能性。实验表明,与传统方法相比,我们的方法对面部的复杂分布更具鲁棒性,在标准人脸聚类基准上产生了与最先进方法相当的可比性,并且可扩展到大型数据集。此外,我们表明所提出的方法不需要先前的簇数,知道噪声和异常值,并且可以扩展到多视图版本以获得更准确的聚类精度。
translated by 谷歌翻译
注释大规模基于视频的人物识别(重新ID)数据集是非常昂贵的,这使得完全监督的方法不适用于实际部署。如何在保留重新ID性能的同时最大限度地减少注释成本成为一个有趣的问题。在本文中,我们通过将主动学习方案集成到深度学习框架中来解决这个问题。注意到真正匹配的跟踪对(也称为真阳性(TP))是我们的ID模型的最具信息性的样本,我们提出了一个采样标准来为注释选择最多TP-可能的跟踪对。考虑视图特定偏差的视图感知采样策略旨在促进候选者选择,然后进行自适应重采样步骤以省略不必要注释的所选候选者。我们的方法学习re-ID模型并迭代地更新注释集。重新ID模型由tracklets'pesudo标签监督,通过将每个tracklet视为一个不同的类来初始化。通过获得积极选择的候选者的注释,thetracklets的pesudo标签通过标签合并进行更新,并进一步用于训练我们的重新ID模型。虽然简单,但所提出的方法证明了对三个基于视频的人员重新ID数据集的有效性。实验结果表明,我们的方法需要少于3%的成对注释才能达到与全监督设置相当的性能。
translated by 谷歌翻译
我们在约束条件下研究对象识别,即每个对象类只用非常少的观察来表示。在这种情况下,由于有限的训练数据,幼稚的监督学习会导致深度神经网络的严重过度拟合。我们通过从少数标记示例到大量未注释图像的标签传播创建更多的训练数据来解决这个问题。我们的主要观点是,当用于传播的相似性度量被学习并从具有大量数据的其他相关域转移时,这种标签传播方案可以非常有效。我们测试了我们对半监督学习,转移学习和小镜头识别的方法,我们使用变量监督/无监督预训练方法学习我们的相似性度量,并将其转换为跨不同数据分布的未标记数据。通过以这种方式利用未标记的数据,我们在所有三个任务上实现了显着的改进。值得注意的是,对于CIFAR10的半监督学习,超过目前最先进的技术优于现有的最先进技术,从图像网络到CIFAR10的转移学习需要10美元以上,而对于少数几个识别,需要6美元以上mini-ImageNet,标记的示例有限。
translated by 谷歌翻译
We focus on the one-shot learning for video-based person re-Identification (re-ID). Unlabeled tracklets for the person re-ID tasks can be easily obtained by pre-processing, such as pedestrian detection and tracking. In this paper, we propose an approach to exploiting unla-beled tracklets by gradually but steadily improving the dis-criminative capability of the Convolutional Neural Network (CNN) feature representation via stepwise learning. We first initialize a CNN model using one labeled tracklet for each identity. Then we update the CNN model by the following two steps iteratively: 1. sample a few candidates with most reliable pseudo labels from unlabeled tracklets; 2. update the CNN model according to the selected data. Instead of the static sampling strategy applied in existing works, we propose a progressive sampling method to increase the number of the selected pseudo-labeled candidates step by step. We systematically investigate the way how we should select pseudo-labeled tracklets into the training set to make the best use of them. Notably, the rank-1 accuracy of our method outperforms the state-of-the-art method by 21.46 points (absolute, i.e., 62.67% vs. 41.21%) on the MARS dataset, and 16.53 points on the DukeMTMC-VideoReID dataset 1 .
translated by 谷歌翻译
In 2007, Labeled Faces in the Wild was released in an effort to spur research in face recognition, specifically for the problem of face verification with un-constrained images. Since that time, more than 50 papers have been published that improve upon this benchmark in some respect. A remarkably wide variety of innovative methods have been developed to overcome the challenges presented in this database. As performance on some aspects of the benchmark approaches 100% accuracy , it seems appropriate to review this progress, derive what general principles we can from these works, and identify key future challenges in face recognition. In this survey, we review the contributions to LFW for which the authors have provided results to the curators (results found on the LFW results web page). We also review the cross cutting topic of alignment and how it is used in various methods. We end with a brief discussion of recent databases designed to challenge the next generation of face recognition algorithms.
translated by 谷歌翻译
在实际应用中,例如执法和视频检索,只需要用一个肖像就可以在长视频中搜索某个人。这比传统的人格识别设置更具挑战性,因为搜索可能需要在不同的环境中进行搜索。肖像拍了。在本文中,我们的目标是解决这一挑战并提出一个新的框架,该框架考虑了沿轨迹的同一性不变性,从而允许通过视觉和时间链接传播人物身份。我们还通过竞争共识开发了一种名为Progressive Propagation的小说方案,它显着提高了传播过程的可靠性。为了促进人物搜索的研究,我们构建了一个大型基准,其中包含来自192部电影的127K手动注释轨迹。实验表明,我们的方法明显优于主流人员re-id方法,将mAP从42.16%提高到62.27%。
translated by 谷歌翻译
Interpersonal relation defines the association, e.g., warm, friendliness, and dominance, between two or more people. We investigate if such fine-grained and high-level relation traits can be characterized and quantified from face images in the wild. We address this challenging problem by first studying a deep network architecture for robust recognition of facial expressions. Unlike existing models that typically learn from facial expression labels alone, we devise an effective multitask network that is capable of learning from rich auxiliary attributes such as gender, age, and head pose, beyond just facial expression data. While conventional supervised training requires datasets with complete labels (e.g., all samples must be labeled with gender, age, and expression), we show that this requirement can be relaxed via a novel attribute propagation method. The approach further allows us to leverage the inherent correspondences between heterogeneous attribute sources despite the disparate distributions of different datasets. With the network we demonstrate state-of-the-art results on existing facial expression recognition benchmarks. To predict inter-personal relation, we use the expression recognition network
translated by 谷歌翻译
根据身份对面部图像进行聚类具有两个重要的应用:(i)当没有外部标签与图像相关联时对一组面部图像进行分组,以及(ii)对有效的大规模面部检索进行索引。聚类问题由两个关键部分组成:面部表征和分组面部的相似性选择。我们首先提出基于ResNet的表示,已经证明它可以很好地执行图像分类问题。给定此表示,我们设计了聚类算法,条件成对聚类(ConPaC),其仅基于人脸图像之间的相似性直接估计邻接矩阵。这允许动态选择簇的数量并保持面之间的成对相似性。 ConPaC将聚类问题表示为条件随机场(CRF)模型,并使用Loopy Belief Propagation来找到最大化附近矩阵后验概率的近似解。两个基准人脸数据集(LFW和IJB-B)的实验结果表明,ConPaC优于众所周知的聚类算法,如问题均值,谱聚类和近似秩序。另外,该算法可以自然地结合成对约束以获得导致改进的聚类性能的半监督版本。我们还提出了ConPaC的k-NN变体,其具有给定ak-NN图的线性时间复杂度,适用于大型数据集。
translated by 谷歌翻译
人脸识别数据集的规模不断扩大,使我们能够训练强大的人脸识别网络。虽然已经设计了各种架构和损耗函数,但我们对现有数据集中固有的标签噪声的来源和后果仍然有限。我们做出以下贡献:1)我们提供了清洁的流行数据库子集,即MegaFace和MS-Celeb-1M数据集,并构建了一个新的大规模噪声控制的IMDb-Face数据集。 2)使用原始数据集和清理的子集,我们分析和分析MegaFace和MS-Celeb-1M的标签噪声属性。我们表明,需要更多的样本才能达到由干净子集产生的相同精度。 3)我们研究不同类型的噪声(即标签翻转和异常值)与人脸识别模型的准确性之间的关联。 4)我们研究了改善数据处理的方法,包括对数据标记策略对注释准确性的影响的综合用户研究。 IMDb-Face数据集已在https://github.com/fwang91/IMDb-Face上发布。
translated by 谷歌翻译
在本文中,我们提出了一种新的边缘标记图神经网络(EGNN),它适用于边缘标记图上的深度神经网络,用于少量学习。几个镜头学习中的先前图形神经网络(GNN)方法基于节点标记框架,其隐式地模拟了簇内相似性和簇间不相似性。相比之下,所提出的EGNN学习预测图上的边标签而不是标记的标签,通过直接利用集群相似性和集群间不相似性来迭代地更新边标签,从而实现显式集群的演化。它也非常适合在没有重新训练的情况下在不同数量的类上进行,并且可以容易地扩展以执行转换推断。通过具有边缘标记丢失的情节训练来学习GANN的参数,以获得针对看不见的低数据问题的可推广模型。在具有两个基准数据集的监督和半监督的几次图像分类任务中,所提出的EGNN显着改善了对现有GNN的性能。
translated by 谷歌翻译
在本文中,我们使用大量未标记图像和每个类别只有少量标记图像来研究对象检测,命名为“少量示例对象检测”。关键的挑战在于尽可能多地从池中生成值得信赖的培训样本。使用很少的训练样例,我们的方法在模型训练和高可信度样本选择之间进行迭代。在训练中,首先生成简单的样本,然后对初始化不足的模型进行改进。随着模型变得更加严格,选择具有挑战性但可靠的样品。之后,又进行了另一轮模型改进。为了进一步改进生成的训练样本的精确度和召回率,我们在我们的框架中嵌入了多个检测模型,证明其优于单模型基线和模型集合方法。 PASCAL VOC'07,MSCOCO'14和ILSVRC'13的实验表明,通过使用每个类别选择的少至三个或四个样本,我们的方法与最先进的弱监督方法相比,产生了非常有竞争力的结果使用大量图像级标签。
translated by 谷歌翻译
通常需要足够的训练数据来训练深度学习的模型。然而,由于用于标记大量图像的昂贵的手动过程,可用的训练数据量总是有限的。为了产生更多用于训练深度网络的数据,可以使用生成性对抗网络(GAN)来生成人工样本数据。但是,生成的数据通常没有注释标签。为了解决这个问题,在本文中,我们提出了一个名为Multi-pseudo Regularized Label(MpRL)的虚拟标签,并为生成的数据赋值。利用MpRL,生成的数据将被用作实际训练数据的补充,以便以半监督的学习方式训练深度神经网络。为了建立真实数据和生成数据之间的对应关系,MpRL分配每个生成的数据aproper虚拟标签,其反映了生成数据与真实数据域中的预定义训练类的关联的可能性。通常是单个整数的传统标签,在这项工作中提出的虚拟标签是一组基于权重的值,每个个体都是(0,1)中的一个数字,称为多伪标签,反映了每个生成之间的相关程度。在我们的实验中采用两个最先进的卷积神经网络(CNNs)进行综合评估,以验证MpRL的有效性。实验表明,通过将MpRL分配给生成的数据,我们将数据转换为每个预定义的真实数据类别。可以进一步提高五重ID数据集的人员重新ID性能,即市场-1501,DukeMTMC-reID,CUHK03,VIPeR和CUHK01。提出的方法获得+ 6.29%,+ 6.30%,+ 5.58%,+ 5.84在五个数据集上,相对于强CNN基线的等级1准确度的%和+ 3.48%的改进,并且优于最先进的方法。
translated by 谷歌翻译
深度学习提出了希望和期望,作为许多应用程序的一般解决方案;事实证明它已被证明是有效的,但它也显示出对大量数据的强烈依赖性。幸运的是,已经证明,即使数据稀缺,也可以通过重复使用priorknowledge来训练成功的模型。因此,在最广泛的定义中,开发转移学习技术是部署有效和准确的智能系统的关键因素。本文将重点研究一系列适用于视觉目标识别任务的转移学习方法,特别是图像分类。转移学习是一个通用术语,并且特定设置已经给出了特定的名称:当学习者只能访问来自目标域的标记数据和来自不同域(源)的标记数据时,问题被称为“无监督域适应”。 (DA)。这项工作的第一部分将集中在这个设置的三种方法:其中一种方法涉及特征,一种是图像,而第三种方法同时使用两种。第二部分将重点关注机器人感知的现实生活问题,特别是RGB-D识别。机器人平台通常不仅限于色彩感知;他们经常带着Depthcamera。不幸的是,深度模态很少用于视觉识别,因为缺乏预先训练的模型,从中可以传输并且很少有数据从头开始。将提出两种处理这种情况的方法:一种使用合成数据,另一种利用跨模态转移学习。
translated by 谷歌翻译
尽管在人脸识别(FR)中深度学习取得了进步,但越来越多的人发现种族偏见明显降低了现实FR系统的性能。面对现有的培训和测试数据库几乎由高加索人群组成的事实,仍然没有独立的测试数据库来评估种族偏见,甚至没有培训数据库和减少它的方法。为了促进研究征服这些不公平的问题,本文提供了一个名为Racial Facesin-the-Wild(RFW)数据库的新数据集,其中有两个重要用途:1)种族偏见测试:四个测试子集,即高加索人,亚洲人,印度人和非洲人,每个人包含大约3000个人,其中有6000个图像对用于面部验证,2)种族偏见减少:一个标记为训练子集的高加索人和三个未标记的训练子集与亚洲人,印第安人和非洲人提供鼓励FR算法将识别知识从高加索人转移到其他种族。众所周知,RFW是第一个用于测量FR算法中种族偏见的数据库。在证明不同种族之间存在域间隙和FR算法存在种族偏差之后,我们进一步提出了一种深度信息最大化适应网络(IMAN)来弥合领域差距,综合实验表明,我们的算法可以缩小种族偏差。 。
translated by 谷歌翻译
关系提取是构建文本数据内容的一项重要任务,在弱监督学习时变得尤其具有挑战性 - 只能给出有限数量的标记句子,并且可以获得大量未标记的句子。大多数现有工作利用未标记数据库的自我训练(即,引导模型)和多视图学习(例如,集合多个模型变体)的想法。然而,这些方法要么遭受语义漂移的问题,要么没有完全捕捉到关系提取的问题特征。在本文中,我们利用一个关键的洞察力,即检索表达关系的句子是预测给定句子的关系标签的双重任务---两个任务是互补的,可以联合优化以进行相互增强。为了对此模型进行建模,我们提出了DualRE,这是一个原理框架,它引入了与原始关系预测模块联合训练的aretrieval模块。通过这种方式,检索模块从未标记数据中选择的高质量样本可用于改进预测模块,反之亦然。实验结果\脚注{\小代码和数据可在\ url {https://github.com找到两个公共数据集上的/ INK-USC / DualRE}。}以及案例研究证明了DualRE方法的有效性。
translated by 谷歌翻译
Recent successes in learning-based image classification , however, heavily rely on the large number of annotated training samples, which may require considerable human efforts. In this paper, we propose a novel active learning framework, which is capable of building a competitive classifier with optimal feature representation via a limited amount of labeled training instances in an incremental learning manner. Our approach advances the existing active learning methods in two aspects. First, we incorporate deep convolutional neural networks into active learning. Through the properly designed framework, the feature representation and the classifier can be simultaneously updated with progressively annotated informative samples. Second, we present a cost-effective sample selection strategy to improve the classification performance with less manual annotations. Unlike traditional methods focusing on only the uncertain samples of low prediction confidence, we especially discover the large amount of high confidence samples from the unlabeled set for feature learning. Specifically, these high confidence samples are automatically selected and iteratively assigned pseudo-labels. We thus call our framework " Cost-Effective Active Learning" (CEAL) standing for the two advantages. Extensive experiments demonstrate that the proposed CEAL framework can achieve promising results on two challenging image classification datasets, i.e., face recognition on CACD database [1] and object categorization on Caltech-256 [2].
translated by 谷歌翻译
为面部识别提出的卷积神经网络(CNN)模型的体积不断增大,以更好地适应大量的训练数据。当从互联网获得训练数据时,标签可能是模糊和不准确的。本文介绍了一种Light CNN框架,用于学习使用大量噪声标签对大规模人脸数据进行紧凑嵌入。首先,我们将最大激活的变化(称为最大特征映射(MFM))引入CNN的每个卷积层。与使用许多特征映射线性逼近任意凸激活函数的maxout激活不同,MFM通过竞争关系来实现。 MFM不仅可以分离噪声和信息信号,还可以在两个特征图之间发挥特征选择的作用。其次,三个网络经过精心设计,以获得更好的性能,同时减少参数和计算成本。最后,提出了一种语义引导方法,使网络预测与噪声标签更加一致。实验结果表明,所提出的框架可以利用大规模噪声数据来学习计算成本和存储空间效率高的Light模型。具有256-D表示的学习单个网络在不进行微调的情况下在各种面基准上实现了最先进的结果。代码发布于https://github.com/AlfredXiangWu/LightCNN。
translated by 谷歌翻译
如今,几乎所有的在线订单都是通过手机,平板电脑和电脑等屏蔽设备进行的。随着物联网(IoT)和智能家电的快速发展,越来越多的无屏智能设备,例如智能扬声器和智能冰箱,出现在我们的日常生活中。他们开辟了新的互动方式,可以提供良好的机会,以吸引新客户并增加销售。然而,并非所有的项目都适合无屏幕购物,因为一些项目的外观在消费者决策中起着重要作用。典型的例子包括衣服,娃娃,包和鞋子。在本文中,我们的目的是推断每个项目在消费者决策中的出现意义,并确定适合无屏幕购物的项目组。具体而言,我们将问题表述为一个分类任务,预测一个项目的外观对人们的影响有重大影响。为了解决这个问题,我们从三个不同的视图中提取特征,即项目的内在属性,项目图像和用户评论,并通过众包收集一组必要的标签。然后,我们提出了一个迭代的半监督学习框架,其中包含三个精心设计的损失函数。我们对从在线零售巨头JD.com收集的真实交易数据集进行了大量实验。实验结果验证了该方法的有效性。
translated by 谷歌翻译
识别行人属性是计算机视觉社区的一项重要任务,因为它在视频监控中发挥着重要作用。已经提出Manyalgorithms来处理该任务。本文的目的是使用传统方法或基于深度学习网络来回顾现有作品。首先,我们介绍了行人属性识别的背景(简称PAR),包括行人属性的基本概念和相应的挑战。其次,我们介绍了现有的基准,包括流行的数据集和评估标准。第三,分析了多任务学习和多标签学习的概念,并阐述了这两种学习算法与行人属性识别之间的关系。我们还回顾了一些在深度学习社区中广泛应用的流行网络架构。第四,我们分析了这个任务的流行解决方案,例如属性组,基于部分,\ emph {etc}。第五,我们展示了一些应用程序,这些应用程序考虑了行人属性并实现了更好的性能。最后,本文对本文进行了论述,并为行人属性识别提供了几个可能的研究方向。可以从以下网站找到本文的项目页面:\ url {https://sites.google.com/view/ahu-pedestrianattributes/}。
translated by 谷歌翻译
我们提出了一种简单而有效的方法,能够在大规模的弱监督网络图像上训练深度神经网络,这些网络图像通过使用文本查询从互联网上抓取,而不需要任何人工注释。我们通过利用课程学习制定原则性学习策略,目标是有效地处理大量噪音标签和数据失衡。我们通过在特征空间中使用其分布密度来测量数据的复杂性来设计新的学习课程,并以无监督的方式对复杂性进行排序。这允许在大规模网络图像上有效地实施课程学习,从而产生高性能的CNN模型,其中噪声标签的负面影响大大降低。重要的是,我们通过实验证明那些具有高噪声标签的图像可以令人惊讶地改善通过服务正规化的方式,模型的泛化能力。我们的方法在四个基准测试中获得了最先进的性能:WebVision,ImageNet,Clothing-1M和Food-101。通过多个模型的集合,我们在WebVision挑战1000上实现了5.2%的前5个错误率类别分类。这个结果是大幅度的表现,比第二名高出近50%的相对错误率。代码和型号可从以下网址获得:https://github.com/MalongTech/CurriculumNet。
translated by 谷歌翻译