尽管已经广泛地表明,对深度神经网络的检索特定培训是有益的,但是对于最近的邻居图像搜索质量,大多数这些模型都在地标图像的域中进行培训并测试。然而,某些应用程序使用来自各种其他域的图像,因此需要具有良好概括属性的网络 - 通用CBIR模型。据我们所知,到目前为止,没有关于一般图像检索质量的基准模型的测试协议。在分析流行的图像检索测试集后,我们决定手动策划GPR1200,易于使用和可访问的,但具有挑战性的基准数据集,具有广泛的图像类别。随后使用该基准测试在其泛化质量上评估不同架构的各种预磨料模型。我们表明,大规模预借鉴显着提高了检索性能,并通过适当的微调进一步提高这些属性的实验。通过这些有希望的结果,我们希望增加对通用CBIR的研究课题的兴趣。
translated by 谷歌翻译
在这项工作中,我们提出了一种具有里程碑意义的检索方法,该方法利用了全球和本地功能。暹罗网络用于全球功能提取和度量学习,该网络对具有里程碑意义的搜索进行了初步排名。我们利用暹罗体系结构的提取特征图作为本地描述符,然后使用本地描述符之间的余弦相似性进一步完善搜索结果。我们对Google Landmark数据集进行了更深入的分析,该数据集用于评估,并增加数据集以处理各种类内差异。此外,我们进行了几项实验,以比较转移学习和度量学习的影响以及使用其他局部描述符的实验。我们表明,使用本地功能的重新排列可以改善搜索结果。我们认为,使用余弦相似性的拟议的本地特征提取是一种简单的方法,可以扩展到许多其他检索任务。
translated by 谷歌翻译
Image descriptors based on activations of Convolutional Neural Networks (CNNs) have become dominant in image retrieval due to their discriminative power, compactness of representation, and search efficiency. Training of CNNs, either from scratch or fine-tuning, requires a large amount of annotated data, where a high quality of annotation is often crucial. In this work, we propose to fine-tune CNNs for image retrieval on a large collection of unordered images in a fully automated manner. Reconstructed 3D models obtained by the state-of-the-art retrieval and structure-from-motion methods guide the selection of the training data. We show that both hard-positive and hard-negative examples, selected by exploiting the geometry and the camera positions available from the 3D models, enhance the performance of particular-object retrieval. CNN descriptor whitening discriminatively learned from the same training data outperforms commonly used PCA whitening. We propose a novel trainable Generalized-Mean (GeM) pooling layer that generalizes max and average pooling and show that it boosts retrieval performance. Applying the proposed method to the VGG network achieves state-of-the-art performance on the standard benchmarks: Oxford Buildings, Paris, and Holidays datasets.
translated by 谷歌翻译
视觉地位识别(VPR)通常关注本地化室外图像。但是,本地化包含部分户外场景的室内场景对于各种应用来说可能具有很大的值。在本文中,我们介绍了内部视觉地点识别(IOVPR),一个任务,旨在通过Windows可见的户外场景本地化图像。对于此任务,我们介绍了新的大型数据集Amsterdam-XXXL,在阿姆斯特丹拍摄的图像,由640万全景街头视图图像和1000个用户生成的室内查询组成。此外,我们介绍了一个新的培训协议,内部数据增强,以适应视觉地点识别方法,以便展示内外视觉识别的潜力。我们经验展示了我们提出的数据增强方案的优势,较小的规模,同时展示了现有方法的大规模数据集的难度。通过这项新任务,我们旨在鼓励为IOVPR制定方法。数据集和代码可用于HTTPS://github.com/saibr/iovpr的研究目的
translated by 谷歌翻译
近年来,已经产生了大量的视觉内容,并从许多领域共享,例如社交媒体平台,医学成像和机器人。这种丰富的内容创建和共享引入了新的挑战,特别是在寻找类似内容内容的图像检索(CBIR)-A的数据库中,即长期建立的研究区域,其中需要改进的效率和准确性来实时检索。人工智能在CBIR中取得了进展,并大大促进了实例搜索过程。在本调查中,我们审查了最近基于深度学习算法和技术开发的实例检索工作,通过深网络架构类型,深度功能,功能嵌入方法以及网络微调策略组织了调查。我们的调查考虑了各种各样的最新方法,在那里,我们识别里程碑工作,揭示各种方法之间的联系,并呈现常用的基准,评估结果,共同挑战,并提出未来的未来方向。
translated by 谷歌翻译
质量功能表示是实例图像检索的关键。为了实现这一目标,现有方法通常诉诸于在基准数据集上预先训练的深度模型,或者使用与任务有关的标记辅助数据集微调模型。尽管取得了有希望的结果,但这种方法受两个问题的限制:1)基准数据集和给定检索任务的数据集之间的域差距; 2)无法轻易获得所需的辅助数据集。鉴于这种情况,这项工作研究了一种不同的方法,例如以前没有得到很好的研究:{我​​们可以学习功能表示\ textit {特定于}给定的检索任务以实现出色的检索吗?}我们发现令人鼓舞。通过添加一个对象建议生成器来生成用于自我监督学习的图像区域,研究的方法可以成功地学习特定于给定数据集的特定特征表示以进行检索。通过使用数据集挖掘的图像相似性信息来提高图像相似性信息,可以使此表示更加有效。经过实验验证,这种简单的``自我监督学习 +自我促进''方法可以很好地与相关的最新检索方法竞争。进行消融研究以表明这种方法的吸引力及其对跨数据集的概括的限制。
translated by 谷歌翻译
Recent advances in clothes recognition have been driven by the construction of clothes datasets. Existing datasets are limited in the amount of annotations and are difficult to cope with the various challenges in real-world applications. In this work, we introduce DeepFashion 1 , a large-scale clothes dataset with comprehensive annotations. It contains over 800,000 images, which are richly annotated with massive attributes, clothing landmarks, and correspondence of images taken under different scenarios including store, street snapshot, and consumer. Such rich annotations enable the development of powerful algorithms in clothes recognition and facilitating future researches. To demonstrate the advantages of DeepFashion, we propose a new deep model, namely FashionNet, which learns clothing features by jointly predicting clothing attributes and landmarks. The estimated landmarks are then employed to pool or gate the learned features. It is optimized in an iterative manner. Extensive experiments demonstrate the effectiveness of FashionNet and the usefulness of DeepFashion.
translated by 谷歌翻译
我们介绍了Amstertime:一个具有挑战性的数据集,可在存在严重的域移位的情况下基准视觉位置识别(VPR)。 Amstertime提供了2500张曲式曲目的图像,这些图像匹配了相同的场景,从街景与来自阿姆斯特丹市的历史档案图像数据相匹配。图像对将同一位置与不同的相机,观点和外观捕获。与现有的基准数据集不同,Amstertime直接在GIS导航平台(Mapillary)中众包。我们评估了各种基准,包括在不同相关数据集上预先培训的非学习,监督和自我监督的方法,以进行验证和检索任务。我们的结果将在地标数据集中预先培训的RESNET-101模型的最佳准确性分别验证和检索任务分别为84%和24%。此外,在分类任务中收集了阿姆斯特丹地标子集以进行特征评估。分类标签进一步用于使用Grad-CAM提取视觉解释,以检查深度度量学习模型中学习的类似视觉效果。
translated by 谷歌翻译
细粒度的图像分析(FGIA)是计算机视觉和模式识别中的长期和基本问题,并为一组多种现实世界应用提供了基础。 FGIA的任务是从属类别分析视觉物体,例如汽车或汽车型号的种类。细粒度分析中固有的小阶级和阶级阶级内变异使其成为一个具有挑战性的问题。利用深度学习的进步,近年来,我们在深入学习动力的FGIA中见证了显着进展。在本文中,我们对这些进展的系统进行了系统的调查,我们试图通过巩固两个基本的细粒度研究领域 - 细粒度的图像识别和细粒度的图像检索来重新定义和扩大FGIA领域。此外,我们还审查了FGIA的其他关键问题,例如公开可用的基准数据集和相关域的特定于应用程序。我们通过突出几个研究方向和开放问题,从社区中突出了几个研究方向和开放问题。
translated by 谷歌翻译
在视频监视和时尚检索中,识别软性识别人行人属性至关重要。最近的作品在单个数据集上显示了有希望的结果。然而,这些方法在不同属性分布,观点,不同的照明和低分辨率下的概括能力很少因当前数据集中的强偏差和变化属性而很少被理解。为了缩小这一差距并支持系统的调查,我们介绍了UPAR,即统一的人属性识别数据集。它基于四个知名人士属性识别数据集:PA100K,PETA,RAPV2和Market1501。我们通过提供3300万个附加注释来统一这些数据集,以在整个数据集中统一40个属性类别的40个重要二进制属性。因此,我们首次对可概括的行人属性识别以及基于属性的人检索进行研究。由于图像分布,行人姿势,规模和遮挡的巨大差异,现有方法在准确性和效率方面都受到了极大的挑战。此外,我们基于对正则化方法的彻底分析,为基于PAR和属性的人检索开发了强大的基线。我们的模型在PA100K,PETA,RAPV2,Market1501-Atributes和UPAR上的跨域和专业设置中实现了最先进的性能。我们相信UPAR和我们的强大基线将为人工智能界做出贡献,并促进有关大规模,可推广属性识别系统的研究。
translated by 谷歌翻译
实例级图像检索(IIR)或简单的实例检索,涉及在数据集中查找包含查询实例(例如对象)的数据集中所有图像的问题。本文首次尝试使用基于实例歧视的对比学习(CL)解决此问题。尽管CL在许多计算机视觉任务中表现出令人印象深刻的性能,但在IIR领域也从未找到过类似的成功。在这项工作中,我们通过探索从预先训练和微调的CL模型中得出判别表示的能力来解决此问题。首先,我们通过比较预先训练的深度神经网络(DNN)分类器与CL模型学到的功能相比,研究了IIR转移学习的功效。这些发现启发了我们提出了一种新的培训策略,该策略通过使用平均精度(AP)损失以及微调方法来学习针对IIR量身定制的对比功能表示形式,从而优化CL以学习为导向IIR的功能。我们的经验评估表明,从挑战性的牛津和巴黎数据集中的预先培训的DNN分类器中学到的现成的特征上的表现显着提高。
translated by 谷歌翻译
State-of-the-art computer vision systems are trained to predict a fixed set of predetermined object categories. This restricted form of supervision limits their generality and usability since additional labeled data is needed to specify any other visual concept. Learning directly from raw text about images is a promising alternative which leverages a much broader source of supervision. We demonstrate that the simple pre-training task of predicting which caption goes with which image is an efficient and scalable way to learn SOTA image representations from scratch on a dataset of 400 million (image, text) pairs collected from the internet. After pre-training, natural language is used to reference learned visual concepts (or describe new ones) enabling zero-shot transfer of the model to downstream tasks. We study the performance of this approach by benchmarking on over 30 different existing computer vision datasets, spanning tasks such as OCR, action recognition in videos, geo-localization, and many types of fine-grained object classification. The model transfers non-trivially to most tasks and is often competitive with a fully supervised baseline without the need for any dataset specific training. For instance, we match the accuracy of the original ResNet-50 on ImageNet zero-shot without needing to use any of the 1.28 million training examples it was trained on. We release our code and pre-trained model weights at https://github.com/OpenAI/CLIP.
translated by 谷歌翻译
降低降低方法是无监督的方法,它学习了低维空间,在这些方法中,初始空间的某些特性(通常是“邻居”的概念)被保留。这种方法通常需要在大的K-NN图或复杂的优化求解器上传播。另一方面,通常用于从头开始学习表示形式,依靠简单,更可扩展的框架来学习的自我监督学习方法。在本文中,我们提出了TLDR,这是通用输入空间的一种降低方法,该方法正在移植Zbontar等人的最新自我监督学习框架。 (2021)降低维度的特定任务,超越任意表示。我们建议使用最近的邻居从训练组中构建对,并减少冗余损失,以学习在此类对之间产生表示形式的编码器。 TLDR是一种简单,易于训练和广泛适用性的方法。它由一个离线最近的邻居计算步骤组成,该步骤可以高度近似,并且是一个直接的学习过程。为了提高可伸缩性,我们专注于提高线性维度的降低,并在图像和文档检索任务上显示一致的收益,例如在Roxford上获得PCA的 +4%地图,用于GEM-AP,改善了ImageNet上的Dino的性能或以10倍的压缩保留。
translated by 谷歌翻译
使用嘈杂的标签学习是一种用于图像分类的活跃研究区域。然而,研究了噪声标签对图像检索的影响。在这项工作中,我们提出了一种抗噪声的图像检索,名为基于教师的相互作用,T-SINT,它识别噪声交互,即。距离矩阵中的元素,通过使用基于教师的训练设置,在检索损失中选择正确的正面和负相互作用,这些培训设置有助于稳定性。结果,它始终如一地优于具有合成噪声和更现实的噪声的基准数据集的高噪声速率的最先进的方法。
translated by 谷歌翻译
视觉定位通过使用查询图像和地图之间的对应分析来解决估计摄像机姿势的挑战。此任务是计算和数据密集型,这在彻底评估各种数据集上的方法攻击挑战。然而,为了进一步进一步前进,我们声称应该在覆盖广域品种的多个数据集上进行稳健的视觉定位算法。为了促进这一点,我们介绍了Kapture,一种新的,灵活,统一的数据格式和工具箱,用于视觉本地化和结构 - 来自运动(SFM)。它可以轻松使用不同的数据集以及有效和可重复使用的数据处理。为了证明这一点,我们提出了一种多功能管道,用于视觉本地化,促进使用不同的本地和全局特征,3D数据(例如深度图),非视觉传感器数据(例如IMU,GPS,WiFi)和各种处理算法。使用多种管道配置,我们在我们的实验中显示出Kapture的巨大功能性。此外,我们在八个公共数据集中评估我们的方法,在那里他们排名第一,并在其中许多上排名第一。为了促进未来的研究,我们在允许BSD许可证下释放本文中使用的代码,模型和本文中使用的所有数据集。 github.com/naver/kapture,github.com/naver/kapture-localization.
translated by 谷歌翻译
地理定位的概念是指确定地球上的某些“实体”的位置的过程,通常使用全球定位系统(GPS)坐标。感兴趣的实体可以是图像,图像序列,视频,卫星图像,甚至图像中可见的物体。由于GPS标记媒体的大规模数据集由于智能手机和互联网而迅速变得可用,而深入学习已经上升以提高机器学习模型的性能能力,因此由于其显着影响而出现了视觉和对象地理定位的领域广泛的应用,如增强现实,机器人,自驾驶车辆,道路维护和3D重建。本文提供了对涉及图像的地理定位的全面调查,其涉及从捕获图像(图像地理定位)或图像内的地理定位对象(对象地理定位)的地理定位的综合调查。我们将提供深入的研究,包括流行算法的摘要,对所提出的数据集的描述以及性能结果的分析来说明每个字段的当前状态。
translated by 谷歌翻译
基于草图的3D形状检索(SBSR)是一项重要但艰巨的任务,近年来引起了越来越多的关注。现有方法在限制设置中解决了该问题,而无需适当模拟真实的应用程序方案。为了模仿现实的设置,在此曲目中,我们采用了不同级别的绘图技能的业余爱好者以及各种3D形状的大规模草图,不仅包括CAD型号,而且还可以从真实对象扫描的模型。我们定义了两个SBSR任务,并构建了两个基准,包括46,000多个CAD型号,1,700个现实型号和145,000个草图。四个团队参加了这一轨道,并为这两个任务提交了15次跑步,由7个常用指标评估。我们希望,基准,比较结果和开源评估法会在3D对象检索社区中促进未来的研究。
translated by 谷歌翻译
预测拍摄图片的国家有许多潜在的应用,例如对虚假索赔,冒名顶替者的识别,预防虚假信息运动,对假新闻的识别等等。先前的作品主要集中在拍摄图片的地理坐标的估计上。然而,从语义和法医学的角度来看,认识到已经拍摄图像的国家可能更重要,而不是确定其空间坐标。到目前为止,只有少数作品已经解决了这项任务,主要是依靠包含特征地标的图像,例如标志性的纪念碑。在上面的框架中,本文提供了两个主要贡献。首先,我们介绍了一个新的数据集,即Vippgeo数据集,其中包含近400万张图像,可用于训练DL模型进行国家分类。该数据集仅包含这种图像与国家识别的相关性,并且它是通过注意删除非显着图像(例如描绘面孔的图像或特定的非相关物体,例如飞机或船舶)来构建的。其次,我们使用数据集来训练深度学习架构,以将国家识别问题视为分类问题。我们执行的实验表明,我们的网络提供了比当前最新状态更好的结果。特别是,我们发现,要求网络直接识别该国提供比首先估算地理配位的更好的结果,然后使用它们将其追溯到拍摄图片的国家。
translated by 谷歌翻译
图像检索通常以平均精度(AP)或召回@k进行评估。但是,这些指标仅限于二进制标签,并且不考虑错误的严重性。本文介绍了一种新的分层AP培训方法,用于相关图像检索(HAP-PIER)。 Happier是基于新的HAP度量,该指标利用概念层次结构来通过整合错误的重要性并更好地评估排名来完善AP。为了用HAP训练深层模型,我们仔细研究了问题的结构,并设计了平滑的下限替代物,并结合了聚类损失,以确保订购一致。在6个数据集上进行的广泛实验表明,更快乐的层次检索的最新方法明显优于最先进的方法,同时在评估细粒度排名表演时与最新方法相当。最后,我们表明更快乐地导致嵌入空间的更好组织,并防止最严重的非等级方法失败案例。我们的代码可在以下网址公开获取:https://github.com/elias-ramzi/happier。
translated by 谷歌翻译
这项工作旨在改善具有自我监督的实例检索。我们发现使用最近开发的自我监督(SSL)学习方法(如SIMCLR和MOCO)的微调未能提高实例检索的性能。在这项工作中,我们确定了例如检索的学习表示应该是不变的视点和背景等的大变化,而当前SSL方法应用的自增强阳性不能为学习强大的实例级别表示提供强大的信号。为了克服这个问题,我们提出了一种在\ texit {实例级别}对比度上建立的新SSL方法,以通过动态挖掘迷你批次和存储库来学习类内不变性训练。广泛的实验表明,insclr在实例检索上实现了比最先进的SSL方法更类似或更好的性能。代码可在https://github.com/zeludeng/insclr获得。
translated by 谷歌翻译