作为计算机视觉的基本任务,图像相似性检索正面临大规模数据和图像复制攻击的挑战。本文介绍了由Facebook AI组织的图像相似性挑战(ISC)2021的匹配轨道的第3个解决方案。我们提出了一种组合全局描述符和本地描述符的多分支检索方法来覆盖所有攻击案例。具体而言,我们尝试了许多策略来优化全局描述符,包括丰富的数据增强,具有单个变压器模型的自我监督学习,覆盖检测预处理。此外,我们介绍了稳健的SIFT功能和GPU Faiss,用于局部检索,弥补了全球检索的缺点。最后,knn匹配算法用于判断匹配和合并分数。我们展示了我们的方法的一些消融实验,揭示了全球和局部特征的互补优势。
translated by 谷歌翻译
复制检测,这是一个任务,用于确定图像是否是数据库中任何图像的修改副本,是一个未解决的问题。因此,我们通过培训具有对比学习的卷积神经网络(CNNS)来解决副本检测。具有大型记忆库和硬数据增强的培训使CNN能够获得更辨别的表示。我们提出的负嵌入减法进一步提高了复印检测精度。使用我们的方法,我们在Facebook AI图像相似度挑战中取得了第一名:描述符轨道。我们的代码在这里公开提供:\ url {https://github.com/lyakaap/isc21-descriptor-track--st}
translated by 谷歌翻译
自我监督的表示学习是计算机愿景中的一个基本问题,许多有用的应用程序(例如,图像搜索,实例级别识别,复制检测)。在本文中,我们在由Facebook AI研究托管的2021个图像相似性挑战中展示了一种新的对比自我监督表示学习算法。以前的对比的自我监督学习的工作已经确定了能够优化表示的重要性,而在对大量的否定例子中的“推”“。代表以前的解决方案使用现代分布式训练系统(现代分布式训练系统)启用的大批次,或者在放宽一些一致性属性的同时保持最近评估的表示的队列或内存库。我们从一个新角度接近这个问题:我们直接学习查询模型和关键模型,并在每个SGD步骤中共同学习和推送表示在非常大的(例如,100万)的负面表现中。我们通过在一侧冻结骨干并通过在Q优化步骤和K优化步骤之间交替来实现这一目标。在竞争时间帧期间,我们的算法在第1阶段排行榜上实现了0.3401的微AP得分,显着改善了0.1556的基线$ \ mu $ ap。在最终第2阶段排行榜上,我们的型号得分为0.1919,而基线得分为0.0526。持续的培训进一步改善。我们进行了一个实证研究,以将所提出的方法与SIMCLR风格策略进行比较,其中否则仅从批次中取出。我们发现我们的方法($ \ mu $ 703)显着优于这种SIMCLR风格的基线($ \ MU $ 0.2001的AP)。
translated by 谷歌翻译
图像复制检测对于现实生活社交媒体具有重要意义。在本文中,提出了一种数据驱动和本地验证(D ^ 2LV)方法以竞争图像相似性挑战:在神经潜获器中的匹配轨道。在D ^ 2LV中,无监督的预训练替代普通使用的受监管。在培训时,我们设计了一套基本和六个先进的转换,简单但有效的基线学会了强大的表示。在测试期间,提出了全球局部和本地全球匹配策略。该策略在参考和查询图像之间执行本地验证。实验表明,所提出的方法是有效的。拟议的方法在Facebook AI图像相似度挑战上排名第一是1,103名参与者:匹配轨道。代码和培训的型号可在https://github.com/wangwenhao0716/isc-track1-submission上获得。
translated by 谷歌翻译
图像复制检测对于现实生活社交媒体具有重要意义。在本文中,提出了一袋技巧和强大的基线进行图像复制检测。无监督的预训练替代普通使用的受监管。除此之外,我们设计了一个描述符的拉伸策略,以稳定不同疑问的分数。实验表明,所提出的方法是有效的。拟议的基线在Facebook AI图像相似度挑战上排名第三,其中526名参与者中的第三个参与者:描述符轨道。代码和培训的型号可在https://github.com/wangwenhao0716/isc-track2-submission上获得。
translated by 谷歌翻译
这项工作旨在改善具有自我监督的实例检索。我们发现使用最近开发的自我监督(SSL)学习方法(如SIMCLR和MOCO)的微调未能提高实例检索的性能。在这项工作中,我们确定了例如检索的学习表示应该是不变的视点和背景等的大变化,而当前SSL方法应用的自增强阳性不能为学习强大的实例级别表示提供强大的信号。为了克服这个问题,我们提出了一种在\ texit {实例级别}对比度上建立的新SSL方法,以通过动态挖掘迷你批次和存储库来学习类内不变性训练。广泛的实验表明,insclr在实例检索上实现了比最先进的SSL方法更类似或更好的性能。代码可在https://github.com/zeludeng/insclr获得。
translated by 谷歌翻译
实例级图像检索(IIR)或简单的实例检索,涉及在数据集中查找包含查询实例(例如对象)的数据集中所有图像的问题。本文首次尝试使用基于实例歧视的对比学习(CL)解决此问题。尽管CL在许多计算机视觉任务中表现出令人印象深刻的性能,但在IIR领域也从未找到过类似的成功。在这项工作中,我们通过探索从预先训练和微调的CL模型中得出判别表示的能力来解决此问题。首先,我们通过比较预先训练的深度神经网络(DNN)分类器与CL模型学到的功能相比,研究了IIR转移学习的功效。这些发现启发了我们提出了一种新的培训策略,该策略通过使用平均精度(AP)损失以及微调方法来学习针对IIR量身定制的对比功能表示形式,从而优化CL以学习为导向IIR的功能。我们的经验评估表明,从挑战性的牛津和巴黎数据集中的预先培训的DNN分类器中学到的现成的特征上的表现显着提高。
translated by 谷歌翻译
在许多临床应用中,内窥镜图像之间的特征匹配和查找对应关系是从临床序列中进行快速异常定位的许多临床应用中的关键步骤。尽管如此,由于内窥镜图像中存在较高的纹理可变性,稳健和准确的特征匹配的发展成为一项具有挑战性的任务。最近,通过卷积神经网络(CNN)提取的深度学习技术已在各种计算机视觉任务中获得了吸引力。但是,他们都遵循一个有监督的学习计划,其中需要大量注释的数据才能达到良好的性能,这通常不总是可用于医疗数据数据库。为了克服与标记的数据稀缺性有关的限制,自我监督的学习范式最近在许多应用程序中表现出了巨大的成功。本文提出了一种基于深度学习技术的内窥镜图像匹配的新型自我监督方法。与标准手工制作的本地功能描述符相比,我们的方法在精度和召回方面优于它们。此外,与选择基于精度和匹配分数的基于最先进的基于深度学习的监督方法相比,我们的自我监管的描述符提供了竞争性能。
translated by 谷歌翻译
质量功能表示是实例图像检索的关键。为了实现这一目标,现有方法通常诉诸于在基准数据集上预先训练的深度模型,或者使用与任务有关的标记辅助数据集微调模型。尽管取得了有希望的结果,但这种方法受两个问题的限制:1)基准数据集和给定检索任务的数据集之间的域差距; 2)无法轻易获得所需的辅助数据集。鉴于这种情况,这项工作研究了一种不同的方法,例如以前没有得到很好的研究:{我​​们可以学习功能表示\ textit {特定于}给定的检索任务以实现出色的检索吗?}我们发现令人鼓舞。通过添加一个对象建议生成器来生成用于自我监督学习的图像区域,研究的方法可以成功地学习特定于给定数据集的特定特征表示以进行检索。通过使用数据集挖掘的图像相似性信息来提高图像相似性信息,可以使此表示更加有效。经过实验验证,这种简单的``自我监督学习 +自我促进''方法可以很好地与相关的最新检索方法竞争。进行消融研究以表明这种方法的吸引力及其对跨数据集的概括的限制。
translated by 谷歌翻译
大规模的地方认可是一项基本但具有挑战性的任务,在自主驾驶和机器人技术中起着越来越重要的作用。现有的方法已经达到了可接受的良好性能,但是,其中大多数都集中精力设计精美的全球描述符学习网络结构。长期以来忽略了特征概括和描述后的特征概括和描述符的重要性。在这项工作中,我们提出了一种名为GIDP的新方法,以学习良好的初始化并引起描述符,以供大规模识别。特别是,在GIDP中分别提出了无监督的动量对比度云预处理模块和基于重新的描述符后增强模块。前者旨在在训练位置识别模型之前对Point Cloud编码网络进行良好的初始化,而后来的目标是通过推理时间重新掌握预测的全局描述符。在室内和室外数据集上进行的广泛实验表明,我们的方法可以使用简单和一般的点云编码主干来实现最先进的性能。
translated by 谷歌翻译
在深度学习研究中,自学学习(SSL)引起了极大的关注,引起了计算机视觉和遥感社区的兴趣。尽管计算机视觉取得了很大的成功,但SSL在地球观测领域的大部分潜力仍然锁定。在本文中,我们对在遥感的背景下为计算机视觉的SSL概念和最新发展提供了介绍,并回顾了SSL中的概念和最新发展。此外,我们在流行的遥感数据集上提供了现代SSL算法的初步基准,从而验证了SSL在遥感中的潜力,并提供了有关数据增强的扩展研究。最后,我们确定了SSL未来研究的有希望的方向的地球观察(SSL4EO),以铺平了两个领域的富有成效的相互作用。
translated by 谷歌翻译
近年来,已经产生了大量的视觉内容,并从许多领域共享,例如社交媒体平台,医学成像和机器人。这种丰富的内容创建和共享引入了新的挑战,特别是在寻找类似内容内容的图像检索(CBIR)-A的数据库中,即长期建立的研究区域,其中需要改进的效率和准确性来实时检索。人工智能在CBIR中取得了进展,并大大促进了实例搜索过程。在本调查中,我们审查了最近基于深度学习算法和技术开发的实例检索工作,通过深网络架构类型,深度功能,功能嵌入方法以及网络微调策略组织了调查。我们的调查考虑了各种各样的最新方法,在那里,我们识别里程碑工作,揭示各种方法之间的联系,并呈现常用的基准,评估结果,共同挑战,并提出未来的未来方向。
translated by 谷歌翻译
Advanced visual localization techniques encompass image retrieval challenges and 6 Degree-of-Freedom (DoF) camera pose estimation, such as hierarchical localization. Thus, they must extract global and local features from input images. Previous methods have achieved this through resource-intensive or accuracy-reducing means, such as combinatorial pipelines or multi-task distillation. In this study, we present a novel method called SuperGF, which effectively unifies local and global features for visual localization, leading to a higher trade-off between localization accuracy and computational efficiency. Specifically, SuperGF is a transformer-based aggregation model that operates directly on image-matching-specific local features and generates global features for retrieval. We conduct experimental evaluations of our method in terms of both accuracy and efficiency, demonstrating its advantages over other methods. We also provide implementations of SuperGF using various types of local features, including dense and sparse learning-based or hand-crafted descriptors.
translated by 谷歌翻译
本文介绍了Facebook AI图像相似性挑战的第二个地方解决方案:在Drivendata上匹配轨道。该解决方案基于自我监督的学习和视觉变压器(VIT)。主止退区团来自连接查询和参考图像,以形成为一个图像,并且如果查询图像使用参考图像,则要求从图像直接预测到图像。该解决方案在私人排行榜上获得0.8291微平均精度。
translated by 谷歌翻译
图像检索系统可帮助用户实时浏览和搜索。随着云计算的兴起,检索任务通常外包到云服务器。但是,由于云服务器无法完全信任,因此云场景带来了隐私保护的艰巨挑战。为此,已经开发了基于图像加密的图像检索方案,首先是从密码图像中提取特征,然后根据这些功能构建检索模型。然而,大多数现有方法提取浅特征和设计微不足道的检索模型,从而导致密码图像的表现不足。在本文中,我们提出了一种名为“加密视觉变压器”(EVIT)的新型范式,该范式提高了密码图像的判别性表述能力。首先,为了捕获全面的统治信息,我们从密码图像中提取多级局部长度序列和全局Huffman代码频率特征,这些序列在JPEG压缩过程中由流密码加密。其次,我们将基于视觉变压器的检索模型设计为与多层次功能相结合,并提出了两种自适应数据增强方法,以提高检索模型的表示能力。我们的建议很容易通过自我监督的对比学习方式来适应无监督和监督的环境。广泛的实验表明,EVIT既可以实现出色的加密和检索性能,从而超过了当前方案,从而在大幅度的检索准确性方面优于当前方案,同时有效地保护图像隐私。代码可在\ url {https://github.com/onlinehuazai/evit}上公开获得。
translated by 谷歌翻译
最近,电子学习平台已经发展为学生可以发表疑问(用智能手机拍摄的快照)并在几分钟内解决的地方。但是,这些平台的质量差异很大的学生寄出疑问的数量显着增加,这不仅给教师导航解决方案带来了挑战,还增加了每个疑问的分辨率时间。两者都是不可接受的,因为高度怀疑的时间阻碍了学生学习进度的学习。这需要方法来自动识别存储库中是否存在类似的疑问,然后将其作为验证和与学生沟通的合理解决方案。监督的学习技术(如暹罗建筑)需要标签来识别比赛,这是不可行的,因为标签稀缺且昂贵。因此,在这项工作中,我们基于通过自我监督技术学到的表示形式开发了符合范式的标签不足的疑问。在BYOL的先前理论见解(Bootstrap您自己的潜在空间)的基础上,我们提出了Custom Byol,将特定于域特异性的增强与对比目标结合在一起,而不是各种适当构建的数据视图。结果强调,与BYOL和监督学习实例相比,Custom Byol分别将TOP-1匹配精度提高了大约6 \%和5 \%。我们进一步表明,基于BYOL的学习实例在标准杆上的性能比人类标签更好。
translated by 谷歌翻译
深度学习的表现以检索方式实现了出色的图像检索性能。启发式融合本地和全球特征的最新最先进的单阶段模型可以在效率和有效性之间取决于有希望的权衡。但是,我们注意到由于其多尺度推理范式,现有解决方案的效率仍受到限制。在本文中,我们遵循单阶段的艺术,并通过成功摆脱多尺度测试来获得进一步的复杂性效应平衡。为了实现这一目标,我们放弃了广泛使用的卷积网络,从而限制了探索各种视觉模式的局限性,并诉诸完全基于注意力的框架,以通过变形金刚的成功动机,以实现强大的表示学习。除了将变压器应用于全局特征提取外,我们还设计了一个本地分支,该分支由基于窗口的多头注意力和空间注意力组成,以完全利用本地图像模式。此外,我们建议通过交叉意见模块组合分层本地和全球特征,而不是像以前的艺术一样使用启发式融合。借助我们深入的本地和全球建模框架(DALG),广泛的实验结果表明,效率可以显着提高,同时保持艺术状态的竞争成果。
translated by 谷歌翻译
对比的自我监督学习在很大程度上缩小了对想象成的预先训练的差距。然而,它的成功高度依赖于想象成的以对象形象,即相同图像的不同增强视图对应于相同的对象。当预先训练在具有许多物体的更复杂的场景图像上,如此重种策划约束会立即不可行。为了克服这一限制,我们介绍了对象级表示学习(ORL),这是一个新的自我监督的学习框架迈向场景图像。我们的主要洞察力是利用图像级自我监督的预培训作为发现对象级语义对应之前的,从而实现了从场景图像中学习的对象级表示。对Coco的广泛实验表明,ORL显着提高了自我监督学习在场景图像上的性能,甚至超过了在几个下游任务上的监督Imagenet预训练。此外,当可用更加解标的场景图像时,ORL提高了下游性能,证明其在野外利用未标记数据的巨大潜力。我们希望我们的方法可以激励未来的研究从场景数据的更多通用无人监督的代表。
translated by 谷歌翻译
我们介绍了Amstertime:一个具有挑战性的数据集,可在存在严重的域移位的情况下基准视觉位置识别(VPR)。 Amstertime提供了2500张曲式曲目的图像,这些图像匹配了相同的场景,从街景与来自阿姆斯特丹市的历史档案图像数据相匹配。图像对将同一位置与不同的相机,观点和外观捕获。与现有的基准数据集不同,Amstertime直接在GIS导航平台(Mapillary)中众包。我们评估了各种基准,包括在不同相关数据集上预先培训的非学习,监督和自我监督的方法,以进行验证和检索任务。我们的结果将在地标数据集中预先培训的RESNET-101模型的最佳准确性分别验证和检索任务分别为84%和24%。此外,在分类任务中收集了阿姆斯特丹地标子集以进行特征评估。分类标签进一步用于使用Grad-CAM提取视觉解释,以检查深度度量学习模型中学习的类似视觉效果。
translated by 谷歌翻译
在这项工作中,我们提出了一种具有里程碑意义的检索方法,该方法利用了全球和本地功能。暹罗网络用于全球功能提取和度量学习,该网络对具有里程碑意义的搜索进行了初步排名。我们利用暹罗体系结构的提取特征图作为本地描述符,然后使用本地描述符之间的余弦相似性进一步完善搜索结果。我们对Google Landmark数据集进行了更深入的分析,该数据集用于评估,并增加数据集以处理各种类内差异。此外,我们进行了几项实验,以比较转移学习和度量学习的影响以及使用其他局部描述符的实验。我们表明,使用本地功能的重新排列可以改善搜索结果。我们认为,使用余弦相似性的拟议的本地特征提取是一种简单的方法,可以扩展到许多其他检索任务。
translated by 谷歌翻译