Visual Place Recognition is an essential component of systems for camera localization and loop closure detection, and it has attracted widespread interest in multiple domains such as computer vision, robotics and AR/VR. In this work, we propose a faster, lighter and stronger approach that can generate models with fewer parameters and can spend less time in the inference stage. We designed RepVGG-lite as the backbone network in our architecture, it is more discriminative than other general networks in the Place Recognition task. RepVGG-lite has more speed advantages while achieving higher performance. We extract only one scale patch-level descriptors from global descriptors in the feature extraction stage. Then we design a trainable feature matcher to exploit both spatial relationships of the features and their visual appearance, which is based on the attention mechanism. Comprehensive experiments on challenging benchmark datasets demonstrate the proposed method outperforming recent other state-of-the-art learned approaches, and achieving even higher inference speed. Our system has 14 times less params than Patch-NetVLAD, 6.8 times lower theoretical FLOPs, and run faster 21 and 33 times in feature extraction and feature matching. Moreover, the performance of our approach is 0.5\% better than Patch-NetVLAD in Recall@1. We used subsets of Mapillary Street Level Sequences dataset to conduct experiments for all other challenging conditions.
translated by 谷歌翻译
Large language models (LLMs) have been shown to be able to perform new tasks based on a few demonstrations or natural language instructions. While these capabilities have led to widespread adoption, most LLMs are developed by resource-rich organizations and are frequently kept from the public. As a step towards democratizing this powerful technology, we present BLOOM, a 176B-parameter open-access language model designed and built thanks to a collaboration of hundreds of researchers. BLOOM is a decoder-only Transformer language model that was trained on the ROOTS corpus, a dataset comprising hundreds of sources in 46 natural and 13 programming languages (59 in total). We find that BLOOM achieves competitive performance on a wide variety of benchmarks, with stronger results after undergoing multitask prompted finetuning. To facilitate future research and applications using LLMs, we publicly release our models and code under the Responsible AI License.
translated by 谷歌翻译
许多最新的自然语言任务方法都建立在大型语言模型的非凡能力上。大型语言模型可以执行内在的学习,他们可以从几个任务演示中学习新任务,而无需任何参数更新。这项工作研究了对新自然语言任务的数据集创建数据集的含义。与最近的文化学习方法背道而驰,我们制定了一个注释效率的两步框架:选择性注释,选择一个示例池,以提前从未标记的数据中从未标记的数据中进行注释,然后及时检索从注释的池中检索任务示例测试时间。基于此框架,我们提出了一种无监督的,基于图的选择性注释方法VOKE-K,以选择各种代表性的示例进行注释。在10个数据集上进行了广泛的实验(涵盖分类,常识性推理,对话和文本/代码生成)表明,我们的选择性注释方法通过很大的利润提高了任务性能。与随机选择示例进行注释相比,Pote-K平均在注释预算下获得了12.9%/11.4%的相对增益。与最先进的监督登录方法相比,它的性能相似,而在10个任务中的注释成本降低了10-100倍。我们在各种情况下进一步分析了框架的有效性:具有不同大小的语言模型,替代选择性注释方法以及有测试数据域移动的情况。我们希望我们的研究将作为数据注释的基础,因为大型语言模型越来越多地应用于新任务。我们的代码可在https://github.com/hkunlp/icl-selactive-annotation上找到。
translated by 谷歌翻译
对应匹配是计算机视觉和机器人技术应用中的一个基本问题。最近使用神经网络解决对应匹配问题最近正在上升。旋转等级和比例等级性在对应匹配应用中都至关重要。经典的对应匹配方法旨在承受缩放和旋转转换。但是,使用卷积神经网络(CNN)提取的功能仅在一定程度上是翻译等值的。最近,研究人员一直在努力改善基于群体理论的CNN的旋转均衡性。 SIM(2)是2D平面中的相似性转换组。本文介绍了专门用于评估SIM(2) - 等级对应算法的专门数据集。我们比较了16个最先进(SOTA)对应匹配方法的性能。实验结果表明,在各种SIM(2)转换条件下,组模棱两可算法对于对应匹配的重要性。由于基于CNN的对应匹配方法达到的子像素精度不令人满意,因此该特定领域需要在未来的工作中获得更多关注。我们的数据集可公开可用:mias.group/sim2e。
translated by 谷歌翻译
对于人工智能系统来说,在低计算成本的情况下实现准确的视频识别是一项挑战。基于自适应推理的有效视频识别方法通常会预览视频,并专注于显着零件以降低计算成本。大多数现有作品都集中在复杂的网络学习,并具有基于视频分类的目标。以所有框架为正样本,其中很少有人关注积极样本(显着框架)和负面样本(非空位框架)之间的歧视。为了填补这一空白,在本文中,我们提出了一个新型的非高度抑制网络(NSNET),该网络有效地抑制了非征力框架的响应。具体而言,在框架级别上,可以生成可以区分显着框架和非空位框架的有效伪标签,以指导框架显着性学习。在视频层面上,在双重视频级别的监督下都学会了一个时间关注模块,这些模块既是对突出表示和非偏心表示形式。从两个两个级别的显着度测量都合并以利用多粒性互补信息。在四个众所周知的基准上进行的广泛实验验证了我们的NSNET不仅实现了最先进的准确性效率折衷,而且比最先进的推理速度要快得多(2.4〜4.3倍) - 艺术方法。我们的项目页面位于https://lawrencexia2008.github.io/projects/nsnet。
translated by 谷歌翻译
检测有益特征交互在推荐系统中至关重要,现有方法通过检查所有可能的特征交互来实现这一目标。但是,检查所有可能的高阶特征相互作用的成本是过于良好的(随着阶的增加而呈指数增长)。因此,现有方法仅检测有限的顺序(例如,最多四个功能的组合)有益特征交互,这可能会错过高于限制的订单的有益特征相互作用。在本文中,我们提出了一个名为HIRS的高图神经网络模型。 HIRS是直接产生任意订单的有益特征相互作用并相应地进行建议预测的第一项工作。生成的特征交互的数量可以指定比所有可能的交互的数量小得多,因此我们的模型承认运行时间要低得多。为了获得有效的算法,我们利用了有益特征相互作用的三种特性,并提出了基于深入的Infomax的方法来指导相互作用的产生。我们的实验结果表明,就建议准确性而言,HIRS的效果优于最先进的算法。
translated by 谷歌翻译
由于字体,大小,颜色和方向的各种文本变化,任意形状的场景文本检测是一项具有挑战性的任务。大多数现有基于回归的方法求助于回归文本区域的口罩或轮廓点以建模文本实例。但是,回归完整的口罩需要高训练的复杂性,并且轮廓点不足以捕获高度弯曲的文本的细节。为了解决上述限制,我们提出了一个名为TextDCT的新颖的轻巧锚文本检测框架,该框架采用离散的余弦变换(DCT)将文本掩码编码为紧凑型向量。此外,考虑到金字塔层中训练样本不平衡的数量,我们仅采用单层头来进行自上而下的预测。为了建模单层头部的多尺度文本,我们通过将缩水文本区域视为正样本,并通过融合来介绍一个新颖的积极抽样策略,并通过融合来设计特征意识模块(FAM),以实现空间意识和规模的意识丰富的上下文信息并关注更重要的功能。此外,我们提出了一种分割的非量最大抑制(S-NMS)方法,该方法可以过滤低质量的掩模回归。在四个具有挑战性的数据集上进行了广泛的实验,这表明我们的TextDCT在准确性和效率上都获得了竞争性能。具体而言,TextDCT分别以每秒17.2帧(FPS)和F-measure的F-MEASIE达到85.1,而CTW1500和Total-Text数据集的F-Measure 84.9分别为15.1 fps。
translated by 谷歌翻译
传统的深度传感器产生准确的真实世界深度估计,即使仅在仿真域训练的最先进的学习方法也会超越。由于在模拟域中容易获得地面真理深度,但在真实域中很难获得,因此我们提出了一种利用两个世界的最佳方法的方法。在本文中,我们展示了一个新的框架,ActiveZero,这是一个混合域学习解决方案,适用于不需要真实世界深度注释的活动立体宽度系统。首先,我们通过使用混合域学习策略来证明我们的方法对分发外数据的可转换性。在仿真域中,我们在形状原语数据集上使用监督差异丢失和自我监督损失的组合。相比之下,在真实域中,我们只在数据集中使用自我监督损失,这些损失是从培训仿真数据或测试真实数据的分发。其次,我们的方法介绍了一种名为Temporal IR的自我监督损失,以增加我们在难以感知地区的重新注入的鲁棒性和准确性。最后,我们展示了如何训练该方法的端到端,并且每个模块对于获得最终结果很重要。关于真实数据的广泛定性和定量评估表明了甚至可以击败商业深度传感器的最新状态。
translated by 谷歌翻译
作为理解人类意图的重要提示,人的凝视为人机交互(HCI)应用提供了一个关键信号。基于外观的凝视估计,直接回归来自眼睛图像的凝视向量,最近基于卷积神经网络(Coundnets)架构和开源大规模凝视数据集来实现了很大的进展。然而,将基于模型的知识进行编码为CNN模型,以进一步提高凝视估计性能仍然是需要探索的主题。在本文中,我们提出了一种明确地将几何眼球模型编码为基于外观的CNN架构的统一框架的Hybridgazenet(HGN)。由多分支网络和不确定性模块组成,使用杂文策略培训HybridgazeNet。与现有的SOTA方法相比,多个具有挑战性的凝视数据集的实验表明,杂交茎具有更好的准确性和泛化能力。稍后将发布代码。
translated by 谷歌翻译
We aim to bridge the gap between our common-sense few-sample human learning and large-data machine learning. We derive a theory of human-like few-shot learning from von-Neuman-Landauer's principle. modelling human learning is difficult as how people learn varies from one to another. Under commonly accepted definitions, we prove that all human or animal few-shot learning, and major models including Free Energy Principle and Bayesian Program Learning that model such learning, approximate our theory, under Church-Turing thesis. We find that deep generative model like variational autoencoder (VAE) can be used to approximate our theory and perform significantly better than baseline models including deep neural networks, for image recognition, low resource language processing, and character recognition.
translated by 谷歌翻译