Neural Radiance Field (NeRF), a new novel view synthesis with implicit scene representation has taken the field of Computer Vision by storm. As a novel view synthesis and 3D reconstruction method, NeRF models find applications in robotics, urban mapping, autonomous navigation, virtual reality/augmented reality, and more. Since the original paper by Mildenhall et al., more than 250 preprints were published, with more than 100 eventually being accepted in tier one Computer Vision Conferences. Given NeRF popularity and the current interest in this research area, we believe it necessary to compile a comprehensive survey of NeRF papers from the past two years, which we organized into both architecture, and application based taxonomies. We also provide an introduction to the theory of NeRF based novel view synthesis, and a benchmark comparison of the performance and speed of key NeRF models. By creating this survey, we hope to introduce new researchers to NeRF, provide a helpful reference for influential works in this field, as well as motivate future research directions with our discussion section.
translated by 谷歌翻译
变压器在图像处理领域取得了显着的成就。受到这一巨大成功的启发,变形金刚在3D点云处理中的应用引起了越来越多的关注。本文提出了一个新颖的点云表示学习网络,具有双重自我注意的3D点云变压器(3DPCT)和一个编码器解码器结构。具体而言,3DPCT具有一个层次编码器,该编码器包含两个用于分类任务的局部全球双重注意模块(分段任务的三个模块),每个模块都包含一个局部特征聚合(LFA)块和全局特征学习( GFL)块。 GFL块是双重的自我注意事项,既有在点上的自我注意力,又可以提高特征提取。此外,在LFA中,为更好地利用了提取的本地信息,设计了一种新颖的点自我发明模型,称为点斑点自我注意力(PPSA)。在分类和分割数据集上都评估了性能,其中包含合成数据和现实世界数据。广泛的实验表明,所提出的方法在分类和分割任务上都达到了最新的结果。
translated by 谷歌翻译
变压器一直是自然语言处理(NLP)和计算机视觉(CV)革命的核心。 NLP和CV的显着成功启发了探索变压器在点云处理中的使用。但是,变压器如何应对点云的不规则性和无序性质?变压器对于不同的3D表示(例如,基于点或体素)的合适性如何?各种3D处理任务的变压器有多大的能力?截至目前,仍然没有对这些问题的研究进行系统的调查。我们第一次为3D点云分析提供了越来越受欢迎的变压器的全面概述。我们首先介绍变压器体系结构的理论,并在2D/3D字段中审查其应用程序。然后,我们提出三种不同的分类法(即实现 - 数据表示和基于任务),它们可以从多个角度对当前的基于变压器的方法进行分类。此外,我们介绍了研究3D中自我注意机制的变异和改进的结果。为了证明变压器在点云分析中的优势,我们提供了基于各种变压器的分类,分割和对象检测方法的全面比较。最后,我们建议三个潜在的研究方向,为3D变压器的开发提供福利参考。
translated by 谷歌翻译
目前对语言理解(SLU)的研究重大仅限于简单的设置:基于纯文本的SLU,它将用户话语为输入并生成其相应的语义帧(例如,意图和插槽)。不幸的是,当话语是语义模糊的话语时,这种简单的设置可能无法在复杂的真实情景中工作,这不能通过基于文本的SLU模型来实现的。在本文中,我们首先介绍了一种新的和重要任务,基于个人资料的口语语言理解(ProSlu),这需要不仅依赖于纯文本的模型,而且需要支持的资料配置文件,以预测正确的意图和插槽。为此,我们进一步引入了一个具有超过5K的大规模的汉语数据集及其相应的支持简档信息(知识图(kg),用户配置文件(向上),上下文意识(CA))。此外,我们还评估了多个最先进的基线模型,并探索多级知识适配器,以有效地结合资料信息。实验结果表明,当话语是语义模糊的,我们所提出的框架可以有效地融合了句子级意图检测和令牌级槽填充的支持信息,所以所有现有的基于文本的SLU模型都无法工作。最后,我们总结了关键挑战,为未来方向提供了新的观点,希望促进研究。
translated by 谷歌翻译
为了解决控制循环的耦合问题和多输入多输出(MIMO)PID控制系统中的自适应参数调谐问题,基于深度加强学习(RL)和Lyapunov-提出了一种自适应LSAC-PID算法本文基于奖励塑造。对于复杂和未知的移动机器人控制环境,首先呈现了基于RL的MIMO PID混合控制策略。根据移动机器人的动态信息和环境反馈,RL代理可以实时输出最佳MIMO PID参数,而不知道数学模型和解耦多个控制回路。然后,提高RL的收敛速度和移动机器人的稳定性,基于Lyapunov理论和基于潜在的奖励整形方法提出了一种基于Lyapunov的奖励塑形软演员 - 评论仪(LSAC)算法。算法的收敛性和最优性在于软政策迭代的策略评估和改进步骤。此外,对于线路跟随机器人,改进了该区域生长方法,以适应叉和环境干扰的影响。通过比较,测试和交叉验证,仿真和实际实验结果均显示出所提出的LSAC-PID调谐算法的良好性能。
translated by 谷歌翻译
Despite the remarkable progress of image captioning, existing captioners typically lack the controllable capability to generate desired image captions, e.g., describing the image in a rough or detailed manner, in a factual or emotional view, etc. In this paper, we show that a unified model is qualified to perform well in diverse domains and freely switch among multiple styles. Such a controllable capability is achieved by embedding the prompt learning into the image captioning framework. To be specific, we design a set of prompts to fine-tune the pre-trained image captioner. These prompts allow the model to absorb stylized data from different domains for joint training, without performance degradation in each domain. Furthermore, we optimize the prompts with learnable vectors in the continuous word embedding space, avoiding the heuristic prompt engineering and meanwhile exhibiting superior performance. In the inference stage, our model is able to generate desired stylized captions by choosing the corresponding prompts. Extensive experiments verify the controllable capability of the proposed method. Notably, we achieve outstanding performance on two diverse image captioning benchmarks including COCO Karpathy split and TextCaps using a unified model.
translated by 谷歌翻译
Recent mainstream weakly-supervised semantic segmentation (WSSS) approaches mainly relies on image-level classification learning, which has limited representation capacity. In this paper, we propose a novel semantic learning based framework, named SLAMs (Semantic Learning based Activation Map), for WSSS.
translated by 谷歌翻译
科学文献是高质量的语料库,支持大量自然语言处理(NLP)研究。但是,现有数据集围绕英语,这限制了中国科学NLP的发展。在这项工作中,我们提出了CSL,这是一个大规模的中国科学文献数据集,其中包含396K论文的标题,摘要,关键字和学术领域。据我们所知,CSL是中文中的第一个科学文档数据集。 CSL可以用作中国语料库。同样,该半结构化数据是一种自然注释,可以构成许多监督的NLP任务。基于CSL,我们提出了一个基准,以评估跨科学领域任务的模型的性能,即摘要,关键字生成和文本分类。我们分析了现有文本到文本模型在评估任务上的行为,并揭示了中国科学NLP任务的挑战,该任务为未来的研究提供了宝贵的参考。数据和代码可在https://github.com/ydli-ai/csl上找到
translated by 谷歌翻译
胸部X射线(CXR)中准确的异常定位可以使各种胸部疾病的临床诊断受益。但是,病变水平的注释只能由经验丰富的放射科医生进行,这是乏味且耗时的,因此很难获得。这种情况导致难以开发CXR的完全监督异常定位系统。在这方面,我们建议通过一个弱半监督的策略来训练CXR异常本地化框架,称为“超越阶级”(PBC),该策略(PBC)使用了少数带有病变级别边界框的完全注释的CXR,并通过广泛的弱化的样品和大量的带有注释的样品。点。这样的点注释设置可以通过边缘注释成本提供弱实例级信息,以实现异常定位。尤其是,我们的PBC背后的核心思想是学习从点注释到边界框的强大而准确的映射,以根据注释点的差异。为此,提出了一个正则化项,即多点的一致性,它驱动模型从相同异常内的不同点注释中生成一致的边界框。此外,还提出了一种被称为对称的一致性的自学,也提出了从弱注释的数据中深入利用有用的信息来实现异常定位。 RSNA和VINDR-CXR数据集的实验结果证明了该方法的有效性。当使用少于20%的盒子级标签进行训练时,与当前的最新方法相比,我们的PBC可以在MAP中提高〜5的改进(即点DETR)。代码可从https://github.com/haozheliu-st/point-beyond-class获得。
translated by 谷歌翻译
传统的像素图像攻击算法对防御算法的鲁棒性不佳,即应用防御算法时的攻击强度急剧下降。尽管生成对抗网络(GAN)可以通过综合更有意义的纹理模式来部分解决此问题,但主要限制是现有生成器只能生成特定比例的图像。在本文中,我们提出了一种基于无规模的攻击算法,该算法将全球具有语义上有意义的对抗模式综合到具有任意尺度的图像。我们的生成攻击方法始终优于各种攻击设置上的最新方法,即所提出的方法在很大程度上降低了各种图像分类,对象检测和实例分段算法在不同的高级防御方法下的性能。
translated by 谷歌翻译