Generative models for learning combinatorial structures have transformative impacts in many applications. However, existing approaches fail to offer efficient and accurate learning results. Because of the highly intractable nature of the gradient estimation of the learning objective subject to combinatorial constraints. Existing gradient estimation methods would easily run into exponential time/memory space, or incur huge estimation errors due to improper approximation. We develop NEural Lovasz Sampler (Nelson), a neural network based on Lov\'asz Local Lemma (LLL). We show it guarantees to generate samples satisfying combinatorial constraints from the distribution of the constrained Markov Random Fields model (MRF) under certain conditions. We further present a fully differentiable contrastive-divergence-based learning framework on constrained MRF (Nelson-CD). Meanwhile, Nelson-CD being fully differentiable allows us to take advantage of the parallel computing power of GPUs, resulting in great efficiency. Experimental results on three real-world combinatorial problems reveal that Nelson learns to generate 100% valid structures. In comparison, baselines either time out on large-size data sets or fail to generate valid structures, whereas Nelson scales much better with problem size. In addition, Nelson outperforms baselines in various learning metrics, such as log-likelihood and MAP scores.
translated by 谷歌翻译
This paper studies the challenging two-view 3D reconstruction in a rigorous sparse-view configuration, which is suffering from insufficient correspondences in the input image pairs for camera pose estimation. We present a novel Neural One-PlanE RANSAC framework (termed NOPE-SAC in short) that exerts excellent capability to learn one-plane pose hypotheses from 3D plane correspondences. Building on the top of a siamese plane detection network, our NOPE-SAC first generates putative plane correspondences with a coarse initial pose. It then feeds the learned 3D plane parameters of correspondences into shared MLPs to estimate the one-plane camera pose hypotheses, which are subsequently reweighed in a RANSAC manner to obtain the final camera pose. Because the neural one-plane pose minimizes the number of plane correspondences for adaptive pose hypotheses generation, it enables stable pose voting and reliable pose refinement in a few plane correspondences for the sparse-view inputs. In the experiments, we demonstrate that our NOPE-SAC significantly improves the camera pose estimation for the two-view inputs with severe viewpoint changes, setting several new state-of-the-art performances on two challenging benchmarks, i.e., MatterPort3D and ScanNet, for sparse-view 3D reconstruction. The source code is released at https://github.com/IceTTTb/NopeSAC for reproducible research.
translated by 谷歌翻译
有效的缩放和灵活的任务接口使大型语言模型能够在许多任务中表现出色。帕利(Pali)根据视觉和文本输入生成文本,并使用该界面以许多语言执行许多视觉,语言和多模式任务。为了训练帕利,我们利用了大型的编码器语言模型和视觉变压器(VITS)。这使我们能够利用其现有能力,并利用培训它们的大量成本。我们发现,视觉和语言组成部分的联合缩放很重要。由于现有的语言变压器比其视觉对应物要大得多,因此我们训练迄今为止最大的VIT(VIT-E),以量化甚至大容量视觉模型的好处。为了训练Pali,我们基于一个新的图像文本训练集,其中包含10B图像和文本,以100多种语言来创建大型的多语言组合。帕利(Pali)在多个视觉和语言任务(例如字幕,视觉问题,索方式,场景文本理解)中实现了最新的,同时保留了简单,模块化和可扩展的设计。
translated by 谷歌翻译
近年来,行业和学术界的深度学习(DL)迅速发展。但是,找到DL模型的最佳超参数通常需要高计算成本和人类专业知识。为了减轻上述问题,进化计算(EC)作为一种强大的启发式搜索方法显示出在DL模型的自动设计中,所谓的进化深度学习(EDL)具有重要优势。本文旨在从自动化机器学习(AUTOML)的角度分析EDL。具体来说,我们首先从机器学习和EC阐明EDL,并将EDL视为优化问题。根据DL管道的说法,我们系统地介绍了EDL方法,从功能工程,模型生成到具有新的分类法的模型部署(即,什么以及如何发展/优化),专注于解决方案表示和搜索范式的讨论通过EC处理优化问题。最后,提出了关键的应用程序,开放问题以及可能有希望的未来研究线。这项调查回顾了EDL的最新发展,并为EDL的开发提供了有见地的指南。
translated by 谷歌翻译
本文研究了整体3D线框感知的问题(HOW-3D),这是一项新的任务,即从单视2D图像中感知可见的3D线框和无形的任务。由于无法在单个视图中直接观察到对象的非前面表面,因此在HOF-3D中估算了非视线(NLOS)几何形状,这是一个根本上具有挑战性的问题,并且在计算机视觉中仍然保持开放。我们通过提出一个ABC-HOW基准来研究HOF-3D的问题,该基准是在带有12K单视图像和相应的整体3D线框模型的CAD模型之上创建的。借助我们的大规模ABC高音基准,我们提出了一种新颖的深空间格式塔(DSG)模型,以学习可见的连接和线段作为基础,然后从可见的线索中推断出NLOS 3D结构,并遵循遵循可见的线索。人类视觉系统。在我们的实验中,我们证明了我们的DSG模型在从单视图图像中推断出整体3D线框方面表现出色。与强大的基线方法相比,我们的DSG模型在单视图像中检测不可见线的几何形状方面优于先前的线框探测器,甚至与先前的艺术相比,这些艺术是对重建3D线框的输入的效力。
translated by 谷歌翻译
本文通过解决面具可逆性问题来研究建筑物多边形映射的问题,该问题导致了基于学习的方法的预测蒙版和多边形之间的显着性能差距。我们通过利用分层监督(底部级顶点,中层线段和高级区域口罩)来解决此问题,并提出了一种新颖用于建筑物多边形映射的面具。结果,我们表明,学识渊博的可逆建筑面具占据了深度卷积神经网络的所有优点,用于建筑物的高绩效多边形映射。在实验中,我们评估了对Aicrowd和Inria的两个公共基准的方法。在Aicrowd数据集上,我们提出的方法对AP,APBOUNDARY和POLIS的指标获得了一致改进。对于Inria数据集,我们提出的方法还获得了IOU和准确性指标的竞争结果。型号和源代码可在https://github.com/sarahwxu上获得。
translated by 谷歌翻译
零拍语义分割(ZS3)旨在分割培训中没有看到的新型类别。现有的作品将zs3作为像素级零拍分类问题,以及在仅使用文本预先培训的语言模型的帮助下,将语义知识从看见课程转移到未知一体。虽然简单,像素级ZS3配方显示了集成具有图像文本对预训练的视觉语言模型的有限能力,并且目前展示了愿景任务的巨大潜力。灵感来自观察,人类经常执行段级语义标签,我们建议将zs3分成两个子任务:1)将像素分组到段中的类别不可知的分组任务。 2)段的零拍分类任务。前者的子任务不涉及类别信息,可以直接传输到未安装类的组像素。后一子任务在段级执行,提供了一种自然的方式,可以利用预先培训的大规模视觉模型,用于ZS3的图像文本对(例如剪辑)。基于解耦制剂,我们提出了一种简单且有效的零拍语义分割模型,称为ZegFormer,这优于大幅边缘的先前方法,例如,Pascal VOC的35分和3分在Coco-在宫颈课程方面的东西。代码将在https://github.com/dingjiansw101/zegformer发布。
translated by 谷歌翻译
单眼3D对象检测旨在将3D边界框本地化在输入单个2D图像中。这是一个非常具有挑战性的问题并且仍然是开放的,特别是当没有额外的信息时(例如,深度,激光雷达和/或多帧)可以利用训练和/或推理。本文提出了一种对单眼3D对象检测的简单而有效的配方,而无需利用任何额外信息。它介绍了从训练中学习单眼背景的单片方法,以帮助单目3D对象检测。关键的想法是,通过图像中的对象的注释3D边界框,在训练中有一个丰富的良好的投影2D监控信号,例如投影的角键点及其相关联的偏移向量相对于中心在2D边界框中,应该被开发为培训中的辅助任务。拟议的单一的单一的机动在衡量标准理论中的克拉默 - Wold定理在高水平下。在实施中,它利用非常简单的端到端设计来证明学习辅助单眼环境的有效性,它由三个组成组成:基于深度神经网络(DNN)的特征骨干,一些回归头部分支用于学习用于3D边界框预测的基本参数,以及用于学习辅助上下文的许多回归头分支。在训练之后,丢弃辅助上下文回归分支以获得更好的推理效率。在实验中,拟议的单一组在基蒂基准(汽车,Pedestrain和骑自行车的人)中测试。它超越了汽车类别上排行榜中的所有现有技术,并在准确性方面获得了行人和骑自行车者的可比性。由于简单的设计,所提出的单控制方法在比较中获得了38.7 FP的最快推断速度
translated by 谷歌翻译
在过去的十年中,由于航空图像引起的物体的规模和取向的巨大变化,对象检测已经实现了自然图像中的显着进展,而不是在空中图像中。更重要的是,缺乏大规模基准已成为在航拍图像(ODAI)中对物体检测发展的主要障碍。在本文中,我们在航空图像(DotA)中的物体检测和用于ODAI的综合基线的大规模数据集。所提出的DOTA数据集包含1,793,658个对象实例,18个类别的面向边界盒注释从11,268个航拍图像中收集。基于该大规模和注释的数据集,我们构建了具有超过70个配置的10个最先进算法的基线,其中已经评估了每个模型的速度和精度性能。此外,我们为ODAI提供了一个代码库,并建立一个评估不同算法的网站。以前在Dota上运行的挑战吸引了全球1300多队。我们认为,扩大的大型DOTA数据集,广泛的基线,代码库和挑战可以促进鲁棒算法的设计和对空中图像对象检测问题的可再现研究。
translated by 谷歌翻译
量化城市道路网络(URNS)不同部分的拓扑相似之处使我们能够了解城市成长模式。虽然传统统计信息提供有关单个节点的直接邻居或整个网络的特性的有用信息,但是这种度量无法衡量考虑本地间接邻域关系的子网的相似性。在这项研究中,我们提出了一种基于图的机器学习方法来量化子网的空间均匀性。我们将该方法应用于全球30个城市的11,790个城市道路网络,以衡量每个城市和不同城市的道路网络的空间均匀性。我们发现,城市内的空间均匀性与诸如GDP和人口增长的社会经济地位高度相关。此外,通过在不同城市转移模型获得的城市间空间均匀性揭示了欧洲的城市网络结构的城市网络结构间相似性,传递给美国和亚洲的城市。可以利用使用我们的方法揭示的社会经济发展和城市间相似性,以了解和转移城市的洞察力。它还使我们能够解决城市政策挑战,包括在迅速城市化地区的网络规划,并打击区域不平等。
translated by 谷歌翻译