给定的用户输入的自动生成平面图在建筑设计中具有很大的潜力,最近在计算机视觉社区中探索了。但是,大多数现有方法以栅格化图像格式合成平面图,这些图像很难编辑或自定义。在本文中,我们旨在将平面图合成为1-D向量的序列,从而简化用户的互动和设计自定义。为了产生高保真矢量化的平面图,我们提出了一个新颖的两阶段框架,包括草稿阶段和多轮精炼阶段。在第一阶段,我们使用图形卷积网络(GCN)编码用户的房间连接图输入,然后应用自回归变压器网络以生成初始平面图。为了抛光最初的设计并生成更具视觉吸引力的平面图,我们进一步提出了一个由GCN和变压器网络组成的新颖的全景精炼网络(PRN)。 PRN将初始生成的序列作为输入,并完善了平面图设计,同时鼓励我们提出的几何损失来鼓励正确的房间连接。我们已经对现实世界平面图数据集进行了广泛的实验,结果表明,我们的方法在不同的设置和评估指标下实现了最先进的性能。
translated by 谷歌翻译
创建视觉布局是图形设计的重要步骤。当我们寻求比例和多样化的视觉设计时,这种布局的自动生成很重要。在自动布局的作品上,专注于无条件生成,其中模型在忽略用户需要进行特定问题的同时生成布局。为了提前有条件布局,我们介绍了BLT,双向布局变压器。 BLT与自回归解码不同,因为它首先生成满足用户输入的布局,然后迭代地改进布局。我们验证了具有各种保真度量的多个基准测试模型。我们的结果表明,最先进的布局变压器模型的两个主要进步。首先,我们的模型授权布局变压器来满足可控布局的制作。其次,我们的模型削减了自回归解码的线性推理时间达到恒定的复杂度,从而在推理时间以制定布局实现4x-10x的加速。
translated by 谷歌翻译
布局设计在许多应用中无处不在,例如建筑/城市规划等,涉及漫长的迭代设计过程。最近,深度学习已被利用以通过图像生成自动生成布局,从而表明了使设计师摆脱艰辛的常规的巨大潜力。尽管自动生成可以极大地提高生产率,但设计师的投入无疑至关重要。理想的AI辅助设计工具应自动化重复的例程,同时接受人类的指导并提供智能/主动的建议。但是,在主要是端到端方法的现有方法中,将使人类参与循环的能力在很大程度上被忽略了。为此,我们提出了一种新的人类生成模型Iplan,它能够自动生成布局,但在整个过程中也与设计师进行交互,使人类和AI能够逐渐协调一个粗略的想法进入最终设计。在不同的数据集上对IPLAN进行了评估,并将其与现有方法进行了比较。结果表明,IPLAN在制作与人类设计师的相似布局方面具有高忠诚,在接受设计师的投入和相应地提供设计建议方面具有极大的灵活性,并且在面对看不见的设计任务和有限的培训数据时,具有强大的概括性。
translated by 谷歌翻译
布局生成是计算机视觉中的一项新任务,它结合了对象本地化和美学评估中的挑战,在广告,海报和幻灯片设计中广泛使用。准确而愉快的布局应考虑布局元素内的内域关系以及布局元素与图像之间的域间关系。但是,大多数以前的方法只是专注于图像 - 范围 - 不平衡的布局生成,而无需利用图像中复杂的视觉信息。为此,我们探索了一个名为“图像条件的布局生成”的新颖范式,该范式旨在以语义连贯的方式将文本叠加层添加到图像中。具体而言,我们提出了一个图像条件的变分变压器(ICVT),该变形变压器(ICVT)在图像中生成各种布局。首先,采用自我注意的机制来对布局元素内的上下文关系进行建模,而交叉注意机制用于融合条件图像的视觉信息。随后,我们将它们作为有条件变异自动编码器(CVAE)的构件,表现出吸引人的多样性。其次,为了减轻布局元素域和视觉域之间的差距,我们设计了一个几何对齐模块,其中图像的几何信息与布局表示形式对齐。此外,我们构建了一个大规模的广告海报布局设计数据集,并具有精致的布局和显着图。实验结果表明,我们的模型可以在图像的非侵入区域中自适应生成布局,从而产生和谐的布局设计。
translated by 谷歌翻译
创意素描或涂鸦是一种表达活动,在那里绘制了想象力和以前看不见的日常视觉物体的描述。创意草图图像生成是一个具有挑战性的视觉问题,任务是生成不同但现实的创意草图,拥有视觉世界对象的看不见的构成。在这里,我们提出了一种新颖的粗待精细的两级框架,DooDleformer,将创意草图生成问题分解成粗略草图组合物的创建,然后在草图中掺入细节。我们介绍了图形感知的变压器编码器,可有效地捕获了不同身体部位之间的全局动态以及局部静态结构关系。为确保所生成的创意草图的多样性,我们介绍了一个概率粗略草图解码器,该解码器明确地模拟了要绘制的每个草图身体部位的变化。在两个创意素描数据集上进行实验:创意鸟类和创意生物。我们的定性,定量和以人为主的评估表明,DooDleformer在两个数据集中表现出最先进的,屈服于现实和多样化的创意草图。在创意生物上,DooDleformer通过最先进的FR`chet unception距离(FID)来实现25的绝对增益。我们还展示了DoodleFormer对创意草图生成和草图完成的相关申请的有效性。
translated by 谷歌翻译
为了满足各种用户需求,近年来对图形布局的不同子任务进行了深入探讨。现有研究通常提出具有不同投入输出格式,专用模型体系结构和不同学习方法的任务特异性方法。但是,这些专业的方法使得适应了看不见的子任务,阻碍了不同子任务之间的知识共享,并且与设计通用模型的趋势背道而驰。在这项工作中,我们提出了Unilayout,该Unilayout以统一的方式处理图形布局生成的不同子任务。首先,我们统一地表示子任务的各种输入和输出作为令牌序列。然后,基于统一的序列格式,我们自然利用具有不同子任务的变压器的相同的编码器架构。此外,基于上述两种统一,我们进一步开发了一个同时支持所有子任务的单个模型。在两个公共数据集上的实验表明,尽管简单,单层虽然明显优于先前的特定于任务的方法。
translated by 谷歌翻译
我们提出了第一个统一的框架Unicolor,以支持多种方式的着色,包括无条件和条件性的框架,例如中风,示例,文本,甚至是它们的混合。我们没有为每种类型的条件学习单独的模型,而是引入了一个两阶段的着色框架,以将各种条件纳入单个模型。在第一阶段,多模式条件将转换为提示点的共同表示。特别是,我们提出了一种基于剪辑的新方法,将文本转换为提示点。在第二阶段,我们提出了一个基于变压器的网络,该网络由Chroma-vqgan和Hybrid-Transformer组成,以生成以提示点为条件的多样化和高质量的着色结果。定性和定量比较都表明,我们的方法在每种控制方式中都优于最先进的方法,并进一步实现了以前不可行的多模式着色。此外,我们设计了一个交互式界面,显示了我们统一框架在实际用法中的有效性,包括自动着色,混合控制着色,局部再现和迭代色彩编辑。我们的代码和型号可在https://luckyhzt.github.io/unicolor上找到。
translated by 谷歌翻译
Generating realistic 3D worlds occupied by moving humans has many applications in games, architecture, and synthetic data creation. But generating such scenes is expensive and labor intensive. Recent work generates human poses and motions given a 3D scene. Here, we take the opposite approach and generate 3D indoor scenes given 3D human motion. Such motions can come from archival motion capture or from IMU sensors worn on the body, effectively turning human movement in a "scanner" of the 3D world. Intuitively, human movement indicates the free-space in a room and human contact indicates surfaces or objects that support activities such as sitting, lying or touching. We propose MIME (Mining Interaction and Movement to infer 3D Environments), which is a generative model of indoor scenes that produces furniture layouts that are consistent with the human movement. MIME uses an auto-regressive transformer architecture that takes the already generated objects in the scene as well as the human motion as input, and outputs the next plausible object. To train MIME, we build a dataset by populating the 3D FRONT scene dataset with 3D humans. Our experiments show that MIME produces more diverse and plausible 3D scenes than a recent generative scene method that does not know about human movement. Code and data will be available for research at https://mime.is.tue.mpg.de.
translated by 谷歌翻译
Astounding results from Transformer models on natural language tasks have intrigued the vision community to study their application to computer vision problems. Among their salient benefits, Transformers enable modeling long dependencies between input sequence elements and support parallel processing of sequence as compared to recurrent networks e.g., Long short-term memory (LSTM). Different from convolutional networks, Transformers require minimal inductive biases for their design and are naturally suited as set-functions. Furthermore, the straightforward design of Transformers allows processing multiple modalities (e.g., images, videos, text and speech) using similar processing blocks and demonstrates excellent scalability to very large capacity networks and huge datasets. These strengths have led to exciting progress on a number of vision tasks using Transformer networks. This survey aims to provide a comprehensive overview of the Transformer models in the computer vision discipline. We start with an introduction to fundamental concepts behind the success of Transformers i.e., self-attention, large-scale pre-training, and bidirectional feature encoding. We then cover extensive applications of transformers in vision including popular recognition tasks (e.g., image classification, object detection, action recognition, and segmentation), generative modeling, multi-modal tasks (e.g., visual-question answering, visual reasoning, and visual grounding), video processing (e.g., activity recognition, video forecasting), low-level vision (e.g., image super-resolution, image enhancement, and colorization) and 3D analysis (e.g., point cloud classification and segmentation). We compare the respective advantages and limitations of popular techniques both in terms of architectural design and their experimental value. Finally, we provide an analysis on open research directions and possible future works. We hope this effort will ignite further interest in the community to solve current challenges towards the application of transformer models in computer vision.
translated by 谷歌翻译
平面设计在人们的日常生活中普遍存在。对于图形设计,最耗时的任务是在接口中铺设各种组件。重复的手动布局设计将浪费大量的专业图形设计师。现有模板通常是基本的,不适合大多数设计,降低效率和限制创造力。本文实现了变压器模型和条件变形Autiachoder(CVAE)到图形设计布局生成任务。它提出了一个名为layoutt-cvae的端到端图形设计布局生成模型。我们还提出了基于元素解剖和特征的解剖策略,并将新的图形设计原则和相似性指标引入了模型中,这显着提高了深度模型的可控性和可解释性。与现有的最先进模型相比,我们由我们生成的布局在许多指标上表现更好。
translated by 谷歌翻译
提供和渲染室内场景一直是室内设计的一项长期任务,艺术家为空间创建概念设计,建立3D模型的空间,装饰,然后执行渲染。尽管任务很重要,但它很乏味,需要巨大的努力。在本文中,我们引入了一个特定领域的室内场景图像合成的新问题,即神经场景装饰。鉴于一张空的室内空间的照片以及用户确定的布局列表,我们旨在合成具有所需的家具和装饰的相同空间的新图像。神经场景装饰可用于以简单而有效的方式创建概念室内设计。我们解决这个研究问题的尝试是一种新颖的场景生成体系结构,它将空的场景和对象布局转化为现实的场景照片。我们通过将其与有条件图像合成基线进行比较,以定性和定量的方式将其进行比较,证明了我们提出的方法的性能。我们进行广泛的实验,以进一步验证我们生成的场景的合理性和美学。我们的实现可在\ url {https://github.com/hkust-vgd/neural_scene_decoration}获得。
translated by 谷歌翻译
We address 2D floorplan reconstruction from 3D scans. Existing approaches typically employ heuristically designed multi-stage pipelines. Instead, we formulate floorplan reconstruction as a single-stage structured prediction task: find a variable-size set of polygons, which in turn are variable-length sequences of ordered vertices. To solve it we develop a novel Transformer architecture that generates polygons of multiple rooms in parallel, in a holistic manner without hand-crafted intermediate stages. The model features two-level queries for polygons and corners, and includes polygon matching to make the network end-to-end trainable. Our method achieves a new state-of-the-art for two challenging datasets, Structured3D and SceneCAD, along with significantly faster inference than previous methods. Moreover, it can readily be extended to predict additional information, i.e., semantic room types and architectural elements like doors and windows. Our code and models will be available at: https://github.com/ywyue/RoomFormer.
translated by 谷歌翻译
我们提出了一种新颖的生成方法,用于创建城市规模的路线。虽然最近方法的输出在覆盖区域的大小和多样性的尺寸上都受到限制,但我们的框架可产生大量的高质量遍历图,这些图形由顶点和边缘组成,这些边缘和边缘代表了覆盖400平方公里或更多的完整街道网络。尽管我们的框架可以处理一般的2D嵌入式图,但由于培训数据的广泛可用性,我们专注于街道网络。我们的生成框架由一个变压器解码器组成,该解码器以滑动窗口方式用于预测索引字段,每个索引编码本地邻域的表示形式。每个索引的语义由上下文向量的字典确定。然后将索引字段输入到解码器以计算街道图。使用OpenStreetMap的数据,我们在整个城市甚至在美国等大国中训练我们的系统,并最终将其与最新技术进行比较。
translated by 谷歌翻译
从语义视觉知识中生成图像是一项具有挑战性的任务,与诸如类标签或文本描述之类的替代方案相比,以复杂,微妙和明确的方式调节合成过程很有用。尽管存在以语义表示为条件的生成方法,但除了对对象之间的约束规范外,它们没有提供控制生成过程的方法。例如,迭代生成或修改图像通过手动添加特定项目的可能性是所需的属性,据我们所知,文献尚未在文献中得到充分研究。在这项工作中,我们提出了一种基于变压器的方法,该方法以场景图为条件,相反,该方法针对最近的基于变压器的方法,还采用解码器来自动构成图像,从而使合成过程更有效和可控。提出的体系结构由三个模块组成:1)图形卷积网络,以编码输入图的关系; 2)编码器码头变压器,可自动加入构成输出图像; 3)一种自动编码器,用于生成用作变压器每个生成步骤的输入/输出的表示。在CIFAR10和MNIST图像上获得的结果表明,我们的模型能够满足由场景图定义的语义约束,并通过考虑到所需目标的用户提供的部分渲染,以模拟场景中的视觉对象之间的关系。
translated by 谷歌翻译
This paper presents an extreme floorplan reconstruction task, a new benchmark for the task, and a neural architecture as a solution. Given a partial floorplan reconstruction inferred or curated from panorama images, the task is to reconstruct a complete floorplan including invisible architectural structures. The proposed neural network 1) encodes an input partial floorplan into a set of latent vectors by convolutional neural networks and a Transformer; and 2) reconstructs an entire floorplan while hallucinating invisible rooms and doors by cascading Transformer decoders. Qualitative and quantitative evaluations demonstrate effectiveness of our approach over the benchmark of 701 houses, outperforming the state-of-the-art reconstruction techniques. We will share our code, models, and data.
translated by 谷歌翻译
深度学习技术导致了通用对象检测领域的显着突破,近年来产生了很多场景理解的任务。由于其强大的语义表示和应用于场景理解,场景图一直是研究的焦点。场景图生成(SGG)是指自动将图像映射到语义结构场景图中的任务,这需要正确标记检测到的对象及其关系。虽然这是一项具有挑战性的任务,但社区已经提出了许多SGG方法并取得了良好的效果。在本文中,我们对深度学习技术带来了近期成就的全面调查。我们审查了138个代表作品,涵盖了不同的输入方式,并系统地将现有的基于图像的SGG方法从特征提取和融合的角度进行了综述。我们试图通过全面的方式对现有的视觉关系检测方法进行连接和系统化现有的视觉关系检测方法,概述和解释SGG的机制和策略。最后,我们通过深入讨论当前存在的问题和未来的研究方向来完成这项调查。本调查将帮助读者更好地了解当前的研究状况和想法。
translated by 谷歌翻译
现实的3D室内场景数据集在计算机视觉,场景理解,自主导航和3D重建中启用了最近的最近进展。但是,现有数据集的规模,多样性和可定制性有限,并且扫描和注释更多的耗时和昂贵。幸运的是,组合者在我们方面:现有3D场景数据集有足够的个别房间,如果有一种方法可以将它们重新组合成新的布局。在本文中,我们提出了从现有3D房间生成新型3D平面图的任务。我们确定了这个问题的三个子任务:生成2D布局,检索兼容3D房间,以及3D房间的变形,以适应布局。然后,我们讨论解决问题的不同策略,设计两个代表性管道:一个使用可用的2D楼层计划,以指导3D房间的选择和变形;另一个学习检索一组兼容的3D房间,并将它们与新颖的布局相结合。我们设计一组指标,可评估所生成的结果与三个子任务中的每一个,并显示不同的方法在这些子任务上交易性能。最后,我们调查从生成的3D场景中受益的下游任务,并讨论选择最适合这些任务的需求的方法。
translated by 谷歌翻译
3D场景从点云层的理解对各种机器人应用起着重要作用。遗憾的是,目前的最先进的方法使用单独的神经网络进行对象检测或房间布局估计等不同任务。这种方案具有两个限制:1)存储和运行多个网络以用于不同任务的网络对于典型的机器人平台昂贵。 2)忽略单独输出的内在结构,潜在地侵犯。为此,我们使用点云输入提出了第一变压器架构,其同时预测3D对象和布局。与估计布局关键点或边缘的现有方法不同,我们将单独参数化为一组四边形。因此,所提出的架构被称为p(oint)q(UAD)-Transformer。除了新颖的四边形表示之外,我们提出了一种量身定制的物理约束损失功能,阻碍对象布局干扰。公共基准SCANNet上的定量和定性评估表明,所提出的PQ变换器成功地共同解析了3D对象和布局,以准实时(8.91 FPS)速率运行而无需效率为导向的优化。此外,新的物理限制损失可以改善强力基线,房间布局的F1分数明显促进了37.9%至57.9%。
translated by 谷歌翻译
素描是一种常用于创新过程的自然和有效的视觉通信介质。深度学习模型的最新发展急剧改善了理解和生成视觉内容的机器能力。令人兴奋的发展领域探讨了用于模拟人类草图的深度学习方法,开设创造性应用的机会。本章介绍了开发深受学习驱动的创造性支持工具的三个基本步骤,这些步骤消耗和生成草图:1)在草图和移动用户界面之间生成新配对数据集的数据收集工作; 2)基于草图的用户界面检索系统,适用于最先进的计算机视觉技术; 3)一个对话的草图系统,支持基于自然语言的草图/批判创作过程的新颖互动。在本章中,我们在深度学习和人机互动社区中进行了对相关的事先工作,详细记录了数据收集过程和系统的架构,目前提供了定性和定量结果,并绘制了几个未来研究的景观在这个令人兴奋的地区的方向。
translated by 谷歌翻译
最近,视频变压器在视频理解方面取得了巨大成功,超过了CNN性能;然而,现有的视频变换器模型不会明确地模拟对象,尽管对象对于识别操作至关重要。在这项工作中,我们呈现对象区域视频变换器(Orvit),一个\ emph {对象为中心}方法,它与直接包含对象表示的块扩展视频变压器图层。关键的想法是从早期层开始融合以对象形式的表示,并将它们传播到变压器层中,从而影响整个网络的时空表示。我们的orvit块由两个对象级流组成:外观和动态。在外观流中,“对象区域关注”模块在修补程序上应用自我关注和\ emph {对象区域}。以这种方式,Visual对象区域与统一修补程序令牌交互,并通过上下文化对象信息来丰富它们。我们通过单独的“对象 - 动态模块”进一步模型对象动态,捕获轨迹交互,并显示如何集成两个流。我们在四个任务和五个数据集中评估我们的模型:在某事物中的某些问题和几次射击动作识别,以及在AVA上的某些时空动作检测,以及在某种东西上的标准动作识别 - 某种东西 - 东西,潜水48和EPIC-Kitchen100。我们在考虑的所有任务和数据集中展示了强大的性能改进,展示了将对象表示的模型的值集成到变压器体系结构中。对于代码和预用模型,请访问项目页面\ url {https://roeiherz.github.io/orvit/}
translated by 谷歌翻译