Text-guided diffusion models have shown superior performance in image/video generation and editing. While few explorations have been performed in 3D scenarios. In this paper, we discuss three fundamental and interesting problems on this topic. First, we equip text-guided diffusion models to achieve $\textbf{3D-consistent generation}$. Specifically, we integrate a NeRF-like neural field to generate low-resolution coarse results for a given camera view. Such results can provide 3D priors as condition information for the following diffusion process. During denoising diffusion, we further enhance the 3D consistency by modeling cross-view correspondences with a novel two-stream (corresponding to two different views) asynchronous diffusion process. Second, we study $\textbf{3D local editing}$ and propose a two-step solution that can generate 360$^{\circ}$ manipulated results by editing an object from a single view. Step 1, we propose to perform 2D local editing by blending the predicted noises. Step 2, we conduct a noise-to-text inversion process that maps 2D blended noises into the view-independent text embedding space. Once the corresponding text embedding is obtained, 360$^{\circ}$ images can be generated. Last but not least, we extend our model to perform \textbf{one-shot novel view synthesis} by fine-tuning on a single image, firstly showing the potential of leveraging text guidance for novel view synthesis. Extensive experiments and various applications show the prowess of our 3DDesigner. The project page is available at https://3ddesigner-diffusion.github.io/.
translated by 谷歌翻译
The image captioning task is typically realized by an auto-regressive method that decodes the text tokens one by one. We present a diffusion-based captioning model, dubbed the name DDCap, to allow more decoding flexibility. Unlike image generation, where the output is continuous and redundant with a fixed length, texts in image captions are categorical and short with varied lengths. Therefore, naively applying the discrete diffusion model to text decoding does not work well, as shown in our experiments. To address the performance gap, we propose several key techniques including best-first inference, concentrated attention mask, text length prediction, and image-free training. On COCO without additional caption pre-training, it achieves a CIDEr score of 117.8, which is +5.0 higher than the auto-regressive baseline with the same architecture in the controlled setting. It also performs +26.8 higher CIDEr score than the auto-regressive baseline (230.3 v.s.203.5) on a caption infilling task. With 4M vision-language pre-training images and the base-sized model, we reach a CIDEr score of 125.1 on COCO, which is competitive to the best well-developed auto-regressive frameworks. The code is available at https://github.com/buxiangzhiren/DDCap.
translated by 谷歌翻译
未校准的光度立体声(UPS)由于未知光带来的固有歧义而具有挑战性。现有的解决方案通过将反射率明确关联到光条件或以监督方式解决光条件来减轻歧义。本文建立了光线线索和光估计之间的隐含关系,并以无监督的方式解决了UPS。关键思想是将反射率表示为四个神经内在字段,即\ ie,位置,光,镜头和阴影,基于神经光场与镜面反射和铸造阴影的光线线索隐含相关联。神经内在字段的无监督,关节优化可以不受训练数据偏差和累积误差,并完全利用所有观察到的像素值的UPS值。我们的方法在常规和具有挑战性的设置下,在公共和自我收集的数据集上获得了优于最先进的UPS方法的优势。该代码将很快发布。
translated by 谷歌翻译
最近,在蒙版的图像建模中取得了重大进展,以赶上掩盖语言建模。但是,与NLP中的单词不同,图像的语义分解仍然使视觉和语言之间的掩盖自动编码(MAE)不同。在本文中,我们探讨了单词的潜在视觉类似物,即语义部分,并通过提出语义引导的掩盖策略将语义信息集成到MAE的训练过程中。与广泛采用的随机掩蔽相比,我们的掩蔽策略可以逐渐指导网络学习各种信息,即从部分内部模式到零件之间的关系。特别是,我们通过两个步骤实现这一目标。 1)语义部分学习:我们设计了一种自制的部分学习方法,通过利用和完善基于VIT的编码器的多头注意来获得语义部分。 2)语义引导的MAE(SEMMAE)训练:我们设计了一种掩盖策略,该策略从掩盖每个部分中的一部分贴片到掩盖图像中的一部分(整个)部分。关于各种视觉任务的广泛实验表明,Semmae可以通过集成语义信息来学习更好的图像表示。特别是,Semmae在Imagenet-1k上达到了84.5%的微调精度,这使香草Mae的表现优于1.4%。在语义细分和细粒度的识别任务中,Semmae还带来了重大改进并产生最先进的性能。
translated by 谷歌翻译
In the Metaverse, the physical space and the virtual space co-exist, and interact simultaneously. While the physical space is virtually enhanced with information, the virtual space is continuously refreshed with real-time, real-world information. To allow users to process and manipulate information seamlessly between the real and digital spaces, novel technologies must be developed. These include smart interfaces, new augmented realities, efficient storage and data management and dissemination techniques. In this paper, we first discuss some promising co-space applications. These applications offer opportunities that neither of the spaces can realize on its own. We then discuss challenges. Finally, we discuss and envision what are likely to be required from the database and system perspectives.
translated by 谷歌翻译
最近,由于其灵活和兼容的结构,软机器人技术已迅速成为一个新颖而有希望的研究领域。但是,更难得出这种软机器人的非线性动态模型。软操作器的差分运动学和动力学可以通过经典的Cosserat Rod理论配制为一组高度非线性的部分微分方程(PDE)。在这项工作中,我们提出了一种称为分段线性应变(PLS)的离散建模技术,以解决基于Cosserat的模型的PDE,该模型基于该模型的推导。为了验证所提出的cosserat模型的准确性,通过使用不同的离散方法模拟了重力下的锥形悬臂杆的静态模型。结果表明,PLS cosserat模型与现实世界软操作器的机械变形行为相媲美。最后,建立了该模型的参数识别方案,模拟以及实验验证表明,使用此方法可以以高精度识别模型物理参数。
translated by 谷歌翻译
虽然视觉变形金机在许多视觉任务中实现了骨干模型的优异性能,但大多数都打算捕获图像或窗口中所有令牌的全局关系,这会破坏2D结构中的补丁之间固有的空间和本地相关性。在本文中,我们介绍了一个名为SimVit的简单视觉变压器,将空间结构和本地信息合并到视觉变压器中。具体而言,我们引入多头中央自我关注(MCSA)而不是传统的多头自我关注以捕获高度局部关系。滑动窗口的引入有助于捕获空间结构。同时,SIMVIT从不同层提取多尺度分层特征以进行密集的预测任务。广泛的实验表明,SIMVIT作为各种图像处理任务的通用骨干模型是有效和高效的。特别是,我们的SIMVIT-MICRO只需要3.3M的参数,在Imagenet-1K数据集上达到71.1%的前1个精度,即现在是最小的尺寸视觉变压器模型。我们的代码将在https://github.com/cucasligang/simvit中提供。
translated by 谷歌翻译
在本文中,我们提出了一种强大的样本生成方案来构建信息性三联网。所提出的硬样品生成是一种两级合成框架,通过两个阶段的有效正和负样品发生器产生硬样品。第一阶段将锚定向对具有分段线性操作,通过巧妙地设计条件生成的对抗网络来提高产生的样本的质量,以降低模式崩溃的风险。第二阶段利用自适应反向度量约束来生成最终的硬样本。在几个基准数据集上进行广泛的实验,验证了我们的方法比现有的硬样生成算法达到卓越的性能。此外,我们还发现,我们建议的硬样品生成方法结合现有的三态挖掘策略可以进一步提高深度度量学习性能。
translated by 谷歌翻译
尽管在许多计算机视觉任务上具有卓越的性能,但深度卷积神经网络众所周知,在具有资源限制的设备上被压缩。大多数现有的网络修剪方法需要艰苦的人类努力和禁止的计算资源,特别是当约束改变时。当需要部署在各种设备上时,这实际上限制了模型压缩的应用。此外,现有的方法仍然受到缺失的理论指导挑战。在本文中,我们提出了一种信息理论启发的自动模型压缩策略。我们的方法背后的原理是信息瓶颈理论,即隐藏的表示应该彼此压缩信息。因此,我们在网络激活中介绍了标准化的Hilbert-Schmidt独立性标准(NHSIC),作为层重要性的稳定和广义指标。当给出某个资源约束时,我们将HSIC指示器与约束将架构搜索问题转换为具有二次约束的线性编程问题。这种问题很容易通过几秒钟的凸优化方法解决。我们还提供严格的证据,揭示优化归一化的HSIC同时最小化不同层之间的相互信息。没有任何搜索过程,我们的方法实现了与最先进的压缩算法相比的更好的压缩权衡。例如,通过Reset-50,我们达到了45.3%的杂志,在想象中有75.75前1个精度。代码是在https://github.com/mac-automl/itpruner/tree/master上的途径。
translated by 谷歌翻译
了解代理之间的复杂社交互动是轨迹预测的关键挑战。大多数现有方法考虑成对交通代理或在局域之间的相互作用,而相互作用的性质是无限的,涉及同时不确定的代理和非局部区域。此外,它们对不同类别的代理商来说,它们同样对待异质的交通代理,同时忽视人们在IFFerent类别的交通代理中的多种反应模式。为了解决这些问题,我们提出了一个简单但有效的无限邻域交互网络(UNIN),其预测多个类别中异构代理的轨迹。具体地,所提出的无限邻域交互模块同时产生相互作用涉及的所有代理的融合特征,其适用于任何数量的代理和任何范围的交互区域。同时,提出了一个分层图注意模块,以获取类别到类别的交互和代理到代理交互。最后,估计高斯混合模型的参数用于产生未来轨迹。基准数据集的广泛实验结果表明,通过最先进的方法对我们的方法进行了显着改进。
translated by 谷歌翻译