访问大型和多样化的计算机辅助设计(CAD)图纸对于开发符号发现算法至关重要。在本文中,我们展示了地板平面图,这是一个大型现实世界CAD绘图数据集,包含超过10,000楼的计划,从住宅到商业建筑。 DataSet中的CAD图形都表示为矢量图形,这使我们能够提供30个对象类别的线粒化注释。通过这种注释配备,我们介绍了Panoptic符号发现的任务,这需要点发现可数件事的实例,也需要发现不可数的东西的语义。旨在解决这项任务,我们通过将图形卷积网络(GCNS)与卷积神经网络(CNNS)组合来提出一种新颖的方法,其捕获非欧几里德和欧几里德特征,并且可以训练结束到底。所提出的CNN-GCN方法在语义符号发现的任务上实现了最先进的(SOTA)性能,并帮助我们为Panoptic符号发现任务构建基线网络。我们的贡献是三倍:1)据我们所知,所呈现的CAD图形数据集是其第一个; 2)Panoptic Symbol Spotting Task考虑了事物实例的发现和语义作为一个识别问题; 3)我们基于新型CNN-GCN方法向Panoptic Symbol Spotting Task提供了基线解决方案,该方法在语义符号斑点上实现了SOTA性能。我们认为,这些贡献将促进相关领域的研究。
translated by 谷歌翻译
Egocentric 3D human pose estimation with a single head-mounted fisheye camera has recently attracted attention due to its numerous applications in virtual and augmented reality. Existing methods still struggle in challenging poses where the human body is highly occluded or is closely interacting with the scene. To address this issue, we propose a scene-aware egocentric pose estimation method that guides the prediction of the egocentric pose with scene constraints. To this end, we propose an egocentric depth estimation network to predict the scene depth map from a wide-view egocentric fisheye camera while mitigating the occlusion of the human body with a depth-inpainting network. Next, we propose a scene-aware pose estimation network that projects the 2D image features and estimated depth map of the scene into a voxel space and regresses the 3D pose with a V2V network. The voxel-based feature representation provides the direct geometric connection between 2D image features and scene geometry, and further facilitates the V2V network to constrain the predicted pose based on the estimated scene geometry. To enable the training of the aforementioned networks, we also generated a synthetic dataset, called EgoGTA, and an in-the-wild dataset based on EgoPW, called EgoPW-Scene. The experimental results of our new evaluation sequences show that the predicted 3D egocentric poses are accurate and physically plausible in terms of human-scene interaction, demonstrating that our method outperforms the state-of-the-art methods both quantitatively and qualitatively.
translated by 谷歌翻译
Recently, evolutionary multitasking (EMT) has been successfully used in the field of high-dimensional classification. However, the generation of multiple tasks in the existing EMT-based feature selection (FS) methods is relatively simple, using only the Relief-F method to collect related features with similar importance into one task, which cannot provide more diversified tasks for knowledge transfer. Thus, this paper devises a new EMT algorithm for FS in high-dimensional classification, which first adopts different filtering methods to produce multiple tasks and then modifies a competitive swarm optimizer to efficiently solve these related tasks via knowledge transfer. First, a diversified multiple task generation method is designed based on multiple filtering methods, which generates several relevant low-dimensional FS tasks by eliminating irrelevant features. In this way, useful knowledge for solving simple and relevant tasks can be transferred to simplify and speed up the solution of the original high-dimensional FS task. Then, a competitive swarm optimizer is modified to simultaneously solve these relevant FS tasks by transferring useful knowledge among them. Numerous empirical results demonstrate that the proposed EMT-based FS method can obtain a better feature subset than several state-of-the-art FS methods on eighteen high-dimensional datasets.
translated by 谷歌翻译
Recent methods for neural surface representation and rendering, for example NeuS, have demonstrated remarkably high-quality reconstruction of static scenes. However, the training of NeuS takes an extremely long time (8 hours), which makes it almost impossible to apply them to dynamic scenes with thousands of frames. We propose a fast neural surface reconstruction approach, called NeuS2, which achieves two orders of magnitude improvement in terms of acceleration without compromising reconstruction quality. To accelerate the training process, we integrate multi-resolution hash encodings into a neural surface representation and implement our whole algorithm in CUDA. We also present a lightweight calculation of second-order derivatives tailored to our networks (i.e., ReLU-based MLPs), which achieves a factor two speed up. To further stabilize training, a progressive learning strategy is proposed to optimize multi-resolution hash encodings from coarse to fine. In addition, we extend our method for reconstructing dynamic scenes with an incremental training strategy. Our experiments on various datasets demonstrate that NeuS2 significantly outperforms the state-of-the-arts in both surface reconstruction accuracy and training speed. The video is available at https://vcai.mpi-inf.mpg.de/projects/NeuS2/ .
translated by 谷歌翻译
我们提出了一种新方法,以从多个人的一组稀疏的多视图图像中学习通用的动画神经人类表示。学到的表示形式可用于合成一组稀疏相机的任意人的新型视图图像,并通过用户的姿势控制进一步对它们进行动画。尽管现有方法可以推广到新人,也可以通过用户控制合成动画,但它们都不能同时实现。我们将这一成就归因于用于共享多人人类模型的3D代理,并将不同姿势的空间的扭曲延伸到共享的规范姿势空间,在该空间中,我们在其中学习神经领域并预测个人和人物 - 姿势依赖性变形以及从输入图像中提取的特征的外观。为了应对身体形状,姿势和衣服变形的较大变化的复杂性,我们以分离的几何形状和外观设计神经人类模型。此外,我们在空间点和3D代理的表面点上都利用图像特征来预测人和姿势依赖性特性。实验表明,我们的方法在这两个任务上的最先进都大大优于最先进的方法。该视频和代码可在https://talegqz.github.io/neural_novel_actor上获得。
translated by 谷歌翻译
本文提出了一个逐步连接的光场网络(Prolif),以构成复杂的前向场景的新观点。扩散编码一个4D光场,该场允许在一个训练步骤中渲染大量射线,以实现图像或贴片级损失。直接从图像中学习神经光场很难呈现多视图一致的图像,因为它对基础3D几何形状的不了解。为了解决这个问题,我们提出了一种渐进培训计划和正则化损失,以推断训练过程中的基础几何形状,这两者都会实现多视图一致性,从而极大地提高了渲染质量。实验表明,与香草神经光场相比,我们的方法能够实现明显更好的渲染质量,并且与挑战性的LLFF数据集和闪亮对象数据集的类似NERF的渲染方法相当。此外,我们证明了与LPIP的损失更好的兼容性,以实现与不同的光条件和剪辑损失的稳健性,以控制场景的渲染方式。项目页面:https://totoro97.github.io/projects/prolif。
translated by 谷歌翻译
在许多计算机视觉和图形应用程序中,从2D图像重建3D室内场景是一项重要任务。这项任务中的一个主要挑战是,典型的室内场景中的无纹理区域使现有方法难以产生令人满意的重建结果。我们提出了一种名为Neuris的新方法,以高质量地重建室内场景。 Neuris的关键思想是将估计的室内场景正常整合为神经渲染框架中的先验,以重建大型无纹理形状,并且重要的是,以适应性的方式进行此操作,以便重建不规则的形状,并具有很好的细节。 。具体而言,我们通过检查优化过程中重建的多视图一致性来评估正常先验的忠诚。只有被接受为忠实的正常先验才能用于3D重建,通常发生在平滑形状的区域中,可能具有弱质地。但是,对于那些具有小物体或薄结构的区域,普通先验通常不可靠,我们只能依靠输入图像的视觉特征,因为此类区域通常包含相对较丰富的视觉特征(例如,阴影变化和边界轮廓)。广泛的实验表明,在重建质量方面,Neuris明显优于最先进的方法。
translated by 谷歌翻译
在互动过程中了解人类的意图一直是一个持久的主题,它在人类机器人互动,虚拟现实和监视中都有应用。在这项研究中,我们专注于与大型每日物体的全身相互作用,并旨在预测对人类对象相互作用的顺序观察,以预测对象和人类的未来状态。由于没有这样的数据集专用于与大型每日物体的全身相互作用,因此我们收集了一个大规模的数据集,其中包含数千种用于培训和评估目的的交互。我们还观察到,对象的固有物理属性对于对象运动预测很有用,因此设计一组对象动态描述符以编码此类内部属性。我们将对象动态描述符视为一种新模式,并提出图形神经网络HO-GCN,以将运动数据和动态描述符为预测任务。我们显示了所提出的网络,消耗动态描述符可以实现最先进的预测结果,并帮助网络更好地推广到看不见的对象。我们还证明了预测结果对人类机器人的合作有用。
translated by 谷歌翻译
2D图像是对用几何形状,材料和照明组件描绘的3D物理世界的观察。从2D图像(也称为逆渲染)中恢复这些基本的内在组件通常需要有监督的设置,并从多个观点和照明条件中收集的配对图像,这是资源要求的。在这项工作中,我们提出了GAN2X,这是一种无监督的逆渲染方法,仅使用未配对的图像进行训练。与以前主要集中在3D形状的形状 - 从GAN的方法不同,我们首次尝试通过利用GAN生成的伪配对数据来恢复非陆层材料的性能。为了实现精确的逆渲染,我们设计了一种镜面感知的神经表面表示,该表示连续建模几何和材料特性。采用基于阴影的改进技术来进一步提炼目标图像中的信息并恢复更多细节。实验表明,GAN2X可以准确地将2D图像分解为不同对象类别的3D形状,反照率和镜面特性,并实现无监督的单视图3D面部重建的最先进性能。我们还显示了其在下游任务中的应用,包括真实的图像编辑和将2D GAN抬高到分解3D GAN。
translated by 谷歌翻译
由于基础物理学的复杂性以及捕获中的复杂遮挡和照明,从稀疏多视频RGB视频中对流体的高保真重建仍然是一个巨大的挑战。现有的解决方案要么假设障碍和照明知识,要么仅专注于没有障碍物或复杂照明的简单流体场景,因此不适合具有未知照明或任意障碍的现实场景。我们提出了第一种通过从稀疏视频的端到端优化中利用管理物理(即,navier -stokes方程)来重建动态流体的第一种方法,而无需采取照明条件,几何信息或边界条件作为输入。我们使用神经网络作为流体的密度和速度解决方案函数以及静态对象的辐射场函数提供连续的时空场景表示。通过将静态和动态含量分开的混合体系结构,与静态障碍物的流体相互作用首次重建,而没有其他几何输入或人类标记。通过用物理知识的深度学习来增强随时间变化的神经辐射场,我们的方法受益于对图像和物理先验的监督。为了从稀疏视图中实现强大的优化,我们引入了逐层增长策略,以逐步提高网络容量。使用具有新的正则化项的逐步增长的模型,我们设法在不拟合的情况下解除了辐射场中的密度彩色歧义。在避免了次优速度之前,将预验证的密度到速度流体模型借用了,该数据低估了涡度,但可以微不足道地满足物理方程。我们的方法在一组代表性的合成和真实流动捕获方面表现出具有放松的约束和强大的灵活性的高质量结果。
translated by 谷歌翻译