Uniapaired 3D对象完成旨在从不完整的输入预测完整的3D形状,而不知道训练期间完整和不完整的形状之间的对应关系。为了构建两个数据模式之间的对应关系,之前的方法通常会应用逆势训练以匹配编码器提取的全局形状特征。然而,这忽略了解码器的金字塔层次结构中嵌入的多级几何信息之间的对应关系,这使得先前的方法难以产生高质量的完整形状。为了解决这个问题,我们提出了一种新颖的未配对形状完成网络,命名为MFM-Net,使用多级特征匹配,将几何对应的学习分解成在点云解码器中的分层生成过程中的多级。具体地,MFM-Net采用双路径架构,以在解码器的不同层中建立多个特征匹配信道,然后与对手学习组合以合并来自完整和不完整的模式的特征的分布。此外,还应用了一种改进来增强细节。结果,MFM-Net利用更全面的理解来在本地到全局角度下建立完整和不完整的形状之间的几何对应,这使得能够更详细的几何推断来产生高质量的完整形状。我们对多个数据集进行全面实验,结果表明,我们的方法优于以前的未配对点云完成方法,具有大的余量。
translated by 谷歌翻译
自我关注已成为最近网络架构的一个组成部分,例如,统治主要图像和视频基准的变压器。这是因为自我关注可以灵活地模拟远程信息。出于同样的原因,研究人员最近使尝试恢复多层Perceptron(MLP)并提出一些类似MLP的架构,显示出极大的潜力。然而,当前的MLP样架构不擅长捕获本地细节并缺乏对图像和/或视频中的核心细节的逐步了解。为了克服这个问题,我们提出了一种新颖的Morphmlp架构,该架构专注于在低级层处捕获本地细节,同时逐渐改变,以专注于高级层的长期建模。具体地,我们设计一个完全连接的层,称为Morphfc,两个可变过滤器,其沿着高度和宽度尺寸逐渐地发展其接收领域。更有趣的是,我们建议灵活地调整视频域中的Morphfc层。为了我们最好的知识,我们是第一个创建类似MLP骨干的用于学习视频表示的骨干。最后,我们对图像分类,语义分割和视频分类进行了广泛的实验。我们的Morphmlp,如此自我关注的自由骨干,可以与基于自我关注的型号一样强大。
translated by 谷歌翻译
神经辐射场(NERF)在代表3D场景和合成新颖视图中示出了很大的潜力,但是在推理阶段的NERF的计算开销仍然很重。为了减轻负担,我们进入了NERF的粗细分,分层采样过程,并指出粗阶段可以被我们命名神经样本场的轻量级模块代替。所提出的示例场地图光线进入样本分布,可以将其转换为点坐标并进料到radiance字段以进行体积渲染。整体框架被命名为Neusample。我们在现实合成360 $ ^ {\ circ} $和真正的前瞻性,两个流行的3D场景集上进行实验,并表明Neusample在享受更快推理速度时比NERF实现更好的渲染质量。Neusample进一步压缩,以提出的样品场提取方法朝向质量和速度之间的更好的权衡。
translated by 谷歌翻译
我们证明了深度神经网络(NNS)的损失景观的一般嵌入原理,其解除了NNS的损失景观的层次结构,即NN的损失景观包含所有较窄NN的所有关键点。通过构建一类临界嵌入来获得该结果,该临界嵌入物将较窄的Nn的任何临界点映射到具有相同输出功能的目标Nn的临界点。通过发现广泛的一般兼容性嵌入式,我们提供了嵌入来自NNS的关键点的关键子多种尺寸的总估计。我们进一步证明了任何临界嵌入的Irfreversiblility属性,即临界点的Hessian矩阵的负/零/正小叶值的数量可能增加,但由于NN通过嵌入越来越宽,因此从未减少。使用一般兼容的临界嵌入的特殊实现,我们证明了一个严格的必要条件,以便是一个完全不变的临界点,从未成为任何关键嵌入的严格鞍端。该结果暗示宽NNS中严格鞍点的常见,这可能是在实践中广泛观察到的宽NNS易于优化的重要原因。
translated by 谷歌翻译
以前的纵向图像生成方法大致分为两类:2D GAN和3D感知的GAN。 2D GAN可以产生高保真肖像,但具有低视图一致性。 3D感知GaN方法可以维护查看一致性,但它们所生成的图像不是本地可编辑的。为了克服这些限制,我们提出了FENERF,一个可以生成查看一致和本地可编辑的纵向图像的3D感知生成器。我们的方法使用两个解耦潜码,以在具有共享几何体的空间对齐的3D卷中生成相应的面部语义和纹理。从这种底层3D表示中受益,FENERF可以联合渲染边界对齐的图像和语义掩码,并使用语义掩模通过GaN反转编辑3D音量。我们进一步示出了可以从广泛可用的单手套图像和语义面膜对中学习这种3D表示。此外,我们揭示了联合学习语义和纹理有助于产生更精细的几何形状。我们的实验表明FENERF在各种面部编辑任务中优于最先进的方法。
translated by 谷歌翻译
视频帧插值(VFI)目前是一个非常活跃的研究主题,具有跨越计算机视觉,后期生产和视频编码的应用程序。 VFI可能非常具有挑战性,特别是在含有大型运动,闭塞或动态纹理的序列中,现有方法未能提供感知鲁棒的插值性能。在这种情况下,我们基于时空多流量架构介绍了一种基于深度学习的VFI方法ST-MFNET。 ST-MFNET采用新的多尺度多流量预测器来估计多对一的中间流动,它们与传统的一对一光流组合以捕获大型和复杂的运动。为了增强各种纹理的插值性能,还用于在扩展时间窗口上模拟内容动态的3D CNN。此外,ST-MFNET已经在ST-GaN框架内培训,该框架最初是为纹理合成而开发的,目的是进一步提高感知插值质量。我们的方法已被全面评估 - 与十四个最先进的VFI算法相比 - 清楚地展示了ST-MFNET在各种和代表性测试数据集上始终如一地优于这些基准,在PSNR中具有显着的收益,用于案件在PSNR中高达1.09dB包括大型运动和动态纹理。项目页面:https://danielism97.github.io/st-mfnet。
translated by 谷歌翻译
尽管图表表现学习有重大进展,但很少关注更实用的持续学习场景,其中新类节点(例如,引文网络中的新研究领域或共同购买网络中的新型产品)及其相关的节点及其相关的边缘持续出现,导致以前的类别造成灾难性的遗忘。现有方法忽略丰富的拓扑信息或牺牲稳定性的可塑性。为此,我们呈现分层原型网络(HPN),其以原型的形式提取不同级别的抽象知识,以表示连续扩展的图形。具体地,我们首先利用一组原子特征提取器(AUE)来编码元素属性信息和目标节点的拓扑结构。接下来,我们开发HPN以自适应地选择相关的余处,并表示具有三个级别的原型的每个节点。以这种方式,每当给出新的节点类别时,只有每个级别的相关的原件和原型都将被激活和精制,而另一些级别仍然不间断以保持对现有节点的性能。从理论上讲,我们首先表明HPN的内存消耗无论遇到多少任务如何。然后,我们证明在温和的约束下,学习新任务不会改变与先前数据匹配的原型,从而消除了遗忘问题。通过五个数据集的实验支持理论结果,表明HPN不仅优于最先进的基线技术,而且还消耗了相对较少的内存。
translated by 谷歌翻译
正规化可以通过引入感应偏压来减轻训练与推理之间的泛化差距。现有的作品已经提出了各种视角的各种归纳偏见。然而,据我们所知,他们都没有探讨各种神经元的类依赖性响应分布的视角探讨归纳偏见。在本文中,我们对这种分布的特征进行了大量分析。基于分析结果,我们阐明了神经元稳定性假设:具有与同一类别的情况相似的神经元导致更好的概括。因此,我们提出了一种新的正则化方法,称为神经元稳定正则化,以减少神经元内响应方差。我们在多层的Perceptron,卷积神经网络和图形神经网络上进行了广泛的实验,具有不同域的流行基准数据集,这表明我们的神经元稳定性正则化始终优于Vanilla版本的模型,具有显着增益和低额外的开销。
translated by 谷歌翻译
人工智能和神经科学都深受互动。人工神经网络(ANNS)是一种多功能的工具,用于研究腹侧视觉流中的神经表现,以及神经科学中的知识返回激发了ANN模型,以提高任务的性能。但是,如何将这两个方向合并到统一模型中较少研究。这里,我们提出了一种混合模型,称为深度自动编码器,具有神经响应(DAE-NR),其将来自视觉皮质的信息包含在ANN中,以实现生物和人造神经元之间的更好的图像重建和更高的神经表示相似性。具体地,对小鼠脑和DAE-NR的输入相同的视觉刺激(即自然图像)。 DAE-NR共同学会通过映射函数将编码器网络的特定层映射到腹侧视觉流中的生物神经响应,并通过解码器重建视觉输入。我们的实验表明,如果只有在联合学习,DAE-NRS可以(i)可以提高图像重建的性能,并且(ii)增加生物神经元和人工神经元之间的代表性相似性。 DAE-NR提供了一种关于计算机视觉和视觉神经科学集成的新视角。
translated by 谷歌翻译
神经辐射场(NERF)最近获得了令人印象深刻的新型观点综合能力的普及。本文研究了幻觉的nerf问题:即,在一组旅游形象的一天的不同时间恢复现实的nerf。现有解决方案采用NERF具有可控外观嵌入,以在各种条件下呈现新颖的视图,但不能以看不见的外观呈现视图 - 一致的图像。为了解决这个问题,我们提出了一种用于构建幻觉的nerf的端到端框架,称为H-nerf。具体地,我们提出了一种外观幻觉模块,以处理时变的外观,并将其转移到新颖的视图中。考虑到旅游图像的复杂遮挡,引入防遮挡模块以准确地分解静态受体的静态对象。合成数据和真实旅游照片集合的实验结果表明,我们的方法不仅可以幻觉所需的外观,还可以从不同视图中呈现无遮挡图像。项目和补充材料可在https://rover-xingyu.github.io/h-nerf/上获得。
translated by 谷歌翻译