最近,稀疏培训已成为有希望的范式,可在边缘设备上有效地深入学习。当前的研究主要致力于通过进一步增加模型稀疏性来降低培训成本。但是,增加的稀疏性并不总是理想的,因为它不可避免地会在极高的稀疏度下引入严重的准确性降解。本文打算探索其他可能的方向,以有效,有效地降低稀疏培训成本,同时保持准确性。为此,我们研究了两种技术,即层冻结和数据筛分。首先,层冻结方法在密集的模型训练和微调方面取得了成功,但在稀疏训练域中从未采用过。然而,稀疏训练的独特特征可能会阻碍层冻结技术的结合。因此,我们分析了在稀疏培训中使用层冻结技术的可行性和潜力,并发现它有可能节省大量培训成本。其次,我们提出了一种用于数据集有效培训的数据筛分方法,该方法通过确保在整个培训过程中仅使用部分数据集来进一步降低培训成本。我们表明,这两种技术都可以很好地整合到稀疏训练算法中,以形成一个通用框架,我们将其配置为SPFDE。我们的广泛实验表明,SPFDE可以显着降低培训成本,同时从三个维度中保留准确性:重量稀疏性,层冻结和数据集筛分。
translated by 谷歌翻译
创建和编辑3D对象的形状和颜色需要巨大的人类努力和专业知识。与3D接口中的直​​接操作相比,诸如草图和涂鸦之类的2D交互对用户通常更自然和直观。在本文中,我们提出了一个通用的多模式生成模型,该模型通过共享的潜在空间耦合2D模式和隐式3D表示。通过提出的模型,通过简单地通过潜在空间从特定的2D控制模式传播编辑,可以实现多功能3D生成和操纵。例如,通过绘制草图来编辑3D形状,通过绘画颜色在2D渲染上重新色彩,或者在一个或几个参考图像中生成特定类别的3D形状。与先前的作品不同,我们的模型不需要每个编辑任务进行重新训练或微调,并且在概念上也很简单,易于实现,对输入域移动的强大,并且可以在部分2D输入中进行多样化的重建。我们在灰度线草图和渲染颜色图像的两种代表性2D模态上评估了我们的框架,并证明我们的方法可以通过以下2D模态实现各种形状的操纵和生成任务。
translated by 谷歌翻译
生成建模的最新趋势是从2D图像收集中构建3D感知发电机。为了诱导3D偏见,此类模型通常依赖于体积渲染,这在高分辨率下使用昂贵。在过去的几个月中,似乎有10幅以上的作品通过训练单独的2D解码器来修饰由纯3D发电机产生的低分辨率图像(或功能张量)来解决这个扩展问题。但是该解决方案是有代价的:它不仅打破了多视图的一致性(即相机移动时的形状和纹理变化),而且还以低忠诚度学习了几何形状。在这项工作中,我们表明可以通过遵循完全不同的途径,简单地训练模型贴片,以获得具有SOTA图像质量的高分辨率3D发电机。我们通过两种方式重新审视和改进此优化方案。首先,我们设计了一个位置和比例意识的歧视器来处理不同比例和空间位置的贴片。其次,我们基于退火beta分布来修改补丁采样策略,以稳定训练并加速收敛。所得的模型名为Epigraf,是一个高效,高分辨率的纯3D发电机,我们在四个数据集(在这项工作中引入两个)上测试了它,价格为$ 256^2 $和$ 512^2 $分辨率。它获得了最先进的图像质量,高保真的几何形状,并比基于UpSampler的同行训练$ {\ oft} 2.5 \ times $ $。项目网站:https://universome.github.io/epigraf。
translated by 谷歌翻译
扩散概率模型(DPM)由于其有希望的结果和对跨模式合成的支持,已成为有条件产生的流行方法。条件合成中的一个关键逃亡者是在条件输入和生成的输出之间实现高对应。大多数现有方法通过将先验纳入变异下限中,隐含地学习了这种关系。在这项工作中,我们采用了另一条路线 - 我们通过使用对比度学习来最大化其共同信息来增强输入输出连接。为此,我们引入了有条件的离散对比扩散(CDCD)损失,并设计了两种对比扩散机制,以有效地将其纳入剥离过程中。我们通过将CDCD与传统的变分目标联系起来来制定CDCD。我们证明了我们的方法在三种多种多样的条件合成任务中的评估中的功效:舞蹈到音乐的生成,文本到图像综合和班级调节图像综合。在每个方面,我们达到最新的或更高的合成质量并提高输入输出对应关系。此外,提出的方法改善了扩散模型的收敛性,将所需扩散步骤的数量减少了两个基准的35%以上,从而大大提高了推理速度。
translated by 谷歌翻译
视觉变压器(VIT)显示了计算机视觉任务的快速进步,在各种基准上取得了令人鼓舞的结果。但是,由于参数和模型设计的数量大量,例如注意机制,基于VIT的模型通常比轻型卷积网络慢。因此,为实时应用程序部署VIT特别具有挑战性,尤其是在资源受限的硬件(例如移动设备)上。最近的努力试图通过网络体系结构搜索或与Mobilenet块的混合设计来降低VIT的计算复杂性,但推理速度仍然不令人满意。这导致了一个重要的问题:变形金刚在获得高性能的同时可以像Mobilenet一样快吗?为了回答这一点,我们首先重新审视基于VIT的模型中使用的网络体系结构和运营商,并确定效率低下的设计。然后,我们引入了一个尺寸一致的纯变压器(无需Mobilenet块)作为设计范式。最后,我们执行以延迟驱动的缩小,以获取一系列称为EfficityFormer的最终模型。广泛的实验表明,在移动设备上的性能和速度方面,有效形式的优势。我们最快的型号,EfficientFormer-L1,在ImagEnet-1k上获得$ 79.2 \%$ $ TOP-1的准确性,仅$ 1.6 $ MS推理潜伏期在iPhone 12上(与Coreml一起编译),该{运行速度与MobileNetV2 $ \ Times Times 1.4 $( $ 1.6 $ MS,$ 74.7 \%$ top-1),我们最大的型号EfficientFormer-L7,获得了$ 83.3 \%$精度,仅$ 7.0 $ MS延迟。我们的工作证明,正确设计的变压器可以在移动设备上达到极低的延迟,同时保持高性能。
translated by 谷歌翻译
我们提出了Dance2Music-Gan(D2M-GAN),这是一种新颖的对抗性多模式框架,生成了以舞蹈视频为条件的复杂音乐样品。我们提出的框架将舞蹈视频框架和人体运动作为输入,并学会生成合理伴随相应输入的音乐样本。与大多数现有的有条件音乐的作品不同,它们使用符号音频表示(例如MIDI)生成特定类型的单乐器声音,并且通常依赖于预定义的音乐合成器,在这项工作中,我们以复杂风格(例如,例如,通过使用量化矢量(VQ)音频表示形式,并利用其符号和连续对应物的高抽象能力来利用POP,BREAKING等)。通过在多个数据集上执行广泛的实验,并遵循全面的评估协议,我们评估了建议针对替代方案的生成品质。所达到的定量结果衡量音乐一致性,击败了对应和音乐多样性,证明了我们提出的方法的有效性。最后但并非最不重要的一点是,我们策划了一个充满挑战的野生式Tiktok视频的舞蹈音乐数据集,我们用来进一步证明我们在现实世界中的方法的功效 - 我们希望它能作为起点进行相关的未来研究。
translated by 谷歌翻译
关于神经辐射场(NERF)的最新研究爆炸表明,具有神经网络的复杂场面具有令人鼓舞的潜力。 NERF的一个主要缺点是它的推理时间:渲染单像素需要数百次查询NERF网络。为了解决它,现有的努力主要试图减少所需的采样点的数量。但是,迭代采样的问题仍然存在。另一方面,神经光场(NELF)在新型视图合成中对NERF提出了更直接的表示 - 像素的渲染相当于一个单一的正向通行,而无需射线建设。在这项工作中,我们提出了一个深层残留的MLP网络(88层),以有效地学习光场。我们展示了成功学习这种深度NELF网络的关键,就是拥有足够的数据,我们通过数据蒸馏从预训练的NERF模型中转移知识。在合成和现实世界场景上进行的广泛实验表明,我们方法比其他对应算法的优点。在合成场景中,我们实现了26-35倍的拖鞋(每个摄像头射线)和28-31倍的运行时加速,同时提供了比NERF的呈现质量(1.4-2.8 dB的平均PSNR改善),而无需任何定制的并行性要求。
translated by 谷歌翻译
我们提出了一种新的方法来获取来自在线图像集合的对象表示,从具有不同摄像机,照明和背景的照片捕获任意物体的高质量几何形状和材料属性。这使得各种以各种对象渲染应用诸如新颖的综合,致密和协调的背景组合物,从疯狂的内部输入。使用多级方法延伸神经辐射场,首先推断表面几何形状并优化粗估计的初始相机参数,同时利用粗糙的前景对象掩模来提高训练效率和几何质量。我们还介绍了一种强大的正常估计技术,其消除了几何噪声的效果,同时保持了重要细节。最后,我们提取表面材料特性和环境照明,以球形谐波表示,具有处理瞬态元素的延伸部,例如,锋利的阴影。这些组件的结合导致高度模块化和有效的对象采集框架。广泛的评估和比较证明了我们在捕获高质量的几何形状和外观特性方面的方法,可用于渲染应用。
translated by 谷歌翻译
视频显示连续事件,但大多数 - 如果不是全部 - 视频综合框架及时酌情对待它们。在这项工作中,我们想到它们应该是连续的信号的视频,并扩展神经表示的范式以构建连续时间视频发生器。为此,我们首先通过位置嵌入的镜头设计连续运动表示。然后,我们探讨了在非常稀疏的视频上培训问题,并证明可以使用每剪辑的少数为2帧来学习良好的发电机。之后,我们重新思考传统的图像和视频鉴别器对并建议使用基于Hypernetwork的一个。这降低了培训成本并向发电机提供了更丰富的学习信号,使得可以首次直接培训1024美元$ ^ 2 $视频。我们在Stylegan2的顶部构建我们的模型,并且在同样的分辨率下培训速度速度较高5%,同时实现几乎相同的图像质量。此外,我们的潜在空间具有类似的属性,使我们的方法可以及时传播的空间操纵。我们可以在任意高帧速率下任意长的视频,而现有工作努力以固定速率生成均匀的64个帧。我们的模型在四个现代256美元$ ^ 2 $视频综合基准测试中实现最先进的结果,一个1024美元$ ^ 2 $ state。视频和源代码在项目网站上提供:https://universome.github.io/stylegan-v。
translated by 谷歌翻译
Image animation consists of generating a video sequence so that an object in a source image is animated according to the motion of a driving video. Our framework addresses this problem without using any annotation or prior information about the specific object to animate. Once trained on a set of videos depicting objects of the same category (e.g. faces, human bodies), our method can be applied to any object of this class. To achieve this, we decouple appearance and motion information using a self-supervised formulation. To support complex motions, we use a representation consisting of a set of learned keypoints along with their local affine transformations. A generator network models occlusions arising during target motions and combines the appearance extracted from the source image and the motion derived from the driving video. Our framework scores best on diverse benchmarks and on a variety of object categories. Our source code is publicly available 1 .
translated by 谷歌翻译