由于其各种潜在应用及其众多挑战,视频生成是机器学习中相对较新的,但流行的主题。视频生成中的当前方法为用户提供了很少或根本没有控制通过对生成视频中的对象被移动并位于每个帧的精确规范,即,用户无法明确控制每个对象如何视频应该移动。在本文中,我们提出了一种新颖的方法,该方法允许用户通过在这些对象上绘制边界框,然后在所需路径中移动这些框来移动所有数量的单个初始帧的对象。我们的模型利用两个AutoEncoders完全分解视频中的运动和内容信息,并实现与众所周知的基线和现有方法的结果相当。
translated by 谷歌翻译
我们引入分层可控的视频生成,在没有任何监督的情况下,将视频的初始帧分解为前景和背景层,用户可以通过简单地操纵前景掩模来控制视频生成过程。关键挑战是无监督的前景背景分离,这是模糊的,并且能够预测用户操作,可以访问未获得原始视频序列。我们通过提出两阶段学习程序来解决这些挑战。在第一阶段,随着丰富的损失和动态前景大小,我们学习如何将帧分离为前景和背景图层,并在这些图层上调节,如何使用VQ-VAE发生器生成下一帧。在第二阶段,我们通过将(参数化)控制从未来框架拟合(参数化)控制来进行该网络来预测对掩码的编辑。我们展示了该学习的有效性和更粒度的控制机制,同时说明了在两个基准数据集上的最先进的性能。我们提供了一个视频摘要以及HTTPS://gabriel-中的视频结果.Github.io/layered_controllable_video_generation
translated by 谷歌翻译
视频异常检测是现在计算机视觉中的热门研究主题之一,因为异常事件包含大量信息。异常是监控系统中的主要检测目标之一,通常需要实时行动。关于培训的标签数据的可用性(即,没有足够的标记数据进行异常),半监督异常检测方法最近获得了利益。本文介绍了该领域的研究人员,以新的视角,并评论了最近的基于深度学习的半监督视频异常检测方法,基于他们用于异常检测的共同策略。我们的目标是帮助研究人员开发更有效的视频异常检测方法。由于选择右深神经网络的选择对于这项任务的几个部分起着重要作用,首先准备了对DNN的快速比较审查。与以前的调查不同,DNN是从时空特征提取观点审查的,用于视频异常检测。这部分审查可以帮助本领域的研究人员选择合适的网络,以获取其方法的不同部分。此外,基于其检测策略,一些最先进的异常检测方法受到严格调查。审查提供了一种新颖,深入了解现有方法,并导致陈述这些方法的缺点,这可能是未来作品的提示。
translated by 谷歌翻译
视频生成是计算机愿景中的一个有趣问题。它非常受欢迎的数据增强,Move,AR / VR等特殊效果。随着深度学习的进步,已经提出了许多深入的生成模型来解决这项任务。这些深度生成模型提供了在线使用所有未标记的图像和视频,因为它可以使用无人监督的方式学习深度特征表示。这些模型还可以生成不同类型的图像,这对于可视应用具有很大的值。然而,生成视频将更具挑战性,因为我们不仅需要模型,不仅需要视频中的对象的外观,而且需要它们的时间运动。在这项工作中,我们会将视频中的任何帧分解为内容和姿势。我们首先使用预先训练的人的姿势检测从视频中提取姿势信息,并使用生成模型来基于内容代码和姿态代码来综合视频。
translated by 谷歌翻译
本文介绍了一个名为DTVNet的新型端到端动态时间流逝视频生成框架,以从归一化运动向量上的单个景观图像生成多样化的延期视频。所提出的DTVNET由两个子模块组成:\ EMPH {光学流编码器}(OFE)和\ EMPH {动态视频生成器}(DVG)。 OFE将一系列光学流程图映射到编码所生成视频的运动信息的\ Emph {归一化运动向量}。 DVG包含来自运动矢量和单个景观图像的运动和内容流。此外,它包含一个编码器,用于学习共享内容特征和解码器,以构造具有相应运动的视频帧。具体地,\ EMPH {运动流}介绍多个\ EMPH {自适应实例归一化}(Adain)层,以集成用于控制对象运动的多级运动信息。在测试阶段,基于仅一个输入图像,可以产生具有相同内容但具有相同运动信息但各种运动信息的视频。此外,我们提出了一个高分辨率的景区时间流逝视频数据集,命名为快速天空时间,以评估不同的方法,可以被视为高质量景观图像和视频生成任务的新基准。我们进一步对天空延时,海滩和快速天空数据集进行实验。结果证明了我们对最先进的方法产生高质量和各种动态视频的方法的优越性。
translated by 谷歌翻译
在计算机视觉和图形社区中,长期以来,现实的生成面部视频综合一直是追求。但是,现有的视频生成方法倾向于产生具有漂移的面部身份和不自然运动的低质量框架。为了应对这些挑战,我们提出了一个名为stylefacev的原则框架,该框架生产具有生动动作的高保真身份的面部视频。我们的核心洞察力是分解外观并构成信息,并在StyleGan3的潜在空间中重新组装它们,以产生稳定而动态的结果。具体而言,stylegan3为高保真的面部图像生成提供了强大的先验,但潜在空间本质上是纠缠的。通过仔细检查其潜在特性,我们提出了分解和重组设计,从而可以使面部外观和运动的结合结合在一起。此外,依赖时间依赖的模型是建立在分解的潜在特征的基础上的,并示例了能够生成现实且具有时间连贯的面部视频的合理运动序列。特别是,我们的管道对静态图像和高质量视频数据的联合培训策略进行了培训,该策略具有更高的数据效率。广泛的实验表明,我们的框架可以在定性和定量上实现最先进的视频生成。值得注意的是,即使没有高分辨率培训视频,StyleFacev也能够生成现实$ 1024 \ times1024 $面对视频。
translated by 谷歌翻译
生成高质量的艺术肖像视频是计算机图形和愿景中的一项重要且理想的任务。尽管已经提出了一系列成功的肖像图像图像模型模型,但这些面向图像的方法在应用于视频(例如固定框架尺寸,面部对齐的要求,缺失的非种族细节和缺失的非种族细节和缺失的要求)时,具有明显的限制。时间不一致。在这项工作中,我们通过引入一个新颖的Vtoonify框架来研究具有挑战性的可控高分辨率肖像视频风格转移。具体而言,Vtoonify利用了Stylegan的中高分辨率层,以基于编码器提取的多尺度内容功能来渲染高质量的艺术肖像,以更好地保留框架细节。由此产生的完全卷积体系结构接受可变大小的视频中的非对齐面孔作为输入,从而有助于完整的面部区域,并在输出中自然动作。我们的框架与现有的基于Stylegan的图像图像模型兼容,以将其扩展到视频化,并继承了这些模型的吸引力,以进行柔性风格控制颜色和强度。这项工作分别为基于收藏和基于示例的肖像视频风格转移而建立在Toonify和DualStylegan的基于Toonify和Dualstylegan的Vtoonify的两个实例化。广泛的实验结果证明了我们提出的VTOONIFY框架对现有方法的有效性在生成具有灵活风格控件的高质量和临时艺术肖像视频方面的有效性。
translated by 谷歌翻译
Visual signals in a video can be divided into content and motion. While content specifies which objects are in the video, motion describes their dynamics. Based on this prior, we propose the Motion and Content decomposed Generative Adversarial Network (MoCoGAN) framework for video generation. The proposed framework generates a video by mapping a sequence of random vectors to a sequence of video frames. Each random vector consists of a content part and a motion part. While the content part is kept fixed, the motion part is realized as a stochastic process. To learn motion and content decomposition in an unsupervised manner, we introduce a novel adversarial learning scheme utilizing both image and video discriminators. Extensive experimental results on several challenging datasets with qualitative and quantitative comparison to the state-of-theart approaches, verify effectiveness of the proposed framework. In addition, we show that MoCoGAN allows one to generate videos with same content but different motion as well as videos with different content and same motion.
translated by 谷歌翻译
Deep learning techniques have made considerable progress in image inpainting, restoration, and reconstruction in the last few years. Image outpainting, also known as image extrapolation, lacks attention and practical approaches to be fulfilled, owing to difficulties caused by large-scale area loss and less legitimate neighboring information. These difficulties have made outpainted images handled by most of the existing models unrealistic to human eyes and spatially inconsistent. When upsampling through deconvolution to generate fake content, the naive generation methods may lead to results lacking high-frequency details and structural authenticity. Therefore, as our novelties to handle image outpainting problems, we introduce structural prior as a condition to optimize the generation quality and a new semantic embedding term to enhance perceptual sanity. we propose a deep learning method based on Generative Adversarial Network (GAN) and condition edges as structural prior in order to assist the generation. We use a multi-phase adversarial training scheme that comprises edge inference training, contents inpainting training, and joint training. The newly added semantic embedding loss is proved effective in practice.
translated by 谷歌翻译
我们介绍了与给定单个图像的任意长相机轨迹相对应的长期视图的新面积视图的问题。这是一个具有挑战性的问题,远远超出了当前视图合成方法的能力,这在提出大型摄像机运动时快速退化。用于视频生成的方法也具有有限的生产长序列的能力,并且通常不适用于场景几何形状。我们采用混合方法,它以迭代`\ emph {render},\ emph {refine},\ emph {重复}'框架集成了几何和图像合成,允许在数百帧之后覆盖大距离的远程生成。我们的方法可以从一组单目的视频序列训练。我们提出了一个沿海场景的空中镜头数据集,并比较了我们最近的观看综合和有条件的视频生成基线的方法,表明它可以在与现有方法相比,在大型相机轨迹上产生更长的时间范围。项目页面https://infinite-nature.github.io/。
translated by 谷歌翻译
生成照片 - 现实图像,语义编辑和表示学习是高分辨率生成模型的许多潜在应用中的一些。最近在GAN的进展将它们建立为这些任务的绝佳选择。但是,由于它们不提供推理模型,因此使用GaN潜在空间无法在实际图像上完成诸如分类的图像编辑或下游任务。尽管培训了训练推理模型或设计了一种迭代方法来颠覆训练有素的发生器,但之前的方法是数据集(例如人类脸部图像)和架构(例如样式)。这些方法是非延伸到新型数据集或架构的。我们提出了一般框架,该框架是不可知的架构和数据集。我们的主要识别是,通过培训推断和生成模型在一起,我们允许它们彼此适应并收敛到更好的质量模型。我们的\ textbf {invang},可逆GaN的简短,成功将真实图像嵌入到高质量的生成模型的潜在空间。这使我们能够执行图像修复,合并,插值和在线数据增强。我们展示了广泛的定性和定量实验。
translated by 谷歌翻译
高动态范围(HDR)视频提供比标准低动态范围(LDR)视频更具视觉上的体验。尽管HDR成像具有重要进展,但仍有一个具有挑战性的任务,可以使用传统的现成摄像头捕获高质量的HDR视频。现有方法完全依赖于在相邻的LDR序列之间使用致密光流来重建HDR帧。然而,当用嘈杂的框架应用于交替的曝光时,它们会导致颜色和暴露的曝光不一致。在本文中,我们提出了一种从LDR序列与交替曝光的LDR序列的HDR视频重建的端到端GAN框架。我们首先从Noisy LDR视频中提取清洁LDR帧,并具有在自我监督设置中培训的去噪网络的交替曝光。然后,我们将相邻的交流帧与参考帧对齐,然后在完全的对手设置中重建高质量的HDR帧。为了进一步提高所产生帧的鲁棒性和质量,我们在培训过程中将时间稳定性的正则化术语与成本函数的内容和风格的损耗一起融合。实验结果表明,我们的框架实现了最先进的性能,并通过现有方法生成视频的优质HDR帧。
translated by 谷歌翻译
渲染程序已经完全改变了设计过程,因为它们可以在制造产品之前查看产品的外观。但是,渲染过程很复杂,并且需要大量时间,不仅在渲染本身,而且在场景的环境中。需要设置材料,灯光和摄像头,以获得最佳质量效果。然而,在第一个渲染中可能无法获得最佳输出。这一切使渲染过程成为一个繁琐的过程。因为Goodfellow等人。 2014年引入了生成对抗网络(GAN)[1],它们已用于生成计算机分配的合成数据,从不存在的人脸到医学数据分析或图像样式转移。 GAN已被用来将图像纹理从一个域传输到另一个域。但是,需要来自两个域的配对数据。朱等。引入了Cyclegan模型,消除了这种昂贵的约束允许将一个图像从一个域转换为另一个域的,而无需配对数据。这项工作验证了Cyclegans在样式转移从初始草图到2D最终渲染的适用性,该渲染代表3D设计,这是每个产品设计过程中最重要的一步。我们询问将Cyclegans作为设计管道的一部分的可能性,更确切地说是应用于环设计的渲染。我们的贡献需要该过程的关键部分,因为它允许客户在购买前查看最终产品。这项工作为将来的研究树立了基础,展示了gan在设计中的可能性,并为新型应用程序建立了接近工艺设计的起点。
translated by 谷歌翻译
从文本描述中综合现实图像是计算机视觉中的主要挑战。当前对图像合成方法的文本缺乏产生代表文本描述符的高分辨率图像。大多数现有的研究都依赖于生成的对抗网络(GAN)或变异自动编码器(VAE)。甘斯具有产生更清晰的图像的能力,但缺乏输出的多样性,而VAE擅长生产各种输出,但是产生的图像通常是模糊的。考虑到gan和vaes的相对优势,我们提出了一个新的有条件VAE(CVAE)和条件gan(CGAN)网络架构,用于合成以文本描述为条件的图像。这项研究使用条件VAE作为初始发电机来生成文本描述符的高级草图。这款来自第一阶段的高级草图输出和文本描述符被用作条件GAN网络的输入。第二阶段GAN产生256x256高分辨率图像。所提出的体系结构受益于条件加强和有条件的GAN网络的残留块,以实现结果。使用CUB和Oxford-102数据集进行了多个实验,并将所提出方法的结果与Stackgan等最新技术进行了比较。实验表明,所提出的方法生成了以文本描述为条件的高分辨率图像,并使用两个数据集基于Inception和Frechet Inception评分产生竞争结果
translated by 谷歌翻译
We propose "factor matting", an alternative formulation of the video matting problem in terms of counterfactual video synthesis that is better suited for re-composition tasks. The goal of factor matting is to separate the contents of video into independent components, each visualizing a counterfactual version of the scene where contents of other components have been removed. We show that factor matting maps well to a more general Bayesian framing of the matting problem that accounts for complex conditional interactions between layers. Based on this observation, we present a method for solving the factor matting problem that produces useful decompositions even for video with complex cross-layer interactions like splashes, shadows, and reflections. Our method is trained per-video and requires neither pre-training on external large datasets, nor knowledge about the 3D structure of the scene. We conduct extensive experiments, and show that our method not only can disentangle scenes with complex interactions, but also outperforms top methods on existing tasks such as classical video matting and background subtraction. In addition, we demonstrate the benefits of our approach on a range of downstream tasks. Please refer to our project webpage for more details: https://factormatte.github.io
translated by 谷歌翻译
高动态范围(HDR)成像是一种允许广泛的动态曝光范围的技术,这在图像处理,计算机图形和计算机视觉中很重要。近年来,使用深度学习(DL),HDR成像有重大进展。本研究对深层HDR成像方法的最新发展进行了综合和富有洞察力的调查和分析。在分层和结构上,将现有的深层HDR成像方法基于(1)输入曝光的数量/域,(2)学习任务数,(3)新传感器数据,(4)新的学习策略,(5)应用程序。重要的是,我们对关于其潜在和挑战的每个类别提供建设性的讨论。此外,我们审查了深度HDR成像的一些关键方面,例如数据集和评估指标。最后,我们突出了一些打开的问题,并指出了未来的研究方向。
translated by 谷歌翻译
生成符合用户意图的可控视频是计算机愿景中的一种吸引人而具有挑战性的话题。为了依次启用可动性的控制,提出了一种新颖的视频生成任务,名为Text-Image-to-Video Generation(TI2V)。通过可控的外观和运动,TI2V旨在从静态图像和文本描述生成视频。 TI2V任务的关键挑战在于从不同方式的外观和运动方面既呈对齐,以及在文本描述中处理不确定性。为了解决这些挑战,我们提出了一种基于运动锚的视频发生器(MAGE),其具有创新的运动锚(MA)结构来存储外观运动对准表示。为了模拟不确定性并提高多样性,它进一步允许注入显式条件和隐式随机性。通过三维轴向变压器,MA与给定图像相互作用以递归地产生令人满意的可控性和多样性的下一个帧。伴随新任务,我们构建了基于MNIST的两个新的视频文本成对数据集,并满足了评估。在这些数据集上进行的实验验证了法师的有效性并显示了TI2V任务的吸引力。模型和数据集的源代码即将推出。
translated by 谷歌翻译
Image animation consists of generating a video sequence so that an object in a source image is animated according to the motion of a driving video. Our framework addresses this problem without using any annotation or prior information about the specific object to animate. Once trained on a set of videos depicting objects of the same category (e.g. faces, human bodies), our method can be applied to any object of this class. To achieve this, we decouple appearance and motion information using a self-supervised formulation. To support complex motions, we use a representation consisting of a set of learned keypoints along with their local affine transformations. A generator network models occlusions arising during target motions and combines the appearance extracted from the source image and the motion derived from the driving video. Our framework scores best on diverse benchmarks and on a variety of object categories. Our source code is publicly available 1 .
translated by 谷歌翻译
强大的模拟器高度降低了在培训和评估自动车辆时对真实测试的需求。数据驱动的模拟器蓬勃发展,最近有条件生成对冲网络(CGANS)的进步,提供高保真图像。主要挑战是在施加约束之后的同时合成光量造型图像。在这项工作中,我们建议通过重新思考鉴别者架构来提高所生成的图像的质量。重点是在给定对语义输入生成图像的问题类上,例如场景分段图或人体姿势。我们建立成功的CGAN模型,提出了一种新的语义感知鉴别器,更好地指导发电机。我们的目标是学习一个共享的潜在表示,编码足够的信息,共同进行语义分割,内容重建以及粗糙的粒度的对抗性推理。实现的改进是通用的,并且可以应用于任何条件图像合成的任何架构。我们展示了我们在场景,建筑和人类综合任务上的方法,跨越三个不同的数据集。代码可在https://github.com/vita-epfl/semdisc上获得。
translated by 谷歌翻译
我们提出了一种互动地控制静止图像中的流体元素的动画的方法,以产生阴影。具体而言,我们专注于水,烟雾,火的流体元素的动画,具有重复纹理和连续流体运动的性质。从先前作品中采取灵感,我们代表了恒定的2D光学流程图的形式中这种流体元件的运动。为此,我们允许用户提供任何数量的箭头方向及其相关速度以及用户想要动画的区域的掩码。然后,用户提供的输入箭头方向,它们对应的速度值和掩模被转换成表示恒定光学流程图(FD)的致密流图。我们观察到使用简单指数操作获得的FD可以密切地近似图像中元素的合理运动。我们进一步使用生成 - 对冲网络(GaN)来改进计算的密集光学流程图FD以获得更现实的流程图。我们通过在不同分辨率下向前翘曲输入图像特征来设计新的UNET基于基于UNET的架构来自动生成未来的帧,通过转发输入图像特征。我们在公开的数据集中进行广泛的实验,并表明我们的方法在定性和定量度量方面优于基线。此外,我们向培训集中不存在的方向上显示了对象的定性动画,并提供了一种综合视频的方法,否则在现实世界中不会存在。
translated by 谷歌翻译