时尚预测学习(ST-PL)是具有许多应用的热点,例如物体运动和气象预测。它旨在通过观察到的序列来预测后续帧。然而,连续框架中固有的不确定性加剧了长期预测的难度。为了解决预测期间增加的歧义,我们设计CMS-LSTM,专注于上下文相关性和多尺度的时空流,详细含有两种精细植入的本地,其中包含两个精心设计的块:上下文嵌入(CE)和时尚表达(SE)块。 CE专为丰富的上下文互动而设计,而SE专注于隐藏状态的多尺度时空表达。新引入的块还促进了其他时空模型(例如,PEIPrn,SA-COMMLSTM),以产生ST-PL的代表性隐式特征,提高预测质量。定性和定量实验证明了我们所提出的方法的有效性和灵活性。具有较少的参数,CMS-LSTM在两个代表性基准和场景上的指标中占据了最先进的方法。
translated by 谷歌翻译
时尚预测学习是给定一系列历史框架的未来框架。传统算法主要基于经常性的神经网络(RNN)。然而,由于经常性结构的序列性,RNN遭受了重大计算负担,例如由于经常性结构的序列性而达到时间和长的背部传播过程。最近,还以编码器 - 解码器或普通编码器的形式研究了基于变压器的方法,但是编码器 - 解码器形式需要过于深的网络,并且普通编码器缺乏短期依赖性。为了解决这些问题,我们提出了一种名为3D时间卷积变压器(TCTN)的算法,其中采用具有时间卷积层的基于变压器的编码器来捕获短期和长期依赖性。由于变压器的并行机理,我们所提出的算法与基于RNN的方法相比,易于实施和培训得多。为了验证我们的算法,我们对移动和kth数据集进行实验,并表明TCTN在性能和训练速度下表现出最先进的(SOTA)方法。
translated by 谷歌翻译
尽管基于经常性的神经网络(RNN)的视频预测方法已经取得了重大成就,但由于信息损失问题和基于知觉的卑鄙平方错误(MSE)损失功能,它们在具有高分辨率的数据集中的性能仍然远远不令人满意。 。在本文中,我们提出了一个时空信息保存和感知声明模型(STIP),以解决上述两个问题。为了解决信息损失问题,提出的模型旨在在功能提取和状态过渡期间分别保留视频的时空信息。首先,基于X-NET结构设计了多透明时空自动编码器(MGST-AE)。拟议的MGST-AE可以帮助解码器回忆到时间和空间域中编码器的多透明信息。这样,在高分辨率视频的功能提取过程中,可以保留更多时空信息。其次,时空门控复发单元(STGRU)是基于标准的封闭式复发单元(GRU)结构而设计的,该结构可以在状态过渡期间有效地保留时空信息。与流行的长期短期(LSTM)的预测记忆相比,提出的STGRU可以通过计算负载较低的计算负载来实现更令人满意的性能。此外,为了改善传统的MSE损失功能,基于生成的对抗网络(GAN)进一步设计了学识渊博的知觉损失(LP-loss),这可以帮助获得客观质量和感知质量之间的令人满意的权衡。实验结果表明,与各种最先进的方法相比,提出的Stip可以预测具有更令人满意的视觉质量的视频。源代码已在\ url {https://github.com/zhengchang467/stiphr}上获得。
translated by 谷歌翻译
时空预测学习旨在通过从历史框架中学习来产生未来的帧。在本文中,我们研究了现有方法,并提出了时空预测学习的一般框架,其中空间编码器和解码器捕获框架内特征和中间时间模块捕获框架间相关性。尽管主流方法采用经常性单元来捕获长期的时间依赖性,但由于无法可行的架构,它们的计算效率低。为了使时间模块并行,我们提出了时间注意单元(TAU),该单元将时间关注分解为框内静态注意力和框架间动力学注意力。此外,虽然平方误差损失侧重于框架内错误,但我们引入了一种新颖的差异差异正则化,以考虑框架间的变化。广泛的实验表明,所提出的方法使派生模型能够在各种时空预测基准上实现竞争性能。
translated by 谷歌翻译
时空预测学习是通过历史先验知识来预测未来的框架变化。以前的工作通过使网络更广泛和更深入来改善性能,但这也带来了巨大的内存开销,这严重阻碍了技术的开发和应用。比例是提高普通计算机视觉任务中模型性能的另一个维度,这可以减少计算要求并更好地感知环境。最近的RNN模型尚未考虑和探索如此重要的维度。在本文中,我们从多尺度的好处中学习,我们提出了一个名为多尺度RNN(MS-RNN)的通用框架,以增强最近的RNN模型。我们通过在4个不同的数据集上使用6种流行的RNN模型(Convlstm,Trajgru,Predrnn,Prodrnn ++,MIM和MotionRNN)进行详尽的实验来验证MS-RNN框架。结果表明,将RNN模型纳入我们的框架的效率低得多,但性能比以前更好。我们的代码在\ url {https://github.com/mazhf/ms-rnn}上发布。
translated by 谷歌翻译
The mainstream of the existing approaches for video prediction builds up their models based on a Single-In-Single-Out (SISO) architecture, which takes the current frame as input to predict the next frame in a recursive manner. This way often leads to severe performance degradation when they try to extrapolate a longer period of future, thus limiting the practical use of the prediction model. Alternatively, a Multi-In-Multi-Out (MIMO) architecture that outputs all the future frames at one shot naturally breaks the recursive manner and therefore prevents error accumulation. However, only a few MIMO models for video prediction are proposed and they only achieve inferior performance due to the date. The real strength of the MIMO model in this area is not well noticed and is largely under-explored. Motivated by that, we conduct a comprehensive investigation in this paper to thoroughly exploit how far a simple MIMO architecture can go. Surprisingly, our empirical studies reveal that a simple MIMO model can outperform the state-of-the-art work with a large margin much more than expected, especially in dealing with longterm error accumulation. After exploring a number of ways and designs, we propose a new MIMO architecture based on extending the pure Transformer with local spatio-temporal blocks and a new multi-output decoder, namely MIMO-VP, to establish a new standard in video prediction. We evaluate our model in four highly competitive benchmarks (Moving MNIST, Human3.6M, Weather, KITTI). Extensive experiments show that our model wins 1st place on all the benchmarks with remarkable performance gains and surpasses the best SISO model in all aspects including efficiency, quantity, and quality. We believe our model can serve as a new baseline to facilitate the future research of video prediction tasks. The code will be released.
translated by 谷歌翻译
通过利用大型内核分解和注意机制,卷积神经网络(CNN)可以在许多高级计算机视觉任务中与基于变压器的方法竞争。但是,由于远程建模的优势,具有自我注意力的变压器仍然主导着低级视野,包括超分辨率任务。在本文中,我们提出了一个基于CNN的多尺度注意网络(MAN),该网络由多尺度的大内核注意力(MLKA)和一个封闭式的空间注意单元(GSAU)组成,以提高卷积SR网络的性能。在我们的MLKA中,我们使用多尺度和栅极方案纠正LKA,以在各种粒度水平上获得丰富的注意图,从而共同汇总了全局和局部信息,并避免了潜在的阻塞伪像。在GSAU中,我们集成了栅极机制和空间注意力,以消除不必要的线性层和汇总信息丰富的空间环境。为了确认我们的设计的有效性,我们通过简单地堆叠不同数量的MLKA和GSAU来评估具有多种复杂性的人。实验结果表明,我们的人可以在最先进的绩效和计算之间实现各种权衡。代码可从https://github.com/icandle/man获得。
translated by 谷歌翻译
使用注意机制的深度卷积神经网络(CNN)在动态场景中取得了巨大的成功。在大多数这些网络中,只能通过注意图精炼的功能传递到下一层,并且不同层的注意力图彼此分开,这并不能充分利用来自CNN中不同层的注意信息。为了解决这个问题,我们引入了一种新的连续跨层注意传播(CCLAT)机制,该机制可以利用所有卷积层的分层注意信息。基于CCLAT机制,我们使用非常简单的注意模块来构建一个新型残留的密集注意融合块(RDAFB)。在RDAFB中,从上述RDAFB的输出中推断出的注意图和每一层直接连接到后续的映射,从而导致CRLAT机制。以RDAFB为基础,我们为动态场景Deblurring设计了一个名为RDAFNET的有效体系结构。基准数据集上的实验表明,所提出的模型的表现优于最先进的脱毛方法,并证明了CCLAT机制的有效性。源代码可在以下网址提供:https://github.com/xjmz6/rdafnet。
translated by 谷歌翻译
自行车分享系统(BSSS)在全球越来越受欢迎,并引起了广泛的研究兴趣。本文研究了BSSS中的需求预测问题。空间和时间特征对于BSSS的需求预测至关重要,但提取了时尚动态的需求是挑战性的。另一个挑战是捕捉时空动力学和外部因素之间的关系,例如天气,一周和一天时间。为了解决这些挑战,我们提出了一个名为MSTF-Net的多个时空融合网络。 MSTF-Net由多个时空块组成:3D卷积网络(3D-CNN)块,Eidetic 3D卷积长短短期存储网络(E3D-LSTM)块,以及完全连接的(FC)块。具体地,3D-CNN嵌段突出显示在每个片段中提取短期时空依赖(即,亲近,期间和趋势); E3D-LSTM块进一步提取对所有碎片的长期时空依赖; FC块提取外部因素的非线性相关性。最后,融合E3D-LSTM和FC块的潜在表示以获得最终预测。对于两个现实世界数据集,显示MSTF-Net优于七种最先进的模型。
translated by 谷歌翻译
视频框架插值(VFI)旨在合成两个连续帧之间的中间框架。最先进的方法通常采用两步解决方案,其中包括1)通过基于流动的运动估计来生成本地光线的像素,2)将扭曲的像素混合以通过深神经合成网络形成全帧。但是,由于两个连续的帧不一致,新帧的扭曲功能通常不会对齐,这会导致扭曲和模糊的帧,尤其是在发生大型和复杂的运动时。为了解决这个问题,在本文中,我们提出了一种新颖的视频框架插值变压器(TTVFI)。特别是,我们以不一致的动作为查询令牌制定了扭曲的特征,并将运动轨迹中的相关区域从两个原始的连续帧中提出到键和值。在沿轨迹的相关令牌上学习了自我注意力,以通过端到端训练将原始特征融合到中间框架中。实验结果表明,我们的方法在四个广泛使用的VFI基准中优于其他最先进的方法。代码和预培训模型都将很快发布。
translated by 谷歌翻译
人类自然有效地在复杂的场景中找到突出区域。通过这种观察的动机,引入了计算机视觉中的注意力机制,目的是模仿人类视觉系统的这一方面。这种注意机制可以基于输入图像的特征被视为动态权重调整过程。注意机制在许多视觉任务中取得了巨大的成功,包括图像分类,对象检测,语义分割,视频理解,图像生成,3D视觉,多模态任务和自我监督的学习。在本调查中,我们对计算机愿景中的各种关注机制进行了全面的审查,并根据渠道注意,空间关注,暂时关注和分支注意力进行分类。相关的存储库https://github.com/menghaoguo/awesome-vision-tions致力于收集相关的工作。我们还建议了未来的注意机制研究方向。
translated by 谷歌翻译
Informative features play a crucial role in the single image super-resolution task. Channel attention has been demonstrated to be effective for preserving information-rich features in each layer. However, channel attention treats each convolution layer as a separate process that misses the correlation among different layers. To address this problem, we propose a new holistic attention network (HAN), which consists of a layer attention module (LAM) and a channel-spatial attention module (CSAM), to model the holistic interdependencies among layers, channels, and positions. Specifically, the proposed LAM adaptively emphasizes hierarchical features by considering correlations among layers. Meanwhile, CSAM learns the confidence at all the positions of each channel to selectively capture more informative features. Extensive experiments demonstrate that the proposed HAN performs favorably against the state-ofthe-art single image super-resolution approaches.
translated by 谷歌翻译
旨在预测人群进入或离开某些地区的人群的预测是智能城市的一项基本任务。人群流数据的关键属性之一是周期性:一种按常规时间间隔发生的模式,例如每周模式。为了捕获这种周期性,现有研究要么将周期性的隐藏状态融合到网络中,以学习或将额外的定期策略应用于网络体系结构。在本文中,我们设计了一个新颖的定期残差学习网络(PRNET),以更好地建模人群流数据中的周期性。与现有方法不同,PRNET通过建模输入(上一个时期)和输出(未来时间段)之间的变化来将人群流动预测作为周期性的残差学习问题。与直接预测高度动态的人群流动相比,学习更多的固定偏差要容易得多,从而有助于模型训练。此外,学到的变化使网络能够在每个时间间隔内产生未来条件及其相应每周观察的残差,因此有助于更准确的多步骤预测。广泛的实验表明,PRNET可以轻松地集成到现有模型中,以增强其预测性能。
translated by 谷歌翻译
随着深度学习的发展,单图像超分辨率(SISR)取得了重大突破。最近,已经提出了基于全局特征交互的SISR网络性能的方法。但是,需要动态地忽略对上下文的响应的神经元的功能。为了解决这个问题,我们提出了一个轻巧的交叉障碍性推理网络(CFIN),这是一个由卷积神经网络(CNN)和变压器组成的混合网络。具体而言,一种新型的交叉磁场导向变压器(CFGT)旨在通过使用调制卷积内核与局部代表性语义信息结合来自适应修改网络权重。此外,提出了基于CNN的跨尺度信息聚合模块(CIAM),以使模型更好地专注于潜在的实用信息并提高变压器阶段的效率。广泛的实验表明,我们提出的CFIN是一种轻巧有效的SISR模型,可以在计算成本和模型性能之间达到良好的平衡。
translated by 谷歌翻译
We are introducing a multi-scale predictive model for video prediction here, whose design is inspired by the "Predictive Coding" theories and "Coarse to Fine" approach. As a predictive coding model, it is updated by a combination of bottom-up and top-down information flows, which is different from traditional bottom-up training style. Its advantage is to reduce the dependence on input information and improve its ability to predict and generate images. Importantly, we achieve with a multi-scale approach -- higher level neurons generate coarser predictions (lower resolution), while the lower level generate finer predictions (higher resolution). This is different from the traditional predictive coding framework in which higher level predict the activity of neurons in lower level. To improve the predictive ability, we integrate an encoder-decoder network in the LSTM architecture and share the final encoded high-level semantic information between different levels. Additionally, since the output of each network level is an RGB image, a smaller LSTM hidden state can be used to retain and update the only necessary hidden information, avoiding being mapped to an overly discrete and complex space. In this way, we can reduce the difficulty of prediction and the computational overhead. Finally, we further explore the training strategies, to address the instability in adversarial training and mismatch between training and testing in long-term prediction. Code is available at https://github.com/Ling-CF/MSPN.
translated by 谷歌翻译
从CNN,RNN到VIT,我们见证了视频预测中的显着进步,结合了辅助输入,精心设计的神经体系结构和复杂的培训策略。我们钦佩这些进步,但对必要性感到困惑:是否有一种可以表现得很好的简单方法?本文提出了SIMVP,这是一个简单的视频预测模型,完全建立在CNN上,并以端到端的方式受到MSE损失的训练。在不引入任何其他技巧和复杂策略的情况下,我们可以在五个基准数据集上实现最先进的性能。通过扩展实验,我们证明了SIMVP在现实世界数据集上具有强大的概括和可扩展性。培训成本的显着降低使扩展到复杂方案变得更加容易。我们认为SIMVP可以作为刺激视频预测进一步发展的坚实基线。该代码可在\ href {https://github.com/gaozhangyang/simvp-simpler-yet-better-video-prediction} {github}中获得。
translated by 谷歌翻译
从传统上讲,地球系统(例如天气和气候)的预测依赖于具有复杂物理模型的数值模拟,因此在计算中既昂贵又对领域专业知识的需求既昂贵。在过去十年中时空地球观察数据的爆炸性增长中,应用深度学习(DL)的数据驱动模型表明了各种地球系统预测任务的潜力。尽管在其他领域取得了广泛的成功,但作为新兴DL架构的变压器在该领域的采用量有限。在本文中,我们提出了Earthformer,这是一种用于地球系统预测的时空变压器。 Earthformer基于一个通用,灵活和有效的时空注意块,名为Cuboid的注意力。这个想法是将数据分解为立方体,并平行应用立方体级别的自我注意力。这些立方体与全球矢量的集合进一步相关。我们对MovingMnist数据集和新提出的混沌N体MNIST数据集进行了实验,以验证Cuboid注意的有效性,并找出地球形式的最佳设计。关于降水现象和El Nino/Southern振荡(ENSO)预测的两个现实基准测试的实验表明,Earthformer实现了最新的性能。
translated by 谷歌翻译
视频框架插值(VFI)旨在通过从双向历史参考文献中扭曲可学习的动作来产生预测帧。大多数现有的作品都利用时空语义信息提取器来实现运动估计和插值建模,考虑到产生的中间运动的实际机械合理性,没有足够的考虑。在本文中,我们将VFI重新制定为多变量的非线性(MNL)回归问题,并提出了联合非线性运动回归(JNMR)策略来模拟框架间的复杂运动。为了建立MNL回归,采用ConvlSTM来构建时间维度的完整运动的分布。目标框架和多个参考帧之间的运动相关性可以通过建模的分布进行回归。此外,功能学习网络旨在为MNL回归建模进行优化。进一步进行了一个粗到精细的合成增强模块,以通过重复回归和插值来学习不同分辨率的视觉动力学。框架插值上的高度竞争性实验结果表明,与最先进的性能相比,有效性和显着提高,以及复杂运动估计的鲁棒性通过MNL运动回归提高。
translated by 谷歌翻译
The goal of precipitation nowcasting is to predict the future rainfall intensity in a local region over a relatively short period of time. Very few previous studies have examined this crucial and challenging weather forecasting problem from the machine learning perspective. In this paper, we formulate precipitation nowcasting as a spatiotemporal sequence forecasting problem in which both the input and the prediction target are spatiotemporal sequences. By extending the fully connected LSTM (FC-LSTM) to have convolutional structures in both the input-to-state and state-to-state transitions, we propose the convolutional LSTM (ConvLSTM) and use it to build an end-to-end trainable model for the precipitation nowcasting problem. Experiments show that our ConvLSTM network captures spatiotemporal correlations better and consistently outperforms FC-LSTM and the state-of-theart operational ROVER algorithm for precipitation nowcasting.
translated by 谷歌翻译
在现实世界中,在雾度下拍摄的图像的降解可以是非常复杂的,其中雾度的空间分布从图像变化到图像。最近的方法采用深神经网络直接从朦胧图像中恢复清洁场景。然而,由于悖论由真正捕获的雾霾的变化和当前网络的固定退化参数引起的悖论,最近在真实朦胧的图像上的脱水方法的泛化能力不是理想的。解决现实世界建模问题阴霾退化,我们建议通过对不均匀雾度分布的鉴定和建模密度来解决这个问题。我们提出了一种新颖的可分离混合注意力(SHA)模块来编码雾霾密度,通过捕获正交方向上的特征来实现这一目标。此外,提出了密度图以明确地模拟雾度的不均匀分布。密度图以半监督方式生成位置编码。这种雾度密度感知和建模有效地捕获特征水平的不均匀分布性变性。通过SHA和密度图的合适组合,我们设计了一种新型的脱水网络架构,实现了良好的复杂性性能权衡。两个大规模数据集的广泛实验表明,我们的方法通过量化和定性地通过大幅度超越所有最先进的方法,将最佳发布的PSNR度量从28.53 DB升高到Haze4K测试数据集和在SOTS室内测试数据集中的37.17 dB至38.41 dB。
translated by 谷歌翻译