The goal of precipitation nowcasting is to predict the future rainfall intensity in a local region over a relatively short period of time. Very few previous studies have examined this crucial and challenging weather forecasting problem from the machine learning perspective. In this paper, we formulate precipitation nowcasting as a spatiotemporal sequence forecasting problem in which both the input and the prediction target are spatiotemporal sequences. By extending the fully connected LSTM (FC-LSTM) to have convolutional structures in both the input-to-state and state-to-state transitions, we propose the convolutional LSTM (ConvLSTM) and use it to build an end-to-end trainable model for the precipitation nowcasting problem. Experiments show that our ConvLSTM network captures spatiotemporal correlations better and consistently outperforms FC-LSTM and the state-of-theart operational ROVER algorithm for precipitation nowcasting.
translated by 谷歌翻译
时空预测学习是通过历史先验知识来预测未来的框架变化。以前的工作通过使网络更广泛和更深入来改善性能,但这也带来了巨大的内存开销,这严重阻碍了技术的开发和应用。比例是提高普通计算机视觉任务中模型性能的另一个维度,这可以减少计算要求并更好地感知环境。最近的RNN模型尚未考虑和探索如此重要的维度。在本文中,我们从多尺度的好处中学习,我们提出了一个名为多尺度RNN(MS-RNN)的通用框架,以增强最近的RNN模型。我们通过在4个不同的数据集上使用6种流行的RNN模型(Convlstm,Trajgru,Predrnn,Prodrnn ++,MIM和MotionRNN)进行详尽的实验来验证MS-RNN框架。结果表明,将RNN模型纳入我们的框架的效率低得多,但性能比以前更好。我们的代码在\ url {https://github.com/mazhf/ms-rnn}上发布。
translated by 谷歌翻译
We use multilayer Long Short Term Memory (LSTM) networks to learn representations of video sequences. Our model uses an encoder LSTM to map an input sequence into a fixed length representation. This representation is decoded using single or multiple decoder LSTMs to perform different tasks, such as reconstructing the input sequence, or predicting the future sequence. We experiment with two kinds of input sequences -patches of image pixels and high-level representations ("percepts") of video frames extracted using a pretrained convolutional net. We explore different design choices such as whether the decoder LSTMs should condition on the generated output. We analyze the outputs of the model qualitatively to see how well the model can extrapolate the learned video representation into the future and into the past. We try to visualize and interpret the learned features. We stress test the model by running it on longer time scales and on out-of-domain data. We further evaluate the representations by finetuning them for a supervised learning problemhuman action recognition on the UCF-101 and HMDB-51 datasets. We show that the representations help improve classification accuracy, especially when there are only a few training examples. Even models pretrained on unrelated datasets (300 hours of YouTube videos) can help action recognition performance.
translated by 谷歌翻译
从传统上讲,地球系统(例如天气和气候)的预测依赖于具有复杂物理模型的数值模拟,因此在计算中既昂贵又对领域专业知识的需求既昂贵。在过去十年中时空地球观察数据的爆炸性增长中,应用深度学习(DL)的数据驱动模型表明了各种地球系统预测任务的潜力。尽管在其他领域取得了广泛的成功,但作为新兴DL架构的变压器在该领域的采用量有限。在本文中,我们提出了Earthformer,这是一种用于地球系统预测的时空变压器。 Earthformer基于一个通用,灵活和有效的时空注意块,名为Cuboid的注意力。这个想法是将数据分解为立方体,并平行应用立方体级别的自我注意力。这些立方体与全球矢量的集合进一步相关。我们对MovingMnist数据集和新提出的混沌N体MNIST数据集进行了实验,以验证Cuboid注意的有效性,并找出地球形式的最佳设计。关于降水现象和El Nino/Southern振荡(ENSO)预测的两个现实基准测试的实验表明,Earthformer实现了最新的性能。
translated by 谷歌翻译
自行车分享系统(BSSS)在全球越来越受欢迎,并引起了广泛的研究兴趣。本文研究了BSSS中的需求预测问题。空间和时间特征对于BSSS的需求预测至关重要,但提取了时尚动态的需求是挑战性的。另一个挑战是捕捉时空动力学和外部因素之间的关系,例如天气,一周和一天时间。为了解决这些挑战,我们提出了一个名为MSTF-Net的多个时空融合网络。 MSTF-Net由多个时空块组成:3D卷积网络(3D-CNN)块,Eidetic 3D卷积长短短期存储网络(E3D-LSTM)块,以及完全连接的(FC)块。具体地,3D-CNN嵌段突出显示在每个片段中提取短期时空依赖(即,亲近,期间和趋势); E3D-LSTM块进一步提取对所有碎片的长期时空依赖; FC块提取外部因素的非线性相关性。最后,融合E3D-LSTM和FC块的潜在表示以获得最终预测。对于两个现实世界数据集,显示MSTF-Net优于七种最先进的模型。
translated by 谷歌翻译
降雨数据的时间和空间分辨率对于环境建模研究至关重要,在环境建模研究中,其时空的变异性被视为主要因素。来自不同遥感仪器(例如雷达,卫星)的降雨产品具有不同的时空分辨率,因为它们的感应能力和后处理方法的差异。在这项研究中,我们开发了一种深度学习方法,以增加降雨数据,并增加时间分辨率,以补充相对较低的分辨率产品。我们提出了基于卷积神经网络(CNN)的神经网络体系结构,以改善基于雷达的降雨产品的时间分辨率,并将提出的模型与基于光流的插值方法和CNN基线模型进行比较。这项研究中提出的方法可用于增强降雨图,并以更好的时间分辨率和2D降雨图序列中缺失的框架进行插补,以支持水文和洪水预测研究。
translated by 谷歌翻译
The mainstream of the existing approaches for video prediction builds up their models based on a Single-In-Single-Out (SISO) architecture, which takes the current frame as input to predict the next frame in a recursive manner. This way often leads to severe performance degradation when they try to extrapolate a longer period of future, thus limiting the practical use of the prediction model. Alternatively, a Multi-In-Multi-Out (MIMO) architecture that outputs all the future frames at one shot naturally breaks the recursive manner and therefore prevents error accumulation. However, only a few MIMO models for video prediction are proposed and they only achieve inferior performance due to the date. The real strength of the MIMO model in this area is not well noticed and is largely under-explored. Motivated by that, we conduct a comprehensive investigation in this paper to thoroughly exploit how far a simple MIMO architecture can go. Surprisingly, our empirical studies reveal that a simple MIMO model can outperform the state-of-the-art work with a large margin much more than expected, especially in dealing with longterm error accumulation. After exploring a number of ways and designs, we propose a new MIMO architecture based on extending the pure Transformer with local spatio-temporal blocks and a new multi-output decoder, namely MIMO-VP, to establish a new standard in video prediction. We evaluate our model in four highly competitive benchmarks (Moving MNIST, Human3.6M, Weather, KITTI). Extensive experiments show that our model wins 1st place on all the benchmarks with remarkable performance gains and surpasses the best SISO model in all aspects including efficiency, quantity, and quality. We believe our model can serve as a new baseline to facilitate the future research of video prediction tasks. The code will be released.
translated by 谷歌翻译
自回旋运动平均值(ARMA)模型是经典的,可以说是模型时间序列数据的最多研究的方法之一。它具有引人入胜的理论特性,并在从业者中广泛使用。最近的深度学习方法普及了经常性神经网络(RNN),尤其是长期记忆(LSTM)细胞,这些细胞已成为神经时间序列建模中最佳性能和最常见的构件之一。虽然对具有长期效果的时间序列数据或序列有利,但复杂的RNN细胞并不总是必须的,有时甚至可能不如更简单的复发方法。在这项工作中,我们介绍了ARMA细胞,这是一种在神经网络中的时间序列建模的更简单,模块化和有效的方法。该单元可以用于存在复发结构的任何神经网络体系结构中,并自然地使用矢量自动进程处理多元时间序列。我们还引入了Convarma细胞作为空间相关时间序列的自然继任者。我们的实验表明,所提出的方法在性能方面与流行替代方案具有竞争力,同时由于其简单性而变得更加强大和引人注目。
translated by 谷歌翻译
了解3D场景是自治代理的关键先决条件。最近,LIDAR和其他传感器已经以点云帧的时间序列形式提供了大量数据。在这项工作中,我们提出了一种新的问题 - 顺序场景流量估计(SSFE) - 该旨在预测给定序列中所有点云的3D场景流。这与先前研究的场景流程估计问题不同,这侧重于两个框架。我们介绍SPCM-NET架构,通过计算相邻点云之间的多尺度时空相关性,然后通过订单不变的复制单元计算多级时空相关性来解决这个问题。我们的实验评估证实,与仅使用两个框架相比,点云序列的复发处理导致SSFE明显更好。另外,我们证明可以有效地修改该方法,用于顺序点云预测(SPF),一种需要预测未来点云帧的相关问题。我们的实验结果是使用SSFE和SPF的新基准进行评估,包括合成和实时数据集。以前,场景流估计的数据集仅限于两个帧。我们为这些数据集提供非琐碎的扩展,用于多帧估计和预测。由于难以获得现实世界数据集的地面真理运动,我们使用自我监督的培训和评估指标。我们认为,该基准将在该领域的未来研究中关键。将可访问基准和型号的所有代码。
translated by 谷歌翻译
地震的预测和预测有很长的时间,在某些情况下有肮脏的历史,但是最近的工作重新点燃了基于预警的进步,诱发地震性的危害评估以及对实验室地震的成功预测。在实验室中,摩擦滑移事件为地震和地震周期提供了类似物。 Labquakes是机器学习(ML)的理想目标,因为它们可以在受控条件下以长序列生产。最近的作品表明,ML可以使用断层区的声学排放来预测实验室的几个方面。在这里,我们概括了这些结果,并探索了Labquake预测和自动回归(AR)预测的深度学习(DL)方法。 DL改善了现有的Labquake预测方法。 AR方法允许通过迭代预测在未来的视野中进行预测。我们证明,基于长期任期内存(LSTM)和卷积神经网络的DL模型可以预测在几种条件下实验室,并且可以以忠诚度预测断层区应力,证实声能是断层区应力的指纹。我们还预测了实验室的失败开始(TTSF)和失败结束(TTEF)的时间。有趣的是,在所有地震循环中都可以成功预测TTEF,而TTSF的预测随preseismisic断层蠕变的数量而变化。我们报告了使用三个序列建模框架:LSTM,时间卷积网络和变压器网络预测故障应力演变的AR方法。 AR预测与现有的预测模型不同,该模型仅在特定时间预测目标变量。超出单个地震周期的预测结果有限,但令人鼓舞。我们的ML/DL模型优于最先进的模型,我们的自回归模型代表了一个新颖的框架,可以增强当前的地震预测方法。
translated by 谷歌翻译
视频异常检测是现在计算机视觉中的热门研究主题之一,因为异常事件包含大量信息。异常是监控系统中的主要检测目标之一,通常需要实时行动。关于培训的标签数据的可用性(即,没有足够的标记数据进行异常),半监督异常检测方法最近获得了利益。本文介绍了该领域的研究人员,以新的视角,并评论了最近的基于深度学习的半监督视频异常检测方法,基于他们用于异常检测的共同策略。我们的目标是帮助研究人员开发更有效的视频异常检测方法。由于选择右深神经网络的选择对于这项任务的几个部分起着重要作用,首先准备了对DNN的快速比较审查。与以前的调查不同,DNN是从时空特征提取观点审查的,用于视频异常检测。这部分审查可以帮助本领域的研究人员选择合适的网络,以获取其方法的不同部分。此外,基于其检测策略,一些最先进的异常检测方法受到严格调查。审查提供了一种新颖,深入了解现有方法,并导致陈述这些方法的缺点,这可能是未来作品的提示。
translated by 谷歌翻译
Deep learning approaches for spatio-temporal prediction problems such as crowd-flow prediction assumes data to be of fixed and regular shaped tensor and face challenges of handling irregular, sparse data tensor. This poses limitations in use-case scenarios such as predicting visit counts of individuals' for a given spatial area at a particular temporal resolution using raster/image format representation of the geographical region, since the movement patterns of an individual can be largely restricted and localized to a certain part of the raster. Additionally, current deep-learning approaches for solving such problem doesn't account for the geographical awareness of a region while modelling the spatio-temporal movement patterns of an individual. To address these limitations, there is a need to develop a novel strategy and modeling approach that can handle both sparse, irregular data while incorporating geo-awareness in the model. In this paper, we make use of quadtree as the data structure for representing the image and introduce a novel geo-aware enabled deep learning layer, GA-ConvLSTM that performs the convolution operation based on a novel geo-aware module based on quadtree data structure for incorporating spatial dependencies while maintaining the recurrent mechanism for accounting for temporal dependencies. We present this approach in the context of the problem of predicting spatial behaviors of an individual (e.g., frequent visits to specific locations) through deep-learning based predictive model, GADST-Predict. Experimental results on two GPS based trace data shows that the proposed method is effective in handling frequency visits over different use-cases with considerable high accuracy.
translated by 谷歌翻译
In a traditional convolutional layer, the learned filters stay fixed after training. In contrast, we introduce a new framework, the Dynamic Filter Network, where filters are generated dynamically conditioned on an input. We show that this architecture is a powerful one, with increased flexibility thanks to its adaptive nature, yet without an excessive increase in the number of model parameters. A wide variety of filtering operations can be learned this way, including local spatial transformations, but also others like selective (de)blurring or adaptive feature extraction. Moreover, multiple such layers can be combined, e.g. in a recurrent architecture. We demonstrate the effectiveness of the dynamic filter network on the tasks of video and stereo prediction, and reach state-of-the-art performance on the moving MNIST dataset with a much smaller model. By visualizing the learned filters, we illustrate that the network has picked up flow information by only looking at unlabelled training data. This suggests that the network can be used to pretrain networks for various supervised tasks in an unsupervised way, like optical flow and depth estimation. * X. Jia and B. De Brabandere contributed equally to this work and listed in alphabetical order.
translated by 谷歌翻译
我们介绍了Encoder-Forecaster卷积的长短短期记忆(LSTM)深度学习模型,为微软天气的运营降水Newcasting产品提供动力。该模型作为输入一系列天气雷达马赛克,并确定在最多6小时内的铅倍时确定未来雷达反射率。通过沿着特征维度堆叠大型输入接收领域,并通过从基于物理的高分辨率快速刷新(HRRR)模型的预测,通过预测来调节模型的预测,我们能够在多个度量标准上以20-25%的光流和HRRR基线优于光流量和HRRR基线平均在所有交货时间上。
translated by 谷歌翻译
根据国家学院,每周速度,垂直结构和环流电流(LC)的持续时间及其漩涡的预测对于了解海洋学和生态系统,以及减轻墨西哥湾的人为和自然灾害的结果至关重要(GOM)。然而,这一预测是一个具有挑战性的问题,因为LC行为由多个时间尺度的远程空间连接主导。在本文中,我们扩展了时空预测学习,将其效力显示为超越视频预测,到4D模型,即用于3D地理空间预测的时间序列的新型物理知识的张力列车Convlstm(Pitt-convlstm)。具体而言,我们提出1)一种新的4D高阶经复制神经网络,具有经验正交函数分析,以捕获每个层次结构的隐藏不相关的模式,2)卷积的张力串分解,以捕获更高阶的时空相关性,3 )通过向域专家提供从域专家提供的现有物理知识,以便在潜在空间中通知学习。我们提出的方法的优点是显而易见的:通过物理定律的限制,它同时学习每个时间框架内帧的依赖性(包括短期和长期的高层次的依赖)和跨层级关系良好的表示。从GOM收集的地理空间数据的实验表明,PITT-COMMLSTM在预测LC的体积速度及其漩涡的时间内超过一周内的最先进的方法。
translated by 谷歌翻译
Traditional weather forecasting relies on domain expertise and computationally intensive numerical simulation systems. Recently, with the development of a data-driven approach, weather forecasting based on deep learning has been receiving attention. Deep learning-based weather forecasting has made stunning progress, from various backbone studies using CNN, RNN, and Transformer to training strategies using weather observations datasets with auxiliary inputs. All of this progress has contributed to the field of weather forecasting; however, many elements and complex structures of deep learning models prevent us from reaching physical interpretations. This paper proposes a SImple baseline with a spatiotemporal context Aggregation Network (SIANet) that achieved state-of-the-art in 4 parts of 5 benchmarks of W4C22. This simple but efficient structure uses only satellite images and CNNs in an end-to-end fashion without using a multi-model ensemble or fine-tuning. This simplicity of SIANet can be used as a solid baseline that can be easily applied in weather forecasting using deep learning.
translated by 谷歌翻译
海洋是令人印象深刻的复杂数据混合的来源,可用于发现尚未发现的关系。此类数据来自海洋及其表面,例如用于跟踪血管轨迹的自动识别系统(AIS)消息。 AIS消息以理想的定期时间间隔通过无线电或卫星传输,但随着时间的流逝而变化不规则。因此,本文旨在通过神经网络对AIS消息传输行为进行建模,以预测即将到来的AIS消息的内容,尤其是在同时方法的情况下,尽管消息的时间不规则性作为异常值。我们提出了一组实验,其中包含用于预测任务的多种算法,其长度不同。深度学习模型(例如,神经网络)表明自己可以充分地保留血管的空间意识,而不管时间不规则。我们展示了如何通过共同努力来改善此类任务的卷积层,进料网络和反复的神经网络。尝试短,中和大型消息序列,我们的模型达到了相对百分比差异的36/37/38% - 越低,越好,而我们在Elman的RNN上观察到92/45/96%,51 /52/40%的GRU,LSTM的129/98/61%。这些结果支持我们的模型作为驱动器,以改善在时间噪声数据下同时分析多个分歧类型的血管时,可以改善船舶路线的预测。
translated by 谷歌翻译
准确且可靠的车道检测对于巷道维护援助和车道出发警告系统的安全性能至关重要。但是,在某些具有挑战性的情况下,很难在当前文献中主要从一个图像中准确地检测到一个单一图像的车道时获得令人满意的性能。由于车道标记是连续线,因此如果合并了以前的帧信息,则可以在当前单个图像中准确检测到的车道可以更好地推导。这项研究提出了一种新型的混合时空(ST)序列到一个深度学习结构。该体系结构充分利用了多个连续图像帧中的ST信息,以检测最后一帧中的车道标记。具体而言,混合模型集成了以下方面:(a)配备了空间卷积神经网络的单个图像特征提取模块; (b)由ST复发神经网络构建的ST特征集成模块; (c)编码器解码器结构,该结构使此图像分割问题以端到端监督的学习格式起作用。广泛的实验表明,所提出的模型体系结构可以有效地处理具有挑战性的驾驶场景,并且优于可用的最先进方法。
translated by 谷歌翻译
对于电网操作,具有精细时间和空间分辨率的太阳能发电准确预测对于电网的操作至关重要。然而,与数值天气预报(NWP)结合机器学习的最先进方法具有粗略分辨率。在本文中,我们采用曲线图信号处理透视和型号的多网站光伏(PV)生产时间序列作为图表上的信号,以捕获它们的时空依赖性并实现更高的空间和时间分辨率预测。我们提出了两种新颖的图形神经网络模型,用于确定性多站点PV预测,被称为图形 - 卷积的长期内存(GCLSTM)和图形 - 卷积变压器(GCTRAFO)模型。这些方法仅依赖于生产数据并利用PV系统提供密集的虚拟气象站网络的直觉。所提出的方法是在整整一年的两组数据集中评估:1)来自304个真实光伏系统的生产数据,以及2)模拟生产1000个PV系统,包括瑞士分布。该拟议的模型优于最先进的多站点预测方法,用于预测前方6小时的预测视野。此外,所提出的模型以NWP优于最先进的单站点方法,如前方的视野上的输入。
translated by 谷歌翻译
由于其对人类生命,运输,粮食生产和能源管理的高度影响,因此在科学上研究了预测天气的问题。目前的运营预测模型基于物理学,并使用超级计算机来模拟大气预测,提前预测数小时和日期。更好的基于物理的预测需要改进模型本身,这可能是一个实质性的科学挑战,以及潜在的分辨率的改进,可以计算令人望而却步。基于神经网络的新出现的天气模型代表天气预报的范式转变:模型学习来自数据的所需变换,而不是依赖于手工编码的物理,并计算效率。然而,对于神经模型,每个额外的辐射时间都会构成大量挑战,因为它需要捕获更大的空间环境并增加预测的不确定性。在这项工作中,我们提出了一个神经网络,能够提前十二小时的大规模降水预测,并且从相同的大气状态开始,该模型能够比最先进的基于物理的模型更高的技能HRRR和HREF目前在美国大陆运营。可解释性分析加强了模型学会模拟先进物理原则的观察。这些结果代表了建立与神经网络有效预测的新范式的实质性步骤。
translated by 谷歌翻译