已经发现,已经发现深度学习架构,特别是深度动量网络(DMNS)[1904.04912]是一种有效的势头和平均逆转交易的方法。然而,近年来一些关键挑战涉及学习长期依赖,在考虑返回交易成本净净额并适应新的市场制度时,绩效的退化,特别是在SARS-COV-2危机期间。注意机制或基于变换器的架构是对这些挑战的解决方案,因为它们允许网络专注于过去和长期模式的重要时间步骤。我们介绍了势头变压器,一种基于关注的架构,胜过基准,并且本质上是可解释的,为我们提供更大的深入学习交易策略。我们的模型是基于LSTM的DMN的扩展,它通过在风险调整的性能度量上优化网络,直接输出位置尺寸,例如锐利比率。我们发现注意力LSTM混合解码器仅时间融合变压器(TFT)样式架构是最佳的执行模型。在可解释性方面,我们观察注意力模式的显着结构,在动量转点时具有重要的重要性。因此,时间序列被分段为制度,并且该模型倾向于关注以前的制度中的先前时间步骤。我们发现ChangePoint检测(CPD)[2105.13727],另一个用于响应政权变化的技术可以补充多抬头的注意力,特别是当我们在多个时间尺度运行CPD时。通过添加可解释的变量选择网络,我们观察CPD如何帮助我们的模型在日常返回数据上主要远离交易。我们注意到该模型可以智能地切换和混合古典策略 - 基于数据的决定。
translated by 谷歌翻译
动量策略是替代投资的重要组成部分,是商品交易顾问(CTA)的核心。然而,这些策略已被发现难以调整市场条件的快速变化,例如在2020年市场崩溃期间。特别是,在动量转向点之后,在趋势从上升趋势(下降趋势)逆转到下降趋势(上升趋势),时间序列动量(TSMOM)策略容易发生不良赌注。为了提高对政权变更的响应,我们介绍了一种新颖的方法,在那里我们将在线切换点检测(CPD)模块插入深势网络(DMN)[1904.04912]管道,它使用LSTM深度学习架构同时学习趋势估算与定位尺寸。此外,我们的模型能够优化它的平衡1)延迟延期的速度策略,它利用持续趋势,但没有过度反应到本地化价格移动,而且2)通过快速翻转其位置,这是一种快速平均转换策略制度,然后再次将其交换为利用本地化的价格。我们的CPD模块输出ChangePoint位置和严重性分数,允许我们的模型以数据驱动的方式学习响应变化的不平衡或更小,更局部化的变换点。在1995 - 2020年期间,在1995 - 2020年期间,添加CPD模块的添加导致夏普率的提高三分之一。该模块在显着的非间抗性期间特别有益,特别是在最近几年(2015-2020)中,性能提升大约三分之二。随着传统的动量策略在此期间的表现不佳,这很有趣。
translated by 谷歌翻译
基于预测方法的深度学习已成为时间序列预测或预测的许多应用中的首选方法,通常通常优于其他方法。因此,在过去的几年中,这些方法现在在大规模的工业预测应用中无处不在,并且一直在预测竞赛(例如M4和M5)中排名最佳。这种实践上的成功进一步提高了学术兴趣,以理解和改善深厚的预测方法。在本文中,我们提供了该领域的介绍和概述:我们为深入预测的重要构建块提出了一定深度的深入预测;随后,我们使用这些构建块,调查了最近的深度预测文献的广度。
translated by 谷歌翻译
Future surveys such as the Legacy Survey of Space and Time (LSST) of the Vera C. Rubin Observatory will observe an order of magnitude more astrophysical transient events than any previous survey before. With this deluge of photometric data, it will be impossible for all such events to be classified by humans alone. Recent efforts have sought to leverage machine learning methods to tackle the challenge of astronomical transient classification, with ever improving success. Transformers are a recently developed deep learning architecture, first proposed for natural language processing, that have shown a great deal of recent success. In this work we develop a new transformer architecture, which uses multi-head self attention at its core, for general multi-variate time-series data. Furthermore, the proposed time-series transformer architecture supports the inclusion of an arbitrary number of additional features, while also offering interpretability. We apply the time-series transformer to the task of photometric classification, minimising the reliance of expert domain knowledge for feature selection, while achieving results comparable to state-of-the-art photometric classification methods. We achieve a logarithmic-loss of 0.507 on imbalanced data in a representative setting using data from the Photometric LSST Astronomical Time-Series Classification Challenge (PLAsTiCC). Moreover, we achieve a micro-averaged receiver operating characteristic area under curve of 0.98 and micro-averaged precision-recall area under curve of 0.87.
translated by 谷歌翻译
良好的研究努力致力于利用股票预测中的深度神经网络。虽然远程依赖性和混沌属性仍然是在预测未来价格趋势之前降低最先进的深度学习模型的表现。在这项研究中,我们提出了一个新的框架来解决这两个问题。具体地,在将时间序列转换为复杂网络方面,我们将市场价格系列转换为图形。然后,从映射的图表中提取参考时间点和节点权重之间的关联的结构信息以解决关于远程依赖性和混沌属性的问题。我们采取图形嵌入式以表示时间点之间的关联作为预测模型输入。节点重量被用作先验知识,以增强时间关注的学习。我们拟议的框架的有效性通过现实世界股票数据验证,我们的方法在几个最先进的基准中获得了最佳性能。此外,在进行的交易模拟中,我们的框架进一步获得了最高的累积利润。我们的结果补充了复杂网络方法在金融领域的现有应用,并为金融市场中决策支持的投资应用提供了富有识别的影响。
translated by 谷歌翻译
横截面策略是一种经典且流行的交易方式,最近的高性能变体结合了复杂的神经体系结构。尽管这些策略已成功地应用于涉及具有悠久历史的成熟资产的数据丰富的设置,但将它们部署在具有有限样本的仪器上,通常会产生过度合适的模型,具有降级性能。在本文中,我们介绍了融合的编码器网络 - 混合参数共享转移排名模型。该模型融合了使用在源数据集上操作的编码器 - 注意模块提取的信息,该模块具有相似但单独的模块,该模块集中在较小的目标数据集上。除了减轻目标数据稀缺性问题外,模型的自我注意机制还可以考虑工具之间的相互作用,不仅在模型训练期间的损失水平,而且在推理时间处。融合的编码器网络专注于市场资本化应用于前十的加密货币,融合的编码器网络在大多数性能指标上优于参考基准,在大多数绩效指标上的参考基准,相对于古典动量,夏普的比率和改进的速度比较提高了三倍。在没有交易成本的情况下,大约50%的基准模型。即使考虑到与加密货币相关的高交易成本后,它仍会继续超过基准。
translated by 谷歌翻译
在线广告收入占发布者的收入流越来越多的份额,特别是对于依赖谷歌和Facebook等技术公司广告网络的中小型出版商而言。因此,出版商可能会从准确的在线广告收入预测中获益,以更好地管理其网站货币化战略。但是,只能获得自己的收入数据的出版商缺乏出版商广告总市场的整体视图,这反过来限制了他们在他们未来的在线广告收入中产生见解的能力。为了解决这一业务问题,我们利用了一个专有的数据库,包括来自各种各样的地区的大量出版商的Google Adsense收入。我们采用时间融合变压器(TFT)模型,这是一种新的基于关注的架构,以预测出版商的广告收入。我们利用多个协变量,不仅包括出版商自己的特征,还包括其他出版商的广告收入。我们的预测结果优于多个时间范围的几个基准深度学习时间系列预测模型。此外,我们通过分析可变重要性重量来识别显着的特征和自我注意重量来解释结果,以揭示持久的时间模式。
translated by 谷歌翻译
为了提高风能生产的安全性和可靠性,短期预测已成为最重要的。这项研究的重点是挪威大陆架的多步时时空风速预测。图形神经网络(GNN)体系结构用于提取空间依赖性,具有不同的更新功能以学习时间相关性。这些更新功能是使用不同的神经网络体系结构实现的。近年来,一种这样的架构,即变压器,在序列建模中变得越来越流行。已经提出了对原始体系结构的各种改动,以更好地促进时间序列预测,本研究的重点是告密者Logsparse Transformer和AutoFormer。这是第一次将logsparse变压器和自动形态应用于风预测,并且第一次以任何一种或告密者的形式在时空设置以进行风向预测。通过比较时空长的短期记忆(LSTM)和多层感知器(MLP)模型,该研究表明,使用改变的变压器体系结构作为GNN中更新功能的模型能够超越这些功能。此外,我们提出了快速的傅立叶变压器(FFTRANSFORMER),该变压器是基于信号分解的新型变压器体系结构,由两个单独的流组成,分别分析趋势和周期性成分。发现FFTRANSFORMER和自动成型器可在10分钟和1小时的预测中取得优异的结果,而FFTRANSFORMER显着优于所有其他模型的4小时预测。最后,通过改变图表表示的连通性程度,该研究明确说明了所有模型如何利用空间依赖性来改善局部短期风速预测。
translated by 谷歌翻译
Time series forecasting is an important problem across many domains, including predictions of solar plant energy output, electricity consumption, and traffic jam situation. In this paper, we propose to tackle such forecasting problem with Transformer [1]. Although impressed by its performance in our preliminary study, we found its two major weaknesses: (1) locality-agnostics: the point-wise dotproduct self-attention in canonical Transformer architecture is insensitive to local context, which can make the model prone to anomalies in time series; (2) memory bottleneck: space complexity of canonical Transformer grows quadratically with sequence length L, making directly modeling long time series infeasible. In order to solve these two issues, we first propose convolutional self-attention by producing queries and keys with causal convolution so that local context can be better incorporated into attention mechanism. Then, we propose LogSparse Transformer with only O(L(log L) 2 ) memory cost, improving forecasting accuracy for time series with fine granularity and strong long-term dependencies under constrained memory budget. Our experiments on both synthetic data and realworld datasets show that it compares favorably to the state-of-the-art.
translated by 谷歌翻译
Time series anomaly detection has applications in a wide range of research fields and applications, including manufacturing and healthcare. The presence of anomalies can indicate novel or unexpected events, such as production faults, system defects, or heart fluttering, and is therefore of particular interest. The large size and complex patterns of time series have led researchers to develop specialised deep learning models for detecting anomalous patterns. This survey focuses on providing structured and comprehensive state-of-the-art time series anomaly detection models through the use of deep learning. It providing a taxonomy based on the factors that divide anomaly detection models into different categories. Aside from describing the basic anomaly detection technique for each category, the advantages and limitations are also discussed. Furthermore, this study includes examples of deep anomaly detection in time series across various application domains in recent years. It finally summarises open issues in research and challenges faced while adopting deep anomaly detection models.
translated by 谷歌翻译
Many real-world applications require the prediction of long sequence time-series, such as electricity consumption planning. Long sequence time-series forecasting (LSTF) demands a high prediction capacity of the model, which is the ability to capture precise long-range dependency coupling between output and input efficiently. Recent studies have shown the potential of Transformer to increase the prediction capacity. However, there are several severe issues with Transformer that prevent it from being directly applicable to LSTF, including quadratic time complexity, high memory usage, and inherent limitation of the encoder-decoder architecture. To address these issues, we design an efficient transformer-based model for LSTF, named Informer, with three distinctive characteristics: (i) a ProbSparse self-attention mechanism, which achieves O(L log L) in time complexity and memory usage, and has comparable performance on sequences' dependency alignment. (ii) the self-attention distilling highlights dominating attention by halving cascading layer input, and efficiently handles extreme long input sequences. (iii) the generative style decoder, while conceptually simple, predicts the long time-series sequences at one forward operation rather than a step-by-step way, which drastically improves the inference speed of long-sequence predictions. Extensive experiments on four large-scale datasets demonstrate that Informer significantly outperforms existing methods and provides a new solution to the LSTF problem.
translated by 谷歌翻译
概率时间序列预测在许多应用领域至关重要,例如零售,电子商务,金融或生物学。随着大量数据的增加,已经提出了许多神经架构为此问题。特别是,基于变压器的方法实现了现实世界基准的最先进的性能。然而,这些方法需要了解大量参数,这对培训此类模型的计算资源施加了高的内存要求。为了解决这个问题,我们介绍了一种新颖的双向时间卷积网络(Bitcn),该网络(Bitcn)需要比公共变换器的方法更少的参数较少的阶数。我们的模型结合了两个时间卷积网络(TCN):第一个网络编码了时间序列的未来协变量,而第二网络编码过往观察和协变量。我们通过这两个网络联合估计输出分布的参数。四个现实世界数据集的实验表明,我们的方法与四个最先进的概率预测方法进行了表演,包括基于变压器的方法和Wavenet,在两点指标(Smape,NRMSE)以及A上大多数情况下的范围指标(定量损失百分位数)集。其次,我们证明我们的方法比基于变压器的方法所需的参数明显更少,这意味着模型可以培训更快,内存要求显着降低,因此降低了部署这些模型的基础架构成本。
translated by 谷歌翻译
预测基金绩效对投资者和基金经理都是有益的,但这是一项艰巨的任务。在本文中,我们测试了深度学习模型是否比传统统计技术更准确地预测基金绩效。基金绩效通常通过Sharpe比率进行评估,该比例代表了风险调整的绩效,以确保基金之间有意义的可比性。我们根据每月收益率数据序列数据计算了年度夏普比率,该数据的时间序列数据为600多个投资于美国上市大型股票的开放式共同基金投资。我们发现,经过现代贝叶斯优化训练的长期短期记忆(LSTM)和封闭式复发单元(GRUS)深度学习方法比传统统计量相比,预测基金的Sharpe比率更高。结合了LSTM和GRU的预测的合奏方法,可以实现所有模型的最佳性能。有证据表明,深度学习和结合能提供有希望的解决方案,以应对基金绩效预测的挑战。
translated by 谷歌翻译
近年来,已对变压器进行了积极研究,以预测。尽管在各种情况下经常显示出令人鼓舞的结果,但传统的变压器并非旨在充分利用时间序列数据的特征,因此遭受了一些根本的限制,例如,它们通常缺乏分解能力和解释性,并且既不有效,也没有有效的效率 - 期望。在本文中,我们提出了一种新颖的时间序列变压器体系结构Etsformer,它利用了指数平滑的原理,以改善变压器的时间序列预测。特别是,受到预测时间序列的经典指数平滑方法的启发,我们提出了新型的指数平滑注意力(ESA)和频率注意(FA),以替代香草变压器中的自我发挥机制,从而提高了准确性和效率。基于这些,我们使用模块化分解块重新设计了变压器体系结构,以便可以学会将时间序列数据分解为可解释的时间序列组件,例如水平,增长和季节性。对各种时间序列基准的广泛实验验证了该方法的功效和优势。代码可从https://github.com/salesforce/etsformer获得。
translated by 谷歌翻译
在本文中,我们研究了中途公司,即在市场资本化少于100亿美元的公开交易公司。在30年内使用美国中载公司的大型数据集,我们期望通过中期预测默认的概率术语结构,了解哪些数据源(即基本,市场或定价数据)对违约风险贡献最多。然而,现有方法通常要求来自不同时间段的数据首先聚合并转变为横截面特征,我们将问题框架作为多标签时间级分类问题。我们适应变压器模型,从自然语言处理领域发出的最先进的深度学习模型,以信用风险建模设置。我们还使用注意热图解释这些模型的预测。为了进一步优化模型,我们为多标签分类和新型多通道架构提供了一种自定义损耗功能,具有差异训练,使模型能够有效地使用所有输入数据。我们的结果表明,拟议的深度学习架构的卓越性能,导致传统模型的AUC(接收器运行特征曲线下的区域)提高了13%。我们还展示了如何使用特定于这些模型的福利方法生成不同数据源和时间关系的重要性排名。
translated by 谷歌翻译
最近,对于长期时间序列预测(LTSF)任务,基于变压器的解决方案激增。尽管过去几年的表现正在增长,但我们质疑这项研究中这一研究的有效性。具体而言,可以说,变形金刚是最成功的解决方案,是在长序列中提取元素之间的语义相关性。但是,在时间序列建模中,我们要在一组连续点的有序集中提取时间关系。在采用位置编码和使用令牌将子系列嵌入变压器中的同时,有助于保留某些订购信息,但\ emph {置换不变}的自我注意力专注机制的性质不可避免地会导致时间信息损失。为了验证我们的主张,我们介绍了一组名为LTSF线性的令人尴尬的简单单层线性模型,以进行比较。在九个现实生活数据集上的实验结果表明,LTSF线性在所有情况下都超过现有的基于变压器的LTSF模型,并且通常要大幅度较大。此外,我们进行了全面的经验研究,以探索LTSF模型各种设计元素对其时间关系提取能力的影响。我们希望这一令人惊讶的发现为LTSF任务打开了新的研究方向。我们还主张重新审视基于变压器解决方案对其他时间序列分析任务(例如,异常检测)的有效性。代码可在:\ url {https://github.com/cure-lab/ltsf-linear}中获得。
translated by 谷歌翻译
时间变化数量的估计是医疗保健和金融等领域决策的基本组成部分。但是,此类估计值的实际实用性受到它们量化预测不确定性的准确程度的限制。在这项工作中,我们解决了估计高维多元时间序列的联合预测分布的问题。我们提出了一种基于变压器体系结构的多功能方法,该方法使用基于注意力的解码器估算关节分布,该解码器可被学会模仿非参数Copulas的性质。最终的模型具有多种理想的属性:它可以扩展到数百个时间序列,支持预测和插值,可以处理不规则和不均匀的采样数据,并且可以在训练过程中无缝地适应丢失的数据。我们从经验上证明了这些属性,并表明我们的模型在多个现实世界数据集上产生了最新的预测。
translated by 谷歌翻译
The stock market prediction has been a traditional yet complex problem researched within diverse research areas and application domains due to its non-linear, highly volatile and complex nature. Existing surveys on stock market prediction often focus on traditional machine learning methods instead of deep learning methods. Deep learning has dominated many domains, gained much success and popularity in recent years in stock market prediction. This motivates us to provide a structured and comprehensive overview of the research on stock market prediction focusing on deep learning techniques. We present four elaborated subtasks of stock market prediction and propose a novel taxonomy to summarize the state-of-the-art models based on deep neural networks from 2011 to 2022. In addition, we also provide detailed statistics on the datasets and evaluation metrics commonly used in the stock market. Finally, we highlight some open issues and point out several future directions by sharing some new perspectives on stock market prediction.
translated by 谷歌翻译
Previous attempts to predict stock price from limit order book (LOB) data are mostly based on deep convolutional neural networks. Although convolutions offer efficiency by restricting their operations to local interactions, it is at the cost of potentially missing out on the detection of long-range dependencies. Recent studies address this problem by employing additional recurrent or attention layers that increase computational complexity. In this work, we propose Axial-LOB, a novel fully-attentional deep learning architecture for predicting price movements of stocks from LOB data. By utilizing gated position-sensitive axial attention layers our architecture is able to construct feature maps that incorporate global interactions, while significantly reducing the size of the parameter space. Unlike previous works, Axial-LOB does not rely on hand-crafted convolutional kernels and hence has stable performance under input permutations and the capacity to incorporate additional LOB features. The effectiveness of Axial-LOB is demonstrated on a large benchmark dataset, containing time series representations of millions of high-frequency trading events, where our model establishes a new state of the art, achieving an excellent directional classification performance at all tested prediction horizons.
translated by 谷歌翻译
在本文中,我们呈现SSDNet,这是一个新的时间序列预测的深层学习方法。SSDNet将变压器架构与状态空间模型相结合,提供概率和可解释的预测,包括趋势和季节性成分以及前一步对预测很重要。变压器架构用于学习时间模式并直接有效地估计状态空间模型的参数,而无需对卡尔曼滤波器的需要。我们全面评估了SSDNET在五个数据集上的性能,显示SSDNet是一种有效的方法,可在准确性和速度,优于最先进的深度学习和统计方法方面是一种有效的方法,能够提供有意义的趋势和季节性组件。
translated by 谷歌翻译