试图预测资产价格将增加或减少的二进制分类器,自然会导致预测的交易策略,从而总是在市场上有一个位置。选择性分类扩展了二进制或多级分类器,以允许它避免对某些输入进行预测,从而允许所得到的选择分类器的准确性与输入特征空间的覆盖范围之间的折衷。选择性分类器会导致贸易策略,当分类器弃权时不采取交易职位。我们调查二元和三元选择性分类对交易策略设计的应用。对于Ternary分类,除了上课的课程上涨或下降之外,我们还包括第三个类,它对应于相对较小的价格在任一方向上移动,并给予分类器另一种方式来避免进行方向预测。我们使用前瞻性的火车验证 - 测试方法来评估和比较基于四种分类方法的几个不同特征集的二进制和三元,选择性和非选择性分类器:逻辑回归,随机森林,前馈和复发性神经网络网络。然后,我们将这些分类器转变为我们在商品期货市场上进行反向的交易策略。我们的经验结果展示了交易选择性分类的潜力。
translated by 谷歌翻译
尽管机器学习方法已在金融领域广泛使用,但在非常成功的学位上,这些方法仍然可以根据解释性,可比性和可重复性来定制特定研究和不透明。这项研究的主要目的是通过提供一种通用方法来阐明这一领域,该方法是调查 - 不合Snostic且可解释给金融市场从业人员,从而提高了其效率,降低了进入的障碍,并提高了实验的可重复性。提出的方法在两个自动交易平台组件上展示。也就是说,价格水平,众所周知的交易模式和一种新颖的2步特征提取方法。该方法依赖于假设检验,该假设检验在其他社会和科学学科中广泛应用,以有效地评估除简单分类准确性之外的具体结果。提出的主要假设是为了评估所选的交易模式是否适合在机器学习设置中使用。在整个实验中,我们发现在机器学习设置中使用所考虑的交易模式仅由统计数据得到部分支持,从而导致效果尺寸微不足道(反弹7- $ 0.64 \ pm 1.02 $,反弹11 $ 0.38 \ pm 0.98 $,并且篮板15- $ 1.05 \ pm 1.16 $),但允许拒绝零假设。我们展示了美国期货市场工具上的通用方法,并提供了证据表明,通过这种方法,我们可以轻松获得除传统绩效和盈利度指标之外的信息指标。这项工作是最早将这种严格的统计支持方法应用于金融市场领域的工作之一,我们希望这可能是更多研究的跳板。
translated by 谷歌翻译
预测基金绩效对投资者和基金经理都是有益的,但这是一项艰巨的任务。在本文中,我们测试了深度学习模型是否比传统统计技术更准确地预测基金绩效。基金绩效通常通过Sharpe比率进行评估,该比例代表了风险调整的绩效,以确保基金之间有意义的可比性。我们根据每月收益率数据序列数据计算了年度夏普比率,该数据的时间序列数据为600多个投资于美国上市大型股票的开放式共同基金投资。我们发现,经过现代贝叶斯优化训练的长期短期记忆(LSTM)和封闭式复发单元(GRUS)深度学习方法比传统统计量相比,预测基金的Sharpe比率更高。结合了LSTM和GRU的预测的合奏方法,可以实现所有模型的最佳性能。有证据表明,深度学习和结合能提供有希望的解决方案,以应对基金绩效预测的挑战。
translated by 谷歌翻译
股票市场的不可预测性和波动性使得使用任何广义计划赚取可观的利润具有挑战性。许多先前的研究尝试了不同的技术来建立机器学习模型,这可以通过进行实时交易来在美国股票市场赚取可观的利润。但是,很少有研究重点是在特定交易期找到最佳功能的重要性。我们的顶级方法使用该性能将功能从总共148缩小到大约30。此外,在每次训练我们的机器学习模型之前,都会动态选择前25个功能。它与四个分类器一起使用合奏学习:高斯天真贝叶斯,决策树,带L1正则化的逻辑回归和随机梯度下降,以决定是长时间还是短的特定股票。我们的最佳模型在2011年7月至2019年1月之间进行的每日交易,可获得54.35%的利润。最后,我们的工作表明,加权分类器的混合物的表现要比任何在股票市场做出交易决策的个人预测指标更好。
translated by 谷歌翻译
本文调查了股票回购,特别是分享回购公告。它解决了如何识别此类公告,股票回购的超额回报以及股票回购公告后的回报的预测。我们说明了两种NLP方法,用于自动检测股票回购公告。即使有少量的培训数据,我们也可以达到高达90%的准确性。该论文利用这些NLP方法生成一个由57,155个股票回购公告组成的大数据集。通过分析该数据集,本论文的目的是表明大多数宣布回购的公司的大多数公司都表现不佳。但是,少数公司的表现极大地超过了MSCI世界。当查看所有公司的平均值时,这种重要的表现过高会导致净收益。如果根据公司的规模调整了基准指数,则平均表现过高,并且大多数表现不佳。但是,发现宣布股票回购的公司至少占其市值的1%,即使使用调整后的基准,也平均交付了显着的表现。还发现,在危机时期宣布股票回购的公司比整个市场更好。此外,生成的数据集用于训练72个机器学习模型。通过此,它能够找到许多可以达到高达77%并产生大量超额回报的策略。可以在六个不同的时间范围内改善各种性能指标,并确定明显的表现。这是通过训练多个模型的不同任务和时间范围以及结合这些不同模型的方法来实现的,从而通过融合弱学习者来产生重大改进,以创造一个强大的学习者。
translated by 谷歌翻译
决定何时购买或出售股票并不是一件容易的事,因为市场难以预测,受到政治和经济因素的影响。因此,基于计算智能的方法已应用于这个具有挑战性的问题。在这项工作中,每天使用技术分析标准以相似性(TOPSIS)的相似性(TOPSIS)对订单偏好进行排名,并选择最合适的股票进行购买。即便如此,在某些日子甚至Topsis都会选择不正确的选择。为了改善选择,应使用另一种方法。因此,提出了由经验模式分解(EMD)和极端学习机(ELM)组成的混合模型。 EMD将系列分解为几个子系列,因此提取了主要组分(趋势)。该组件由ELM处理,该组件执行下一个组件元素的预测。如果榆树预测的价值大于最后一个值,则确认购买股票的价值。该方法应用于巴西市场的50个股票的宇宙。与随机选择和Bovespa指数产生的回报相比,Topsis进行的选择显示出令人鼓舞的结果。使用EMD-ELM混合动力模型的确认能够增加利润交易的百分比。
translated by 谷歌翻译
在本文中,我们研究了中途公司,即在市场资本化少于100亿美元的公开交易公司。在30年内使用美国中载公司的大型数据集,我们期望通过中期预测默认的概率术语结构,了解哪些数据源(即基本,市场或定价数据)对违约风险贡献最多。然而,现有方法通常要求来自不同时间段的数据首先聚合并转变为横截面特征,我们将问题框架作为多标签时间级分类问题。我们适应变压器模型,从自然语言处理领域发出的最先进的深度学习模型,以信用风险建模设置。我们还使用注意热图解释这些模型的预测。为了进一步优化模型,我们为多标签分类和新型多通道架构提供了一种自定义损耗功能,具有差异训练,使模型能够有效地使用所有输入数据。我们的结果表明,拟议的深度学习架构的卓越性能,导致传统模型的AUC(接收器运行特征曲线下的区域)提高了13%。我们还展示了如何使用特定于这些模型的福利方法生成不同数据源和时间关系的重要性排名。
translated by 谷歌翻译
AI和数据驱动的解决方案已应用于不同的领域,并实现了优于和有希望的结果。在这项研究工作中,我们应用了K-Neart最邻居,极端的梯度提升和随机森林分类器来检测三个加密货币市场的趋势问题。我们使用这些分类器来设计一种在这些市场中进行交易的策略。我们在实验中的输入数据包括在单独的测试中使用或没有技术指标的价格数据,以查看使用它们的效果。我们对看不见数据的测试结果非常有前途,并在帮助具有专家系统的投资者利用市场并获利的投资者方面具有巨大的潜力。我们看不见的66天跨度的最高利润因子是1.60。我们还讨论了这些方法的局限性及其对有效市场假设的潜在影响。
translated by 谷歌翻译
在免费增值游戏中,玩家的收入来自于应用内购买以及该玩家所曝光的广告。玩家玩游戏越长,他或她将在游戏中产生收入的机会就越高。在这种情况下,能够及时检测玩家即将退出比赛(Churn)以做出反应并尝试将玩家保留在游戏中,从而延长他或她的游戏寿命非常重要。在本文中,我们调查了如何通过使用不同的神经网络体系结构组合顺序和汇总数据来改善流失预测中最新的最新预测。比较分析的结果表明,两种数据类型的组合可以根据纯粹的顺序或纯聚合数据来提高预测准确性比预测因子。
translated by 谷歌翻译
本文旨在提出和应用机器学习方法,以使用其组件的历史回报数据来分析交易所交易基金(ETF)的回报方向,从而通过交易算法有助于制定投资策略决策。从方法论方面,除了算法误差指标外,还使用来自巴西和美国市场的标准数据集应用了回归和分类模型。在研究结果方面,它们进行了分析并将其与NA \“ Ive”预测和购买和持有技术在同一时期获得的收益进行了比较。就风险和回报而言,模型的性能大多要比控制指标重点是线性回归模型和通过逻辑回归的分类模型,支持向量机(使用LinearsVC模型),高斯天真的贝叶斯和K-Nearest邻居,在某些数据集中,在某些数据集中,回报超过了两次,并且夏普比率高达购买和持有控制模型的比率四倍。
translated by 谷歌翻译
As ride-hailing services become increasingly popular, being able to accurately predict demand for such services can help operators efficiently allocate drivers to customers, and reduce idle time, improve congestion, and enhance the passenger experience. This paper proposes UberNet, a deep learning Convolutional Neural Network for short-term prediction of demand for ride-hailing services. UberNet empploys a multivariate framework that utilises a number of temporal and spatial features that have been found in the literature to explain demand for ride-hailing services. The proposed model includes two sub-networks that aim to encode the source series of various features and decode the predicting series, respectively. To assess the performance and effectiveness of UberNet, we use 9 months of Uber pickup data in 2014 and 28 spatial and temporal features from New York City. By comparing the performance of UberNet with several other approaches, we show that the prediction quality of the model is highly competitive. Further, Ubernet's prediction performance is better when using economic, social and built environment features. This suggests that Ubernet is more naturally suited to including complex motivators in making real-time passenger demand predictions for ride-hailing services.
translated by 谷歌翻译
良好的研究努力致力于利用股票预测中的深度神经网络。虽然远程依赖性和混沌属性仍然是在预测未来价格趋势之前降低最先进的深度学习模型的表现。在这项研究中,我们提出了一个新的框架来解决这两个问题。具体地,在将时间序列转换为复杂网络方面,我们将市场价格系列转换为图形。然后,从映射的图表中提取参考时间点和节点权重之间的关联的结构信息以解决关于远程依赖性和混沌属性的问题。我们采取图形嵌入式以表示时间点之间的关联作为预测模型输入。节点重量被用作先验知识,以增强时间关注的学习。我们拟议的框架的有效性通过现实世界股票数据验证,我们的方法在几个最先进的基准中获得了最佳性能。此外,在进行的交易模拟中,我们的框架进一步获得了最高的累积利润。我们的结果补充了复杂网络方法在金融领域的现有应用,并为金融市场中决策支持的投资应用提供了富有识别的影响。
translated by 谷歌翻译
基于签名的技术使数学洞察力洞悉不断发展的数据的复杂流之间的相互作用。这些见解可以自然地转化为理解流数据的数值方法,也许是由于它们的数学精度,已被证明在数据不规则而不是固定的情况下分析流的数据以及数据和数据的尺寸很有用样本量均为中等。了解流的多模式数据是指数的:$ d $ d $的字母中的$ n $字母中的一个单词可以是$ d^n $消息之一。签名消除了通过采样不规则性引起的指数级噪声,但仍然存在指数量的信息。这项调查旨在留在可以直接管理指数缩放的域中。在许多问题中,可伸缩性问题是一个重要的挑战,但需要另一篇调查文章和进一步的想法。这项调查描述了一系列环境集足够小以消除大规模机器学习的可能性,并且可以有效地使用一小部分免费上下文和原则性功能。工具的数学性质可以使他们对非数学家的使用恐吓。本文中介绍的示例旨在弥合此通信差距,并提供从机器学习环境中绘制的可进行的工作示例。笔记本可以在线提供这些示例中的一些。这项调查是基于伊利亚·雪佛兰(Ilya Chevryev)和安德烈·科米利津(Andrey Kormilitzin)的早期论文,它们在这种机械开发的较早时刻大致相似。本文说明了签名提供的理论见解是如何在对应用程序数据的分析中简单地实现的,这种方式在很大程度上对数据类型不可知。
translated by 谷歌翻译
Full electronic automation in stock exchanges has recently become popular, generating high-frequency intraday data and motivating the development of near real-time price forecasting methods. Machine learning algorithms are widely applied to mid-price stock predictions. Processing raw data as inputs for prediction models (e.g., data thinning and feature engineering) can primarily affect the performance of the prediction methods. However, researchers rarely discuss this topic. This motivated us to propose three novel modelling strategies for processing raw data. We illustrate how our novel modelling strategies improve forecasting performance by analyzing high-frequency data of the Dow Jones 30 component stocks. In these experiments, our strategies often lead to statistically significant improvement in predictions. The three strategies improve the F1 scores of the SVM models by 0.056, 0.087, and 0.016, respectively.
translated by 谷歌翻译
对于长期来说,研究人员一直在开发可靠而准确的股票价格预测预测模型。根据文献,如果预测模型是正确的设计和精炼,他们可以煞费苦心地和忠实地估计未来的库存价值。本文展示了一组时间序列,计量经济性和各种基于学习的股票价格预测模型。在此处使用来自2004年1月至2019年12月至2019年12月的Infosys,Icici和Sun Pharma的数据用于培训和测试模型,以了解哪种模型在哪个部门中表现最佳。一个时间序列模型(Holt-Winters指数平滑),一个计量计量模型(Arima),两台机器学习模型(随机林和火星),以及两种深度学习的模型(简单的RNN和LSTM)已被列入本文。火星已被证明是最好的执行机器学习模式,而LSTM已被证明是表现最好的深层学习模式。但总体而言,对于所有三个部门 - 它(在Infosys数据上),银行业务(在ICICI数据)和健康(在Sun Pharma数据上),Mars已被证明是销售预测中最佳表现模式。
translated by 谷歌翻译
The application of deep learning algorithms to financial data is difficult due to heavy non-stationarities which can lead to over-fitted models that underperform under regime changes. Using the Numerai tournament data set as a motivating example, we propose a machine learning pipeline for trading market-neutral stock portfolios based on tabular data which is robust under changes in market conditions. We evaluate various machine-learning models, including Gradient Boosting Decision Trees (GBDTs) and Neural Networks with and without simple feature engineering, as the building blocks for the pipeline. We find that GBDT models with dropout display high performance, robustness and generalisability with relatively low complexity and reduced computational cost. We then show that online learning techniques can be used in post-prediction processing to enhance the results. In particular, dynamic feature neutralisation, an efficient procedure that requires no retraining of models and can be applied post-prediction to any machine learning model, improves robustness by reducing drawdown in volatile market conditions. Furthermore, we demonstrate that the creation of model ensembles through dynamic model selection based on recent model performance leads to improved performance over baseline by improving the Sharpe and Calmar ratios. We also evaluate the robustness of our pipeline across different data splits and random seeds with good reproducibility of results.
translated by 谷歌翻译
大多数机器学习算法由一个或多个超参数配置,必须仔细选择并且通常会影响性能。为避免耗时和不可递销的手动试验和错误过程来查找性能良好的超参数配置,可以采用各种自动超参数优化(HPO)方法,例如,基于监督机器学习的重新采样误差估计。本文介绍了HPO后,本文审查了重要的HPO方法,如网格或随机搜索,进化算法,贝叶斯优化,超带和赛车。它给出了关于进行HPO的重要选择的实用建议,包括HPO算法本身,性能评估,如何将HPO与ML管道,运行时改进和并行化结合起来。这项工作伴随着附录,其中包含关于R和Python的特定软件包的信息,以及用于特定学习算法的信息和推荐的超参数搜索空间。我们还提供笔记本电脑,这些笔记本展示了这项工作的概念作为补充文件。
translated by 谷歌翻译
公共收费站占用预测在开发智能充电策略方面发挥了重要意义,以减少电动车辆(EV)操作员和用户不便。然而,现有研究主要基于具有有限的准确度的传统经济学或时间序列方法。我们提出了一种新的混合长期内记忆神经网络,其包括历史充电状态序列和时间相关的特征,用于多步离散充电占用状态预测。与现有的LSTM网络不同,所提出的模型将不同类型的特征分开,并用混合神经网络架构处理它们。该模型与许多最先进的机器学习和深度学习方法进行了比较,基于从英国邓迪市的开放数据门户网站获得的EV充电数据。结果表明,该方法分别产生非常准确的预测(99.99%和81.87%,分别前进(10分钟)和6个步骤(1小时),优于基准接近的(+ 22.4%)前方预测和6步前方的预测和6.2%)。进行灵敏度分析,以评估模型参数对预测精度的影响。
translated by 谷歌翻译
评估能源转型和能源市场自由化对资源充足性的影响是一种越来越重要和苛刻的任务。能量系统的上升复杂性需要足够的能量系统建模方法,从而提高计算要求。此外,随着复杂性,同样调用概率评估和场景分析同样增加不确定性。为了充分和高效地解决这些各种要求,需要来自数据科学领域的新方法来加速当前方法。通过我们的系统文献综述,我们希望缩小三个学科之间的差距(1)电力供应安全性评估,(2)人工智能和(3)实验设计。为此,我们对所选应用领域进行大规模的定量审查,并制作彼此不同学科的合成。在其他发现之外,我们使用基于AI的方法和应用程序的AI方法和应用来确定电力供应模型的复杂安全性的元素,并作为未充分涵盖的应用领域的储存调度和(非)可用性。我们结束了推出了一种新的方法管道,以便在评估电力供应安全评估时充分有效地解决当前和即将到来的挑战。
translated by 谷歌翻译
在这项研究中,我们提出了一个深入的学习优化框架,以解决动态的混合企业计划。具体而言,我们开发了双向长期内存(LSTM)框架,可以及时向前和向后处理信息,以学习最佳解决方案,以解决顺序决策问题。我们展示了我们在预测单项电容批号问题(CLSP)的最佳决策方面的方法,其中二进制变量表示是否在一个时期内产生。由于问题的动态性质,可以将CLSP视为序列标记任务,在该任务中,复发性神经网络可以捕获问题的时间动力学。计算结果表明,我们的LSTM优化(LSTM-OPT)框架大大减少了基准CLSP问题的解决方案时间,而没有太大的可行性和最佳性。例如,对于240,000多个测试实例,在85 \%级别的预测平均将CPLEX溶液的时间减少了9倍,最佳差距小于0.05 \%\%和0.4 \%\%\%\%\%的不可行性。此外,使用较短的计划范围训练的模型可以成功预测具有更长计划范围的实例的最佳解决方案。对于最困难的数据集,LSTM在25 \%级别的LSTM预测将70 CPU小时的溶液时间降低至小于2 CPU分钟,最佳差距为0.8 \%,而没有任何不可行。 LSTM-OPT框架在解决方案质量和精确方法方面,诸如Logistic回归和随机森林之类的经典ML算法(例如($ \ ell $,s)和基于动态编程的不平等,解决方案时间的改进。我们的机器学习方法可能有益于解决类似于CLSP的顺序决策问题,CLSP需要重复,经常和快速地解决。
translated by 谷歌翻译