In this work, a machine learning approach is developed for predicting the outcomes of football matches. The novelty of this research lies in the utilisation of the Kelly Index to first classify matches into categories where each one denotes the different levels of predictive difficulty. Classification models using a wide suite of algorithms were developed for each category of matches in order to determine the efficacy of the approach. In conjunction to this, a set of previously unexplored features were engineering including Elo-based variables. The dataset originated from the Premier League match data covering the 2019-2021 seasons. The findings indicate that the process of decomposing the predictive problem into sub-tasks was effective and produced competitive results with prior works, while the ensemble-based methods were the most effective. The paper also devised an investment strategy in order to evaluate its effectiveness by benchmarking against bookmaker odds. An approach was developed that minimises risk by combining the Kelly Index with the predefined confidence thresholds of the predictive models. The experiments found that the proposed strategy can return a profit when following a conservative approach that focuses primarily on easy-to-predict matches where the predictive models display a high confidence level.
translated by 谷歌翻译
机器学习已成为包括运动在内的多个领域的工程设计和决策的组成部分。深度神经网络(DNNS)一直是预测职业体育赛事结果的最新方法。但是,除了对这些体育活动成果进行高度准确的预测外,还必须回答诸如“为什么模型预测A团队会赢得与B队的比赛?”之类的问题? DNN本质上是本质上的黑框。因此,需要为模型在运动中的预测提供高质量的可解释的解释性解释。本文探讨了两步可解释的人工智能(XAI)方法,以预测巴西排球联盟(Superliga)中比赛的结果。在第一阶段,我们直接使用可解释的基于规则的ML模型,这些模型可以根据布尔规则列的生成(BRCG;提取简单和 - 或分类规则)和逻辑回归(logReg;允许估算)对模型的行为进行全局理解。功能重要性得分)。在第二阶段,我们构建了非线性模型,例如支持向量机(SVM)和深神经网络(DNN),以在排球比赛的结果上获得预测性能。我们使用ProtoDash为每个数据实例构建了“事后”解释,该方法在训练数据集中找到原型,与测试实例最相似,而Shap是一种估计每个功能在模型预测中的贡献的方法。我们使用忠诚度量标准评估了摇摆的解释。我们的结果证明了对模型预测的解释的有效性。
translated by 谷歌翻译
这份手稿专注于NBA篮球锦标赛比赛结果的特点“定义。显示了如何基于一个单一特征(ELO评级或相对胜利频率)的模型的质量优于使用箱得分预测器的模型(例如四个因素)。特征是EX ANTE,计算了包含16个NBA常规季节数据的数据集,特别注意主场因素。模型已经通过深度学习生产,使用交叉验证。
translated by 谷歌翻译
体育运动员的转会费已成为天文学。这是因为将具有巨大未来价值的球员带给俱乐部对于他们的生存至关重要。我们介绍了一个案例研究,该案例研究基于FIFA数据分析,影响世界顶级足球运动员的转移费用。为了预测每个玩家的市场价值,我们通过使用树结构化的Parzen估计量(TPE)算法优化其超参数来提出改进的LightGBM模型。我们通过Shapley添加说明(SHAP)算法确定突出特征。已提出的方法已与基线回归模型(例如线性回归,拉索,弹性净,内核脊回归)和没有超参数优化的梯度增强模型进行了比较。与回归基线模型,GBDT和LightGBM模型相比,优化的LightGBM模型平均表现出的出色精度约为3.8、1.4和1.8倍。我们的模型在确定未来招募足球俱乐部应考虑的属性方面提供了解释性。
translated by 谷歌翻译
在现代世界中,数据科学和分析以优化或预测结果的应用无处不在。数据科学和分析已经优化了市场中存在的几乎所有领域。在我们的调查中,我们专注于如何在体育领域采用分析领域,以及它如何促进游戏的转型,从评估现场玩家及其选择到赢得团队的预测以及大型体育比赛的门票和商业方面的营销。我们将介绍体育分析领域采用的不同运动的分析工具,算法和方法论,并介绍我们对同一体育的看法,我们还将比较和对比这些现有方法。通过这样做,我们还将介绍任何希望尝试体育数据并分析游戏的各个方面的人考虑的最佳工具,算法和分析方法。
translated by 谷歌翻译
Twenty20板球,有时是二十20,经常缩写为T20,是板球的一小部分。在一场二十二十比赛中,两支球员组成的两支球队都有一局,最多仅限20分。这个版本的板球尤其是不可预测的,这是它最近在近期越来越受欢迎的原因之一。但是,在本文中,我们尝试了四种不同的方法来预测T20板球比赛的结果。具体来说,我们要考虑:以前的竞争团队参与者的绩效统计数据,从知名的板球统计网站获得的球员的评分,以相似的性能统计数据和基于ELO基于ELO的方法来汇率玩家。我们通过使用逻辑回归,支持向量机,贝叶斯网络,决策树,随机森林来比较每种方法的性能。
translated by 谷歌翻译
竞争性在线游戏使用评分系统进行对接;基于进步的算法可以根据他们玩游戏的结果来估计具有可解释评分的玩家的技能水平。但是,玩家的总体体验是由超出其游戏唯一结果的因素来影响的。在本文中,我们设计了从游戏统计信息到模拟玩家的几个功能,并创建了准确代表其行为和真实绩效水平的评分。然后,我们将行为评级的估计能力与通过三个主流评分系统创建的评分的估计能力进行了比较,通过预测竞争激烈的射击游戏类型的四种流行游戏模式中的玩家排名。我们的结果表明,行为等级在维持创建表示形式的解释性的同时提出了更准确的绩效估计。考虑玩家的演奏行为的不同方面和使用行为等级进行对接可能会导致对决,这些比赛与玩家的目标和兴趣更加一致,因此导致了更愉快的游戏体验。
translated by 谷歌翻译
在学习分析领域的最新研究重点是利用机器学习方法来预测高危学生,以便及时启动干预措施,从而提高保留率和完成率。这些研究大多数的总体特征仅在预测科学方面。与解释模型内部的预测分析的组成部分,并在很大程度上忽略了其对利益相关者的个人案例的预测。此外,尝试使用数据驱动的规范分析来自动为高危学习者生成基于证据的补救建议的工作仍处于起步阶段。可解释的AI是一个最近出现的领域,它提供了尖端工具,该工具支持透明的预测分析和技术,以为高危学生生成量身定制的建议。这项研究提出了一个新的框架,该框架既可以统一透明的机器学习,又可以实现规定性分析的技术。这项工作实际上使用了使用预测模型来识别计划不完整的高危学习者的预测模型。然后,该研究进一步证明了如何通过两项案例研究的规定性分析来增强预测性建模,以便为有危险的人产生可读的规定反馈。
translated by 谷歌翻译
胜利预测对于了解电子竞技中的技能建模,团队合作和对接至关重要。在本文中,我们提出了GCN-WP,这是基于图形卷积网络的电子竞技的半监督胜利预测模型。该模型在一个赛季(1年)的过程中了解了电子竞技联盟的结构,并在另一个类似的联赛上做出了预测。该模型集成了有关比赛和玩家的30多个功能,并采用图形卷积根据他们的附近进行分类。与机器学习或LOL的技能评级模型相比,我们的模型可实现最先进的预测准确性。该框架是可以推广的,因此可以轻松地扩展到其他多人游戏在线游戏。
translated by 谷歌翻译
数字技术的发展和体育运动的日益普及激发了创新者,通过引入幻想体育平台FSP,将体育倾向的用户带到一个全新的不同层次上。数据科学和分析的应用在现代世界中无处不在。数据科学和分析打开门,以获得更深入的理解和帮助,以帮助决策过程。我们坚信,我们可以采用数据科学来预测FSP上的获胜幻想板球团队,Dream 11.我们建立了一个预测模型,可以预测潜在游戏中玩家的性能。我们结合了贪婪和背包算法的组合,开出了11名球员的组合,创建了一支幻想板球团队,这是最重要的统计赔率,即最大的团队成为最强的团队,从而使我们有更大的机会赢得梦想中的赌注。 11 FSP。我们使用Pycaret Python库来帮助我们理解并采用最佳回归算法来进行问题陈述,以做出精确的预测。此外,我们使用Plotly Python图书馆为我们提供了对团队的视觉见解,并且玩家通过计算前瞻性游戏的统计和主观因素来表演。交互作用图帮助我们提高了我们的预测模型的建议。您要么赢得大,赢得小巧,要么根据预期游戏中为您的幻想团队选出的球员的表现而失去赌注,而我们的模型增加了您赢得大的可能性。
translated by 谷歌翻译
本文调查了股票回购,特别是分享回购公告。它解决了如何识别此类公告,股票回购的超额回报以及股票回购公告后的回报的预测。我们说明了两种NLP方法,用于自动检测股票回购公告。即使有少量的培训数据,我们也可以达到高达90%的准确性。该论文利用这些NLP方法生成一个由57,155个股票回购公告组成的大数据集。通过分析该数据集,本论文的目的是表明大多数宣布回购的公司的大多数公司都表现不佳。但是,少数公司的表现极大地超过了MSCI世界。当查看所有公司的平均值时,这种重要的表现过高会导致净收益。如果根据公司的规模调整了基准指数,则平均表现过高,并且大多数表现不佳。但是,发现宣布股票回购的公司至少占其市值的1%,即使使用调整后的基准,也平均交付了显着的表现。还发现,在危机时期宣布股票回购的公司比整个市场更好。此外,生成的数据集用于训练72个机器学习模型。通过此,它能够找到许多可以达到高达77%并产生大量超额回报的策略。可以在六个不同的时间范围内改善各种性能指标,并确定明显的表现。这是通过训练多个模型的不同任务和时间范围以及结合这些不同模型的方法来实现的,从而通过融合弱学习者来产生重大改进,以创造一个强大的学习者。
translated by 谷歌翻译
预期的目标提供了对球队和球员表现的更具代表性的衡量标准,这也适合足球的低分性质,而不是现代足球比赛。比赛的得分涉及随机性,并且通常不能代表球队和球员的表现,因此近年来使用替代统计数据(例如目标,球控球和钻探)是很受欢迎的。为了衡量射击的可能性是预期目标的目标,使用了一些功能来训练基于事件并跟踪足球数据的预期目标模型。这些功能的选择,数据的大小和日期以及可能影响模型性能的参数。使用黑框机器学习模型来提高模型的预测性能,可降低其可解释性,从而导致可以从模型中收集的信息丢失。本文提出了一个准确的预期目标模型,该模型由2014 - 15年至2020 - 21年欧洲前五名的欧洲足球联赛的七个赛季中的315,430张训练。此外,通过使用可解释的人工智能工具来获取可解释的预期目标模型来评估团队或球员性能。据我们所知,这是第一篇论文,该论文展示了可解释的人工智能工具汇总配置文件的实际应用,以解释一组观察结果,以进行准确的预期目标模型,以监视团队和球员绩效。此外,这些方法可以推广到其他运动分支。
translated by 谷歌翻译
本文研究了与可解释的AI(XAI)实践有关的两个不同但相关的问题。机器学习(ML)在金融服务中越来越重要,例如预批准,信用承销,投资以及各种前端和后端活动。机器学习可以自动检测培训数据中的非线性和相互作用,从而促进更快,更准确的信用决策。但是,机器学习模型是不透明的,难以解释,这是建立可靠技术所需的关键要素。该研究比较了各种机器学习模型,包括单个分类器(逻辑回归,决策树,LDA,QDA),异质集合(Adaboost,随机森林)和顺序神经网络。结果表明,整体分类器和神经网络的表现优于表现。此外,使用基于美国P2P贷款平台Lending Club提供的开放式访问数据集评估了两种先进的事后不可解释能力 - 石灰和外形来评估基于ML的信用评分模型。对于这项研究,我们还使用机器学习算法来开发新的投资模型,并探索可以最大化盈利能力同时最大程度地降低风险的投资组合策略。
translated by 谷歌翻译
在本文中,我们研究了中途公司,即在市场资本化少于100亿美元的公开交易公司。在30年内使用美国中载公司的大型数据集,我们期望通过中期预测默认的概率术语结构,了解哪些数据源(即基本,市场或定价数据)对违约风险贡献最多。然而,现有方法通常要求来自不同时间段的数据首先聚合并转变为横截面特征,我们将问题框架作为多标签时间级分类问题。我们适应变压器模型,从自然语言处理领域发出的最先进的深度学习模型,以信用风险建模设置。我们还使用注意热图解释这些模型的预测。为了进一步优化模型,我们为多标签分类和新型多通道架构提供了一种自定义损耗功能,具有差异训练,使模型能够有效地使用所有输入数据。我们的结果表明,拟议的深度学习架构的卓越性能,导致传统模型的AUC(接收器运行特征曲线下的区域)提高了13%。我们还展示了如何使用特定于这些模型的福利方法生成不同数据源和时间关系的重要性排名。
translated by 谷歌翻译
在机器学习任务中,特别是在预测的任务中,科学家倾向于完全依赖于可用的历史数据,无视未经证实的见解,例如专家意见,民意调查和投注赔率。在本文中,我们提出了一般的三步框架,用于利用专家的洞察机器学习任务,并为体育比赛预测案例研究构建四种具体模型。对于案例研究,我们选择了预测NCAA男子篮球比赛的任务,这是一群近年来一群摇臂比赛的焦点。结果表明,过去模型的良好性能和高分度是偶然的导致,而不是因为良好的性能和稳定的模型。此外,与2019年竞争(> 0.503)的顶级解决方案相比,我们所提出的模型可以实现更低的日志损失平均水平(最佳0.489),并在2017年达到1%,10%和1%,2018年和2019年排行榜分别。
translated by 谷歌翻译
股票市场的不可预测性和波动性使得使用任何广义计划赚取可观的利润具有挑战性。许多先前的研究尝试了不同的技术来建立机器学习模型,这可以通过进行实时交易来在美国股票市场赚取可观的利润。但是,很少有研究重点是在特定交易期找到最佳功能的重要性。我们的顶级方法使用该性能将功能从总共148缩小到大约30。此外,在每次训练我们的机器学习模型之前,都会动态选择前25个功能。它与四个分类器一起使用合奏学习:高斯天真贝叶斯,决策树,带L1正则化的逻辑回归和随机梯度下降,以决定是长时间还是短的特定股票。我们的最佳模型在2011年7月至2019年1月之间进行的每日交易,可获得54.35%的利润。最后,我们的工作表明,加权分类器的混合物的表现要比任何在股票市场做出交易决策的个人预测指标更好。
translated by 谷歌翻译
机器学习渗透到许多行业,这为公司带来了新的利益来源。然而,在人寿保险行业中,机器学习在实践中并未被广泛使用,因为在过去几年中,统计模型表明了它们的风险评估效率。因此,保险公司可能面临评估人工智能价值的困难。随着时间的流逝,专注于人寿保险行业的修改突出了将机器学习用于保险公司的利益以及通过释放数据价值带来的利益。本文回顾了传统的生存建模方法论,并通过机器学习技术扩展了它们。它指出了与常规机器学习模型的差异,并强调了特定实现在与机器学习模型家族中面对审查数据的重要性。在本文的补充中,已经开发了Python库。已经调整了不同的开源机器学习算法,以适应人寿保险数据的特殊性,即检查和截断。此类模型可以轻松地从该SCOR库中应用,以准确地模拟人寿保险风险。
translated by 谷歌翻译
预测经济的短期动态 - 对经济代理商决策过程的重要意见 - 经常在线性模型中使用滞后指标。这通常在正常时期就足够了,但在危机期间可能不足。本文旨在证明,在非线性机器学习方法的帮助下,非传统和及时的数据(例如零售和批发付款)可以为决策者提供复杂的模型,以准确地估算几乎实时的关键宏观经济指标。此外,我们提供了一组计量经济学工具,以减轻机器学习模型中的过度拟合和解释性挑战,以提高其政策使用的有效性。我们的模型具有付款数据,非线性方法和量身定制的交叉验证方法,有助于提高宏观经济的启示准确性高达40 \% - 在COVID-19期间的增长较高。我们观察到,付款数据对经济预测的贡献很小,在低和正常增长期间是线性的。但是,在强年或正增长期间,付款数据的贡献很大,不对称和非线性。
translated by 谷歌翻译
目的:我们研究使用机器学习(ML)模型的可解释的累入预测,并在预测能力,稀疏性和公平性方面分析性能。与以前的作品不同,本研究列举了输出概率而不是二进制预测的可解释模型,并使用定量公平定义来评估模型。本研究还研究了模型是否可以横跨地理位置概括。方法:我们在佛罗里达州和肯塔基州的两个不同的刑事核查数据集上生成了黑盒和可解释的ML模型。我们将这些模型的预测性能和公平与目前用于司法系统中使用的两种方法进行了比较,以预测审前常规率:Arnold PSA和Compas。我们评估了所有模型的预测性能,可以在两次跨越两次预测六种不同类型犯罪的模型。结果:几种可解释的ML模型可以预测常规和黑盒ML模型,比Compas或Arnold PSA更准确。这些模型在实践中可能有用。类似于Arnold PSA,这些可解释模型中的一些可以作为一个简单的表格写入。其他可以使用一组可视化显示。我们的地理分析表明ML模型应分开培训,以便单独的位置并随时间更新。我们还为可​​解释模型提供了公平分析。结论:可解释的机器学习模型可以在预测准确性和公平性方面表现,也可以表现,也可以表现,也可以执行不可解释的方法和目前使用的风险评估尺度。机器学习模型对于单独培训,可以更准确地进行不同的位置,并保持最新。
translated by 谷歌翻译
尽管机器学习方法已在金融领域广泛使用,但在非常成功的学位上,这些方法仍然可以根据解释性,可比性和可重复性来定制特定研究和不透明。这项研究的主要目的是通过提供一种通用方法来阐明这一领域,该方法是调查 - 不合Snostic且可解释给金融市场从业人员,从而提高了其效率,降低了进入的障碍,并提高了实验的可重复性。提出的方法在两个自动交易平台组件上展示。也就是说,价格水平,众所周知的交易模式和一种新颖的2步特征提取方法。该方法依赖于假设检验,该假设检验在其他社会和科学学科中广泛应用,以有效地评估除简单分类准确性之外的具体结果。提出的主要假设是为了评估所选的交易模式是否适合在机器学习设置中使用。在整个实验中,我们发现在机器学习设置中使用所考虑的交易模式仅由统计数据得到部分支持,从而导致效果尺寸微不足道(反弹7- $ 0.64 \ pm 1.02 $,反弹11 $ 0.38 \ pm 0.98 $,并且篮板15- $ 1.05 \ pm 1.16 $),但允许拒绝零假设。我们展示了美国期货市场工具上的通用方法,并提供了证据表明,通过这种方法,我们可以轻松获得除传统绩效和盈利度指标之外的信息指标。这项工作是最早将这种严格的统计支持方法应用于金融市场领域的工作之一,我们希望这可能是更多研究的跳板。
translated by 谷歌翻译