智能论文笔记

New drugs and stock market: how to predict pharma market reaction to clinical trial announcements

Semen Budennyy , Alexey Kazakov , Elizaveta Kovtun , Leonid Zhukov

分类：机器学习

2022-08-11

制药公司在严格监管且高度危险的环境中运营，单张单击可以导致严重的财务影响。因此，临床试验结果的公告倾向于确定事件的未来过程，因此受到公众的密切监视。在这项工作中，我们为结果颁布对公共药品市场价值的影响提供了统计证据。尽管大多数工作都集中在回顾性影响分析上，但本研究旨在预测公告诱发的股票价格变化的价值。为此，我们开发了一条管道，其中包括一个基于BERT的模型，用于提取公告的情感极性，一种用于预测预期回报的时间融合变压器，用于捕获事件关系的图形卷积网络以及预测价格变化的梯度提升。问题的挑战在于对正面和负面公告的反应固有不同的模式，反映在对负面新闻的更强烈，更明显的反应中。此外，在积极公告后，股票下降的现象肯定了价格行为的违反直觉。重要的是，我们发现了在预测框架内工作时应考虑的两个关键因素。第一个因素是该公司的药物组合规模，表明在小型药物多样化的情况下，公告的敏感性更大。第二个是与同一公司或诺斯科有关的事件的网络效应。所有发现和见解都是根据最大的FDA（食品药品监督管理局）公告数据集获得的，该数据集由过去五年中681家公司的5436个临床试验公告组成。

translated by 谷歌翻译

A Generic Methodology for the Statistically Uniform & Comparable Evaluation of Automated Trading Platform Components

Artur Sokolovsky , Luca Arnaboldi

分类：机器学习

2020-09-21

尽管机器学习方法已在金融领域广泛使用，但在非常成功的学位上，这些方法仍然可以根据解释性，可比性和可重复性来定制特定研究和不透明。这项研究的主要目的是通过提供一种通用方法来阐明这一领域，该方法是调查 - 不合Snostic且可解释给金融市场从业人员，从而提高了其效率，降低了进入的障碍，并提高了实验的可重复性。提出的方法在两个自动交易平台组件上展示。也就是说，价格水平，众所周知的交易模式和一种新颖的2步特征提取方法。该方法依赖于假设检验，该假设检验在其他社会和科学学科中广泛应用，以有效地评估除简单分类准确性之外的具体结果。提出的主要假设是为了评估所选的交易模式是否适合在机器学习设置中使用。在整个实验中，我们发现在机器学习设置中使用所考虑的交易模式仅由统计数据得到部分支持，从而导致效果尺寸微不足道（反弹7- $ 0.64 \ pm 1.02 $，反弹11 $ 0.38 \ pm 0.98 $，并且篮板15- $ 1.05 \ pm 1.16 $），但允许拒绝零假设。我们展示了美国期货市场工具上的通用方法，并提供了证据表明，通过这种方法，我们可以轻松获得除传统绩效和盈利度指标之外的信息指标。这项工作是最早将这种严格的统计支持方法应用于金融市场领域的工作之一，我们希望这可能是更多研究的跳板。

translated by 谷歌翻译

Stock Market Prediction via Deep Learning Techniques: A Survey

Jinan Zou , Qingying Zhao , Yang Jiao , Haiyao Cao , Yanxi Liu , Qingsen Yan , Ehsan Abbasnejad , Lingqiao Liu , Javen Qinfeng Shi

分类：人工智能

2022-12-24

The stock market prediction has been a traditional yet complex problem researched within diverse research areas and application domains due to its non-linear, highly volatile and complex nature. Existing surveys on stock market prediction often focus on traditional machine learning methods instead of deep learning methods. Deep learning has dominated many domains, gained much success and popularity in recent years in stock market prediction. This motivates us to provide a structured and comprehensive overview of the research on stock market prediction focusing on deep learning techniques. We present four elaborated subtasks of stock market prediction and propose a novel taxonomy to summarize the state-of-the-art models based on deep neural networks from 2011 to 2022. In addition, we also provide detailed statistics on the datasets and evaluation metrics commonly used in the stock market. Finally, we highlight some open issues and point out several future directions by sharing some new perspectives on stock market prediction.

translated by 谷歌翻译

Automatic Identification and Classification of Share Buybacks and their Effect on Short-, Mid- and Long-Term Returns

Thilo Reintjes

分类：人工智能 | 机器学习

2022-09-26

本文调查了股票回购，特别是分享回购公告。它解决了如何识别此类公告，股票回购的超额回报以及股票回购公告后的回报的预测。我们说明了两种NLP方法，用于自动检测股票回购公告。即使有少量的培训数据，我们也可以达到高达90％的准确性。该论文利用这些NLP方法生成一个由57,155个股票回购公告组成的大数据集。通过分析该数据集，本论文的目的是表明大多数宣布回购的公司的大多数公司都表现不佳。但是，少数公司的表现极大地超过了MSCI世界。当查看所有公司的平均值时，这种重要的表现过高会导致净收益。如果根据公司的规模调整了基准指数，则平均表现过高，并且大多数表现不佳。但是，发现宣布股票回购的公司至少占其市值的1％，即使使用调整后的基准，也平均交付了显着的表现。还发现，在危机时期宣布股票回购的公司比整个市场更好。此外，生成的数据集用于训练72个机器学习模型。通过此，它能够找到许多可以达到高达77％并产生大量超额回报的策略。可以在六个不同的时间范围内改善各种性能指标，并确定明显的表现。这是通过训练多个模型的不同任务和时间范围以及结合这些不同模型的方法来实现的，从而通过融合弱学习者来产生重大改进，以创造一个强大的学习者。

translated by 谷歌翻译

EmTract: Investor Emotions and Market Behavior

Domonkos Vamossy , Rolf Skog

分类：自然语言处理

2021-12-07

我们开发一个从社交媒体文本数据中提取情绪的工具。我们的方法有三个主要优势。首先，它适用于财务背景;其次，它包含社交媒体数据的关键方面，例如非标准短语，表情符号和表情符号;第三，它通过顺序地学习潜在的表示来操作，该潜在表示包括单词顺序，单词使用和本地上下文等功能。此工具以及用户指南可供选择：https://github.com/dvamossy/mtract。使用大学，我们探讨了社会媒体和资产价格表达的投资者情绪之间的关系。我们记录了一些有趣的见解。首先，我们确认了一些受控实验室实验的调查结果，将投资者情绪与资产价格变动相关联。其次，我们表明投资者的情绪是预测日常价格变动的预测。当波动率或短暂的兴趣更高，当机构所有权或流动性降低时，这些影响更大。第三，在IPO之前增加了投资者的热情，促进了大量的第一天返回，并长期不足的IPO股票。为了证实我们的结果，我们提供了许多稳健性检查，包括使用替代情感模型。我们的研究结果强化了情绪和市场动态密切相关的直觉，并突出了在评估股票的短期价值时考虑投资者情绪的重要性。

translated by 谷歌翻译

Stock Market Prediction using Natural Language Processing -- A Survey

Om Mane , Saravanakumar kandasamy

分类：机器学习

2022-08-26

股票市场是一个网络，为几乎所有主要的经济交易提供平台。虽然投资股票市场是一个好主意，但对单个股票进行投资可能不是一个好主意，尤其是对于休闲投资者而言。智能储备需要深入研究和大量奉献精神。预测这种股票价值提供了巨大的套利利润机会。找到解决方案的这种吸引力促使研究人员找到了过去的问题，例如波动，季节性和时间依赖时间。本文调查了自然语言处理和机器学习技术领域的最新文献，用于预测股票市场的发展。本文的主要贡献包括许多最近的文章的复杂分类以及股票市场预测研究及其相关领域的最新研究趋势。

translated by 谷歌翻译

Applying Machine Learning to Life Insurance: some knowledge sharing to master it

Antoine Chancel , Laura Bradier , Antoine Ly , Razvan Ionescu , Laurene Martin

分类： (统计)机器学习 | 机器学习

2022-09-05

机器学习渗透到许多行业，这为公司带来了新的利益来源。然而，在人寿保险行业中，机器学习在实践中并未被广泛使用，因为在过去几年中，统计模型表明了它们的风险评估效率。因此，保险公司可能面临评估人工智能价值的困难。随着时间的流逝，专注于人寿保险行业的修改突出了将机器学习用于保险公司的利益以及通过释放数据价值带来的利益。本文回顾了传统的生存建模方法论，并通过机器学习技术扩展了它们。它指出了与常规机器学习模型的差异，并强调了特定实现在与机器学习模型家族中面对审查数据的重要性。在本文的补充中，已经开发了Python库。已经调整了不同的开源机器学习算法，以适应人寿保险数据的特殊性，即检查和截断。此类模型可以轻松地从该SCOR库中应用，以准确地模拟人寿保险风险。

translated by 谷歌翻译

Forecasting Crude Oil Price Using Event Extraction

Jiangwei Liu , Xiaohong Huang

分类：机器学习 | 人工智能 | 自然语言处理

2021-11-14

原油价格预测研究由于其对全球经济的重大影响，从学者和政策制定者引起了巨大的关注。除供需外，原油价格在很大程度上受到各种因素的影响，如经济发展，金融市场，冲突，战争和政治事件。最先前的研究将原油价格预测视为时间序列或计量计量的可变预测问题。虽然最近已经考虑了考虑实时新闻事件的影响，但大多数作品主要使用原始新闻头条或主题模型来提取文本功能，而不会深刻探索事件信息。在这项研究中，提出了一种新的原油价格预测框架，Agesl，用于处理这个问题。在我们的方法中，利用开放域事件提取算法提取底层相关事件，并且文本情绪分析算法用于从大规模新闻中提取情绪。然后，一系列深度神经网络集成了新闻事件特征，感情特征和历史价格特征，以预测未来原油价格。实证实验是在西德克萨斯中间体（WTI）原油价格数据上进行的，结果表明，与几种基准方法相比，我们的方法获得了卓越的性能。

translated by 谷歌翻译

Explainable AI for clinical and remote health applications: a survey on tabular and time series data

Flavio Di Martino , Franca Delmastro

分类：机器学习 | 人工智能

2022-09-14

如今，人工智能（AI）已成为临床和远程医疗保健应用程序的基本组成部分，但是最佳性能的AI系统通常太复杂了，无法自我解释。可解释的AI（XAI）技术被定义为揭示系统的预测和决策背后的推理，并且在处理敏感和个人健康数据时，它们变得更加至关重要。值得注意的是，XAI并未在不同的研究领域和数据类型中引起相同的关注，尤其是在医疗保健领域。特别是，许多临床和远程健康应用程序分别基于表格和时间序列数据，而XAI并未在这些数据类型上进行分析，而计算机视觉和自然语言处理（NLP）是参考应用程序。为了提供最适合医疗领域表格和时间序列数据的XAI方法的概述，本文提供了过去5年中文献的审查，说明了生成的解释的类型以及为评估其相关性所提供的努力和质量。具体而言，我们确定临床验证，一致性评估，客观和标准化质量评估以及以人为本的质量评估作为确保最终用户有效解释的关键特征。最后，我们强调了该领域的主要研究挑战以及现有XAI方法的局限性。

translated by 谷歌翻译

Combining Machine Learning and Effective Feature Selection for Real-time Stock Trading in Variable Time-frames

A. K. M. Amanat Ullah , Fahim Imtiaz , Miftah Uddin Md Ihsan , Md. Golam Rabiul Alam , Mahbub Majumdar

分类：机器学习

2021-07-28

股票市场的不可预测性和波动性使得使用任何广义计划赚取可观的利润具有挑战性。许多先前的研究尝试了不同的技术来建立机器学习模型，这可以通过进行实时交易来在美国股票市场赚取可观的利润。但是，很少有研究重点是在特定交易期找到最佳功能的重要性。我们的顶级方法使用该性能将功能从总共148缩小到大约30。此外，在每次训练我们的机器学习模型之前，都会动态选择前25个功能。它与四个分类器一起使用合奏学习：高斯天真贝叶斯，决策树，带L1正则化的逻辑回归和随机梯度下降，以决定是长时间还是短的特定股票。我们的最佳模型在2011年7月至2019年1月之间进行的每日交易，可获得54.35％的利润。最后，我们的工作表明，加权分类器的混合物的表现要比任何在股票市场做出交易决策的个人预测指标更好。

translated by 谷歌翻译

Benchmarking Machine Learning Models to Predict Corporate Bankruptcy

Emmanuel Alanis , Sudheer Chava , Agam Shah

分类：机器学习

2022-12-22

Using a comprehensive sample of 2,585 bankruptcies from 1990 to 2019, we benchmark the performance of various machine learning models in predicting financial distress of publicly traded U.S. firms. We find that gradient boosted trees outperform other models in one-year-ahead forecasts. Variable permutation tests show that excess stock returns, idiosyncratic risk, and relative size are the more important variables for predictions. Textual features derived from corporate filings do not improve performance materially. In a credit competition model that accounts for the asymmetric cost of default misclassification, the survival random forest is able to capture large dollar profits.

translated by 谷歌翻译

Three-stage intelligent support of clinical decision making for higher trust, validity, and explainability

Sergey V. Kovalchuk , Georgy D. Kopanitsa , Ilia V. Derevitskii , Daria A. Savitskaya

分类：人工智能

2020-07-25

本文介绍了一种使用旨在解决现实世界应用中CDSS的低适用性和可扩展性问题的数据驱动的预测模型来构建一致和适用的临床决策支持系统（CDSS）的方法。该方法基于域特定和数据驱动的支持程序的三种特定于域和数据驱动的支持程序，该程序将被纳入临床业务流程，具有更高的信任和预测结果和建议的解释性。在考虑的三个阶段，监管策略，数据驱动模式和解释程序被集成，以实现与决策者的自然域特定的互动，具有智能决策支持焦点的连续缩小。该提出的方法能够实现更高水平的自动化，可扩展性和CDSS的语义解释性。该方法是在软件解决方案中实现的，并在T2DM预测中进行了测试，使我们能够改善已知的临床尺度（例如FindRisk），同时保持与现有应用程序类似的特定问题的推理界面。这种继承与三分阶段的方法一起提供了更高的解决方案兼容性，并导致数据驱动的解决方案在现实案件中的信任，有效和解释应用。

translated by 谷歌翻译

Survey of Generative Methods for Social Media Analysis

Stan Matwin , Aristides Milios , Paweł Prałat , Amilcar Soares , François Théberge

分类：机器学习

2021-12-13

本次调查绘制了用于分析社交媒体数据的生成方法的研究状态的广泛的全景照片（Sota）。它填补了空白，因为现有的调查文章在其范围内或被约会。我们包括两个重要方面，目前正在挖掘和建模社交媒体的重要性：动态和网络。社会动态对于了解影响影响或疾病的传播，友谊的形成，友谊的形成等，另一方面，可以捕获各种复杂关系，提供额外的洞察力和识别否则将不会被注意的重要模式。

translated by 谷歌翻译

Data-Centric Epidemic Forecasting: A Survey

Alexander Rodríguez , Harshavardhan Kamarthi , Pulak Agarwal , Javen Ho , Mira Patel , Suchet Sapre , B. Aditya Prakash

分类：机器学习

2022-07-19

COVID-19的大流行提出了对多个领域决策者的流行预测的重要性，从公共卫生到整个经济。虽然预测流行进展经常被概念化为类似于天气预测，但是它具有一些关键的差异，并且仍然是一项非平凡的任务。疾病的传播受到人类行为，病原体动态，天气和环境条件的多种混杂因素的影响。由于政府公共卫生和资助机构的倡议，捕获以前无法观察到的方面的丰富数据来源的可用性增加了研究的兴趣。这尤其是在“以数据为中心”的解决方案上进行的一系列工作，这些解决方案通过利用非传统数据源以及AI和机器学习的最新创新来增强我们的预测能力的潜力。这项调查研究了各种数据驱动的方法论和实践进步，并介绍了一个概念框架来导航它们。首先，我们列举了与流行病预测相关的大量流行病学数据集和新的数据流，捕获了各种因素，例如有症状的在线调查，零售和商业，流动性，基因组学数据等。接下来，我们将讨论关注最近基于数据驱动的统计和深度学习方法的方法和建模范式，以及将机械模型知识域知识与统计方法的有效性和灵活性相结合的新型混合模型类别。我们还讨论了这些预测系统的现实部署中出现的经验和挑战，包括预测信息。最后，我们重点介绍了整个预测管道中发现的一些挑战和开放问题。

translated by 谷歌翻译

Price graphs: Utilizing the structural information of financial time series for stock prediction

Junran Wu , Ke Xu , Xueyuan Chen , Shangzhe Li , Jichang Zhao

分类：机器学习

2021-06-04

良好的研究努力致力于利用股票预测中的深度神经网络。虽然远程依赖性和混沌属性仍然是在预测未来价格趋势之前降低最先进的深度学习模型的表现。在这项研究中，我们提出了一个新的框架来解决这两个问题。具体地，在将时间序列转换为复杂网络方面，我们将市场价格系列转换为图形。然后，从映射的图表中提取参考时间点和节点权重之间的关联的结构信息以解决关于远程依赖性和混沌属性的问题。我们采取图形嵌入式以表示时间点之间的关联作为预测模型输入。节点重量被用作先验知识，以增强时间关注的学习。我们拟议的框架的有效性通过现实世界股票数据验证，我们的方法在几个最先进的基准中获得了最佳性能。此外，在进行的交易模拟中，我们的框架进一步获得了最高的累积利润。我们的结果补充了复杂网络方法在金融领域的现有应用，并为金融市场中决策支持的投资应用提供了富有识别的影响。

translated by 谷歌翻译

A transformer-based model for default prediction in mid-cap corporate markets

Kamesh Korangi , Christophe Mues , Cristián Bravo

分类：机器学习

2021-11-18

在本文中，我们研究了中途公司，即在市场资本化少于100亿美元的公开交易公司。在30年内使用美国中载公司的大型数据集，我们期望通过中期预测默认的概率术语结构，了解哪些数据源（即基本，市场或定价数据）对违约风险贡献最多。然而，现有方法通常要求来自不同时间段的数据首先聚合并转变为横截面特征，我们将问题框架作为多标签时间级分类问题。我们适应变压器模型，从自然语言处理领域发出的最先进的深度学习模型，以信用风险建模设置。我们还使用注意热图解释这些模型的预测。为了进一步优化模型，我们为多标签分类和新型多通道架构提供了一种自定义损耗功能，具有差异训练，使模型能够有效地使用所有输入数据。我们的结果表明，拟议的深度学习架构的卓越性能，导致传统模型的AUC（接收器运行特征曲线下的区域）提高了13％。我们还展示了如何使用特定于这些模型的福利方法生成不同数据源和时间关系的重要性排名。

translated by 谷歌翻译

Development of a hybrid method for stock trading based on TOPSIS, EMD and ELM

Elivelto Ebermam , Helder Knidel , Renato A. Krohling

分类：神经与进化计算

2022-06-14

决定何时购买或出售股票并不是一件容易的事，因为市场难以预测，受到政治和经济因素的影响。因此，基于计算智能的方法已应用于这个具有挑战性的问题。在这项工作中，每天使用技术分析标准以相似性（TOPSIS）的相似性（TOPSIS）对订单偏好进行排名，并选择最合适的股票进行购买。即便如此，在某些日子甚至Topsis都会选择不正确的选择。为了改善选择，应使用另一种方法。因此，提出了由经验模式分解（EMD）和极端学习机（ELM）组成的混合模型。 EMD将系列分解为几个子系列，因此提取了主要组分（趋势）。该组件由ELM处理，该组件执行下一个组件元素的预测。如果榆树预测的价值大于最后一个值，则确认购买股票的价值。该方法应用于巴西市场的50个股票的宇宙。与随机选择和Bovespa指数产生的回报相比，Topsis进行的选择显示出令人鼓舞的结果。使用EMD-ELM混合动力模型的确认能够增加利润交易的百分比。

translated by 谷歌翻译

Modeling Financial Products and their Supply Chains

Margret Bjarnadottir , Louiqa Raschid

分类：机器学习

2021-02-03

本文的目的是探讨如何将财务大数据和机器学习方法应用于建模和了解金融产品。我们专注于住宅抵押支持的证券RESMB，这是2008年美国金融危机的核心。这些证券包含在招股说明书中，并具有复杂的瀑布回报结构。多个金融机构形成了创建招股说明书的供应链。为了建模该供应链，我们使用无监督的概率方法，尤其是动态主题模型（DTM），以提取一组特征（主题），以反映沿链条沿线的社区形成和时间演化。然后，我们通过一系列日益全面的模型来洞悉RESMBS证券的性能以及供应链的影响。首先，安全级别的模型直接确定了影响其性能的RESMBS证券的显着特征。然后，我们将模型扩展到包括招股说明书级别的特征，并证明招股说明书的组成很重要。我们的模型还表明，与招股说明书和证券产生有关的供应链沿线的社区对绩效有影响。我们是第一个表明与在次级危机中发挥关键作用的金融机构密切相关的有毒社区可以增加RESMBS证券失败的风险。

translated by 谷歌翻译

Dimensional Modeling of Emotions in Text with Appraisal Theories: Corpus Creation, Annotation Reliability, and Prediction

Enrica Troiano , Laura Oberländer , Roman Klinger

分类：自然语言处理

2022-06-10

情绪分析中最突出的任务是为文本分配情绪，并了解情绪如何在语言中表现出来。自然语言处理的一个重要观察结果是，即使没有明确提及情感名称，也可以通过单独参考事件来隐式传达情绪。在心理学中，被称为评估理论的情感理论类别旨在解释事件与情感之间的联系。评估可以被形式化为变量，通过他们认为相关的事件的人们的认知评估来衡量认知评估。其中包括评估事件是否是新颖的，如果该人认为自己负责，是否与自己的目标以及许多其他人保持一致。这样的评估解释了哪些情绪是基于事件开发的，例如，新颖的情况会引起惊喜或不确定后果的人可能引起恐惧。我们在文本中分析了评估理论对情绪分析的适用性，目的是理解注释者是否可以可靠地重建评估概念，如果可以通过文本分类器预测，以及评估概念是否有助于识别情感类别。为了实现这一目标，我们通过要求人们发短信描述触发特定情绪并披露其评估的事件来编译语料库。然后，我们要求读者重建文本中的情感和评估。这种设置使我们能够衡量是否可以纯粹从文本中恢复情绪和评估，并为判断模型的绩效指标提供人体基准。我们将文本分类方法与人类注释者的比较表明，两者都可以可靠地检测出具有相似性能的情绪和评估。我们进一步表明，评估概念改善了文本中情绪的分类。

translated by 谷歌翻译

Novel Modelling Strategies for High-frequency Stock Trading Data

Xuekui Zhang , Yuying Huang , Ke Xu , Li Xing

分类：机器学习

2022-11-30

Full electronic automation in stock exchanges has recently become popular, generating high-frequency intraday data and motivating the development of near real-time price forecasting methods. Machine learning algorithms are widely applied to mid-price stock predictions. Processing raw data as inputs for prediction models (e.g., data thinning and feature engineering) can primarily affect the performance of the prediction methods. However, researchers rarely discuss this topic. This motivated us to propose three novel modelling strategies for processing raw data. We illustrate how our novel modelling strategies improve forecasting performance by analyzing high-frequency data of the Dow Jones 30 component stocks. In these experiments, our strategies often lead to statistically significant improvement in predictions. The three strategies improve the F1 scores of the SVM models by 0.056, 0.087, and 0.016, respectively.

translated by 谷歌翻译