可以从金融新闻文章中获取的主要信息来源,这些文章与股票趋势的波动有一些相关性。在本文中,我们从多个现实的观点研究了金融新闻对股票趋势的影响。其背后的直觉是基于新闻事件不同间隔的新闻不确定性以及每个金融新闻中缺乏注释的新闻不确定性。在多个实例学习(MIL)的情况下,将培训实例安排在袋子中,并为整个袋子而不是实例分配标签,我们开发了一种灵活且适应性的多态度学习模型,并评估其在方向运动预测中的能力《金融新闻数据集》中的标准和POORS 500指数。具体来说,我们将每个交易日视为一个袋子,每个交易日都会发生一定数量的新闻作为每个袋子的情况。实验结果表明,与其他最先进的方法和基准相比,我们提出的基于多实体的框架在趋势预测的准确性方面获得了出色的结果。
translated by 谷歌翻译
股票市场是一个网络,为几乎所有主要的经济交易提供平台。虽然投资股票市场是一个好主意,但对单个股票进行投资可能不是一个好主意,尤其是对于休闲投资者而言。智能储备需要深入研究和大量奉献精神。预测这种股票价值提供了巨大的套利利润机会。找到解决方案的这种吸引力促使研究人员找到了过去的问题,例如波动,季节性和时间依赖时间。本文调查了自然语言处理和机器学习技术领域的最新文献,用于预测股票市场的发展。本文的主要贡献包括许多最近的文章的复杂分类以及股票市场预测研究及其相关领域的最新研究趋势。
translated by 谷歌翻译
The stock market prediction has been a traditional yet complex problem researched within diverse research areas and application domains due to its non-linear, highly volatile and complex nature. Existing surveys on stock market prediction often focus on traditional machine learning methods instead of deep learning methods. Deep learning has dominated many domains, gained much success and popularity in recent years in stock market prediction. This motivates us to provide a structured and comprehensive overview of the research on stock market prediction focusing on deep learning techniques. We present four elaborated subtasks of stock market prediction and propose a novel taxonomy to summarize the state-of-the-art models based on deep neural networks from 2011 to 2022. In addition, we also provide detailed statistics on the datasets and evaluation metrics commonly used in the stock market. Finally, we highlight some open issues and point out several future directions by sharing some new perspectives on stock market prediction.
translated by 谷歌翻译
保持个人特征和复杂的关系,广泛利用和研究了图表数据。通过更新和聚合节点的表示,能够捕获结构信息,图形神经网络(GNN)模型正在获得普及。在财务背景下,该图是基于实际数据构建的,这导致复杂的图形结构,因此需要复杂的方法。在这项工作中,我们在最近的财务环境中对GNN模型进行了全面的审查。我们首先将普通使用的财务图分类并总结每个节点的功能处理步骤。然后,我们总结了每个地图类型的GNN方法,每个区域的应用,并提出一些潜在的研究领域。
translated by 谷歌翻译
We propose a hierarchical attention network for document classification. Our model has two distinctive characteristics: (i) it has a hierarchical structure that mirrors the hierarchical structure of documents; (ii) it has two levels of attention mechanisms applied at the wordand sentence-level, enabling it to attend differentially to more and less important content when constructing the document representation. Experiments conducted on six large scale text classification tasks demonstrate that the proposed architecture outperform previous methods by a substantial margin. Visualization of the attention layers illustrates that the model selects qualitatively informative words and sentences.
translated by 谷歌翻译
由于市场的不确定性,预测文本信息的股票价格是一个具有挑战性的任务,并且难以理解机器的观点。以前的研究主要关注基于单一新闻的情绪提取。但是,金融市场上的股票可以高度相关,有关一股股票的一个新闻可以迅速影响其他股票的价格。要考虑到这一效果,我们提出了一种新的股票运动预测框架:用于库存预测(MGRN)的多图复发网络。该架构允许将文本情绪与其他财务数据中提取的财务新闻和多个关系信息相结合。通过精度测试和STOXX Europe 600指数中的股票的交易仿真,我们展示了我们模型的更好的性能而不是其他基准。
translated by 谷歌翻译
社交媒体网络已成为人们生活的重要方面,它是其思想,观点和情感的平台。因此,自动化情绪分析(SA)对于以其他信息来源无法识别人们的感受至关重要。对这些感觉的分析揭示了各种应用,包括品牌评估,YouTube电影评论和医疗保健应用。随着社交媒体的不断发展,人们以不同形式发布大量信息,包括文本,照片,音频和视频。因此,传统的SA算法已变得有限,因为它们不考虑其他方式的表现力。通过包括来自各种物质来源的此类特征,这些多模式数据流提供了新的机会,以优化基于文本的SA之外的预期结果。我们的研究重点是多模式SA的最前沿领域,该领域研究了社交媒体网络上发布的视觉和文本数据。许多人更有可能利用这些信息在这些平台上表达自己。为了作为这个快速增长的领域的学者资源,我们介绍了文本和视觉SA的全面概述,包括数据预处理,功能提取技术,情感基准数据集以及适合每个字段的多重分类方法的疗效。我们还简要介绍了最常用的数据融合策略,并提供了有关Visual Textual SA的现有研究的摘要。最后,我们重点介绍了最重大的挑战,并调查了一些重要的情感应用程序。
translated by 谷歌翻译
讽刺可以被定义为说或写讽刺与一个人真正想表达的相反,通常是为了侮辱,刺激或娱乐某人。由于文本数据中讽刺性的性质晦涩难懂,因此检测到情感分析研究社区的困难和非常感兴趣。尽管讽刺检测的研究跨越了十多年,但最近已经取得了一些重大进步,包括在多模式环境中采用了无监督的预训练的预训练的变压器,并整合了环境以识别讽刺。在这项研究中,我们旨在简要概述英语计算讽刺研究的最新进步和趋势。我们描述了与讽刺有关的相关数据集,方法,趋势,问题,挑战和任务,这些数据集,趋势,问题,挑战和任务是无法检测到的。我们的研究提供了讽刺数据集,讽刺特征及其提取方法以及各种方法的性能分析,这些表可以帮助相关领域的研究人员了解当前的讽刺检测中最新实践。
translated by 谷歌翻译
建模法检索和检索作为预测问题最近被出现为法律智能的主要方法。专注于法律文章检索任务,我们展示了一个名为Lamberta的深度学习框架,该框架被设计用于民法代码,并在意大利民法典上专门培训。为了我们的知识,这是第一项研究提出了基于伯特(来自变压器的双向编码器表示)学习框架的意大利法律制度对意大利法律制度的高级法律文章预测的研究,最近引起了深度学习方法的增加,呈现出色的有效性在几种自然语言处理和学习任务中。我们通过微调意大利文章或其部分的意大利预先训练的意大利预先训练的伯爵来定义Lamberta模型,因为法律文章作为分类任务检索。我们Lamberta框架的一个关键方面是我们构思它以解决极端的分类方案,其特征在于课程数量大,少量学习问题,以及意大利法律预测任务的缺乏测试查询基准。为了解决这些问题,我们为法律文章的无监督标签定义了不同的方法,原则上可以应用于任何法律制度。我们提供了深入了解我们Lamberta模型的解释性和可解释性,并且我们对单一标签以及多标签评估任务进行了广泛的查询模板实验分析。经验证据表明了Lamberta的有效性,以及对广泛使用的深度学习文本分类器和一些构思的几次学习者来说,其优越性是对属性感知预测任务的优势。
translated by 谷歌翻译
良好的研究努力致力于利用股票预测中的深度神经网络。虽然远程依赖性和混沌属性仍然是在预测未来价格趋势之前降低最先进的深度学习模型的表现。在这项研究中,我们提出了一个新的框架来解决这两个问题。具体地,在将时间序列转换为复杂网络方面,我们将市场价格系列转换为图形。然后,从映射的图表中提取参考时间点和节点权重之间的关联的结构信息以解决关于远程依赖性和混沌属性的问题。我们采取图形嵌入式以表示时间点之间的关联作为预测模型输入。节点重量被用作先验知识,以增强时间关注的学习。我们拟议的框架的有效性通过现实世界股票数据验证,我们的方法在几个最先进的基准中获得了最佳性能。此外,在进行的交易模拟中,我们的框架进一步获得了最高的累积利润。我们的结果补充了复杂网络方法在金融领域的现有应用,并为金融市场中决策支持的投资应用提供了富有识别的影响。
translated by 谷歌翻译
在许多研究中已经表明,考虑相关股票数据预测股票价格变动的重要性,但是,用于建模,嵌入和分析相互关联股票行为的先进图形技术尚未被广泛利用,以预测股票价格变动。该领域的主要挑战是找到一种建模任意股票之间现有关系的方法,并利用这种模型来改善这些股票的预测绩效。该领域中的大多数现有方法都取决于基本的图形分析技术,预测能力有限,并且缺乏通用性和灵活性。在本文中,我们介绍了一个名为GCNET的新颖框架,该框架将任意股票之间的关系建模为称为“影响网络”的图形结构,并使用一组基于历史的预测模型来推断出股票子集的合理初始标签图中的节点。最后,GCNET使用图形卷积网络算法来分析此部分标记的图形,并预测图中每个库存的下一个运动价格方向。 GCNET是一个一般预测框架,可以根据其历史数据来预测相互作用股票的价格波动。我们对纳斯达克指数一组股票的实验和评估表明,GCNET在准确性和MCC测量方面显着提高了SOTA的性能。
translated by 谷歌翻译
本次调查绘制了用于分析社交媒体数据的生成方法的研究状态的广泛的全景照片(Sota)。它填补了空白,因为现有的调查文章在其范围内或被约会。我们包括两个重要方面,目前正在挖掘和建模社交媒体的重要性:动态和网络。社会动态对于了解影响影响或疾病的传播,友谊的形成,友谊的形成等,另一方面,可以捕获各种复杂关系,提供额外的洞察力和识别否则将不会被注意的重要模式。
translated by 谷歌翻译
排名模型是信息检索系统的主要组成部分。排名的几种方法是基于传统的机器学习算法,使用一组手工制作的功能。最近,研究人员在信息检索中利用了深度学习模型。这些模型的培训结束于结束,以提取来自RAW数据的特征来排序任务,因此它们克服了手工制作功能的局限性。已经提出了各种深度学习模型,每个模型都呈现了一组神经网络组件,以提取用于排名的特征。在本文中,我们在不同方面比较文献中提出的模型,以了解每个模型的主要贡献和限制。在我们对文献的讨论中,我们分析了有前途的神经元件,并提出了未来的研究方向。我们还显示文档检索和其他检索任务之间的类比,其中排名的项目是结构化文档,答案,图像和视频。
translated by 谷歌翻译
由于在线学习和评估平台(例如Coursera,Udemy,Khan Academy等)的兴起,对论文(AES)和自动论文评分的自动评估(AES)已成为一个严重的问题。研究人员最近提出了许多用于自动评估的技术。但是,其中许多技术都使用手工制作的功能,因此从特征表示的角度受到限制。深度学习已成为机器学习中的新范式,可以利用大量数据并确定对论文评估有用的功能。为此,我们提出了一种基于复发网络(RNN)和卷积神经网络(CNN)的新型体系结构。在拟议的体系结构中,多通道卷积层从嵌入矢量和基本语义概念中学习并捕获单词n-gram的上下文特征,并使用max-pooling操作在论文级别形成特征向量。 RNN的变体称为双门复发单元(BGRU),用于访问以前和后续的上下文表示。该实验是对Kaggle上的八个数据集进行的,以实现AES的任务。实验结果表明,我们提出的系统比其他基于深度学习的AES系统以及其他最新AES系统的评分精度明显更高。
translated by 谷歌翻译
近年来,人们对开发自然语言处理(NLP)中可解释模型的利益越来越多。大多数现有模型旨在识别输入功能,例如对于模型预测而言重要的单词或短语。然而,在NLP中开发的神经模型通常以层次结构的方式构成单词语义,文本分类需要层次建模来汇总本地信息,以便处理主题和标签更有效地转移。因此,单词或短语的解释不能忠实地解释文本分类中的模型决策。本文提出了一种新型的层次解释性神经文本分类器,称为提示,该分类器可以自动以层次结构方式以标记相关主题的形式生成模型预测的解释。模型解释不再处于单词级别,而是基于主题作为基本语义单元。评论数据集和新闻数据集的实验结果表明,我们所提出的方法与现有最新的文本分类器相当地达到文本分类结果,并比其他可解释的神经文本更忠实于模型的预测和更好地理解人类的解释分类器。
translated by 谷歌翻译
The rapid advancement of AI technology has made text generation tools like GPT-3 and ChatGPT increasingly accessible, scalable, and effective. This can pose serious threat to the credibility of various forms of media if these technologies are used for plagiarism, including scientific literature and news sources. Despite the development of automated methods for paraphrase identification, detecting this type of plagiarism remains a challenge due to the disparate nature of the datasets on which these methods are trained. In this study, we review traditional and current approaches to paraphrase identification and propose a refined typology of paraphrases. We also investigate how this typology is represented in popular datasets and how under-representation of certain types of paraphrases impacts detection capabilities. Finally, we outline new directions for future research and datasets in the pursuit of more effective paraphrase detection using AI.
translated by 谷歌翻译
人口级社会事件,如民事骚乱和犯罪,往往对我们的日常生活产生重大影响。预测此类事件对于决策和资源分配非常重要。由于缺乏关于事件发生的真实原因和潜在机制的知识,事件预测传统上具有挑战性。近年来,由于两个主要原因,研究事件预测研究取得了重大进展:(1)机器学习和深度学习算法的开发和(2)社交媒体,新闻来源,博客,经济等公共数据的可访问性指标和其他元数据源。软件/硬件技术中的数据的爆炸性增长导致了社会事件研究中的深度学习技巧的应用。本文致力于提供社会事件预测的深层学习技术的系统和全面概述。我们专注于两个社会事件的域名:\ Texit {Civil unrest}和\ texit {犯罪}。我们首先介绍事件预测问题如何作为机器学习预测任务制定。然后,我们总结了这些问题的数据资源,传统方法和最近的深度学习模型的发展。最后,我们讨论了社会事件预测中的挑战,并提出了一些有希望的未来研究方向。
translated by 谷歌翻译
非结构化数据,尤其是文本,在各个领域继续迅速增长。特别是,在金融领域,有大量累积的非结构化财务数据,例如公司定期向监管机构提交的文本披露文件,例如证券和交易委员会(SEC)。这些文档通常很长,并且倾向于包含有关公司绩效的宝贵信息。因此,从这些长文本文档中学习预测模型是非常兴趣的,尤其是用于预测数值关键绩效指标(KPI)。尽管在训练有素的语言模型(LMS)中取得了长足的进步,这些模型从大量的文本数据中学习,但他们仍然在有效的长期文档表示方面挣扎。我们的工作满足了这种批判性需求,即如何开发更好的模型来从长文本文档中提取有用的信息,并学习有效的功能,这些功能可以利用软件财务和风险信息来进行文本回归(预测)任务。在本文中,我们提出并实施了一个深度学习框架,该框架将长文档分为大块,并利用预先训练的LMS处理和将块汇总为矢量表示,然后进行自我关注以提取有价值的文档级特征。我们根据美国银行的10-K公共披露报告以及美国公司提交的另一个报告数据集评估了模型。总体而言,我们的框架优于文本建模的强大基线方法以及仅使用数值数据的基线回归模型。我们的工作提供了更好的见解,即如何利用预先训练的域特异性和微调的长输入LMS来表示长文档可以提高文本数据的表示质量,从而有助于改善预测分析。
translated by 谷歌翻译
原油价格预测研究由于其对全球经济的重大影响,从学者和政策制定者引起了巨大的关注。除供需外,原油价格在很大程度上受到各种因素的影响,如经济发展,金融市场,冲突,战争和政治事件。最先前的研究将原油价格预测视为时间序列或计量计量的可变预测问题。虽然最近已经考虑了考虑实时新闻事件的影响,但大多数作品主要使用原始新闻头条或主题模型来提取文本功能,而不会深刻探索事件信息。在这项研究中,提出了一种新的原油价格预测框架,Agesl,用于处理这个问题。在我们的方法中,利用开放域事件提取算法提取底层相关事件,并且文本情绪分析算法用于从大规模新闻中提取情绪。然后,一系列深度神经网络集成了新闻事件特征,感情特征和历史价格特征,以预测未来原油价格。实证实验是在西德克萨斯中间体(WTI)原油价格数据上进行的,结果表明,与几种基准方法相比,我们的方法获得了卓越的性能。
translated by 谷歌翻译
法律判决预测是NLP,AI和法律联合领域最受欢迎的领域之一。通过法律预测,我们是指能够预测特定司法特征的智能系统,例如司法结果,司法阶级,可以预测特定案例。在这项研究中,我们使用AI分类器来预测巴西法律体系中的司法结果。为此,我们开发了一个文本爬网,以从巴西官方电子法律系统中提取数据。这些文本构成了二级谋杀和主动腐败案件的数据集。我们应用了不同的分类器,例如支持向量机和神经网络,通过分析数据集中的文本功能来预测司法结果。我们的研究表明,回归树,封闭的重复单元和分层注意力网络给出了不同子集的较高指标。作为最终目标,我们探讨了一种算法的权重,即分层注意力网络,以找到用于免除或定罪被告的最重要词的样本。
translated by 谷歌翻译