在线社交网络由于其在低质量信息的传播中的作用而积极参与删除恶意社交机器人。但是,大多数现有的机器人检测器都是监督分类器,无法捕获复杂机器人的不断发展的行为。在这里,我们提出了Mulbot,这是一种基于多元时间序列(MTS)的无监督的机器人检测器。我们第一次利用从用户时间表中提取的多维时间功能。我们使用LSTM AutoCododer管理多维性,该模块将MTS投射在合适的潜在空间中。然后,我们对此编码表示形式执行聚类步骤,以识别非常相似用户的密集组 - 一种已知的自动化迹象。最后,我们执行一项二进制分类任务,以达到F1得分$ = 0.99 $,表现优于最先进的方法(F1分数$ \ le 0.97 $)。 Mulbot不仅在二进制分类任务中取得了出色的成果,而且我们还在一项新颖且实际上相关的任务中证明了它的优势:检测和分离不同的僵尸网络。在此多级分类任务中,我们实现了F1得分$ = 0.96 $。我们通过估计模型中使用的不同特征的重要性,并通过评估Mulbot推广到新看不见的机器人的能力,从而提出了解决监督机器人探测器的概括性缺陷的解决方案。
translated by 谷歌翻译
The detection of state-sponsored trolls acting in information operations is an unsolved and critical challenge for the research community, with repercussions that go beyond the online realm. In this paper, we propose a novel AI-based solution for the detection of state-sponsored troll accounts, which consists of two steps. The first step aims at classifying trajectories of accounts' online activities as belonging to either a state-sponsored troll or to an organic user account. In the second step, we exploit the classified trajectories to compute a metric, namely "troll score", which allows us to quantify the extent to which an account behaves like a state-sponsored troll. As a study case, we consider the troll accounts involved in the Russian interference campaign during the 2016 US Presidential election, identified as Russian trolls by the US Congress. Experimental results show that our approach identifies accounts' trajectories with an AUC close to 99\% and, accordingly, classify Russian trolls and organic users with an AUC of 97\%. Finally, we evaluate whether the proposed solution can be generalized to different contexts (e.g., discussions about Covid-19) and generic misbehaving users, showing promising results that will be further expanded in our future endeavors.
translated by 谷歌翻译
本次调查绘制了用于分析社交媒体数据的生成方法的研究状态的广泛的全景照片(Sota)。它填补了空白,因为现有的调查文章在其范围内或被约会。我们包括两个重要方面,目前正在挖掘和建模社交媒体的重要性:动态和网络。社会动态对于了解影响影响或疾病的传播,友谊的形成,友谊的形成等,另一方面,可以捕获各种复杂关系,提供额外的洞察力和识别否则将不会被注意的重要模式。
translated by 谷歌翻译
机器学习(ML)代表了当前和未来信息系统的关键技术,许多域已经利用了ML的功能。但是,网络安全中ML的部署仍处于早期阶段,揭示了研究和实践之间的显着差异。这种差异在当前的最新目的中具有其根本原因,该原因不允许识别ML在网络安全中的作用。除非广泛的受众理解其利弊,否则ML的全部潜力将永远不会释放。本文是对ML在整个网络安全领域中的作用的首次尝试 - 对任何对此主题感兴趣的潜在读者。我们强调了ML在人类驱动的检测方法方面的优势,以及ML在网络安全方面可以解决的其他任务。此外,我们阐明了影响网络安全部署实际ML部署的各种固有问题。最后,我们介绍了各种利益相关者如何为网络安全中ML的未来发展做出贡献,这对于该领域的进一步进步至关重要。我们的贡献补充了两项实际案例研究,这些案例研究描述了ML作为对网络威胁的辩护的工业应用。
translated by 谷歌翻译
Twitter机器人检测已成为打击错误信息,促进社交媒体节制并保持在线话语的完整性的越来越重要的任务。最先进的机器人检测方法通常利用Twitter网络的图形结构,在面对传统方法无法检测到的新型Twitter机器人时,它们表现出令人鼓舞的性能。但是,现有的Twitter机器人检测数据集很少是基于图形的,即使这些基于图形的数据集也遭受有限的数据集量表,不完整的图形结构以及低注释质量。实际上,缺乏解决这些问题的大规模基于图的Twitter机器人检测基准,严重阻碍了基于图形的机器人检测方法的开发和评估。在本文中,我们提出了Twibot-22,这是一个综合基于图的Twitter机器人检测基准,它显示了迄今为止最大的数据集,在Twitter网络上提供了多元化的实体和关系,并且与现有数据集相比具有更好的注释质量。此外,我们重新实施35代表性的Twitter机器人检测基线,并在包括Twibot-22在内的9个数据集上进行评估,以促进对模型性能和对研究进度的整体了解的公平比较。为了促进进一步的研究,我们将所有实施的代码和数据集巩固到Twibot-22评估框架中,研究人员可以在其中始终如一地评估新的模型和数据集。 Twibot-22 Twitter机器人检测基准和评估框架可在https://twibot22.github.io/上公开获得。
translated by 谷歌翻译
仇恨言论是一种在线骚扰的形式,涉及使用滥用语言,并且在社交媒体帖子中通常可以看到。这种骚扰主要集中在诸如宗教,性别,种族等的特定群体特征上,如今它既有社会和经济后果。文本文章中对滥用语言的自动检测一直是一项艰巨的任务,但最近它从科学界获得了很多兴趣。本文解决了在社交媒体中辨别仇恨内容的重要问题。我们在这项工作中提出的模型是基于LSTM神经网络体系结构的现有方法的扩展,我们在短文中适当地增强和微调以检测某些形式的仇恨语言,例如种族主义或性别歧视。最重要的增强是转换为由复发性神经网络(RNN)分类器组成的两阶段方案。将第一阶段的所有一Vs式分类器(OVR)分类器的输出组合在一起,并用于训练第二阶段分类器,最终决定了骚扰的类型。我们的研究包括对在16K推文的公共语料库中评估的第二阶段提出的几种替代方法的性能比较,然后对另一个数据集进行了概括研究。报道的结果表明,与当前的最新技术相比,在仇恨言论检测任务中,所提出的方案的分类质量出色。
translated by 谷歌翻译
Twitter是吸引数百万用户最受欢迎的社交网络之一,而捕获了相当大的在线话语。它提供了一种简单的使用框架,具有短消息和有效的应用程序编程接口(API),使研究界能够学习和分析这一社交网络的几个方面。但是,Twitter使用简单可能会导致各种机器人的恶意处理。恶意处理现象在线话语中扩大,特别是在选举期间,除了用于传播和通信目的的合法机床之外,目标是操纵舆论和选民走向某个方向,特定意识形态或政党。本文侧重于基于标记的Twitter数据来识别Twitter机器的新系统的设计。为此,使用极端梯度升压(XGBoost)算法采用了监督机器学习(ML)框架,其中通过交叉验证调整超参数。我们的研究还通过计算特征重要性,使用基于游戏理论为基础的福价来解释ML模型预测的福利添加剂解释(Shap)。与最近最先进的Twitter机器人检测方法相比,不同的Twitter数据集的实验评估证明了我们的方法的优越性。
translated by 谷歌翻译
The stock market prediction has been a traditional yet complex problem researched within diverse research areas and application domains due to its non-linear, highly volatile and complex nature. Existing surveys on stock market prediction often focus on traditional machine learning methods instead of deep learning methods. Deep learning has dominated many domains, gained much success and popularity in recent years in stock market prediction. This motivates us to provide a structured and comprehensive overview of the research on stock market prediction focusing on deep learning techniques. We present four elaborated subtasks of stock market prediction and propose a novel taxonomy to summarize the state-of-the-art models based on deep neural networks from 2011 to 2022. In addition, we also provide detailed statistics on the datasets and evaluation metrics commonly used in the stock market. Finally, we highlight some open issues and point out several future directions by sharing some new perspectives on stock market prediction.
translated by 谷歌翻译
讽刺可以被定义为说或写讽刺与一个人真正想表达的相反,通常是为了侮辱,刺激或娱乐某人。由于文本数据中讽刺性的性质晦涩难懂,因此检测到情感分析研究社区的困难和非常感兴趣。尽管讽刺检测的研究跨越了十多年,但最近已经取得了一些重大进步,包括在多模式环境中采用了无监督的预训练的预训练的变压器,并整合了环境以识别讽刺。在这项研究中,我们旨在简要概述英语计算讽刺研究的最新进步和趋势。我们描述了与讽刺有关的相关数据集,方法,趋势,问题,挑战和任务,这些数据集,趋势,问题,挑战和任务是无法检测到的。我们的研究提供了讽刺数据集,讽刺特征及其提取方法以及各种方法的性能分析,这些表可以帮助相关领域的研究人员了解当前的讽刺检测中最新实践。
translated by 谷歌翻译
妥协的合法帐户是将恶意内容传播到在线社交网络(OSN)中的大型用户基础的一种方式。由于这些报告对用户以及OSN上其他用户造成了很多损害,因此早期检测非常重要。本文提出了一种基于作者身份验证的新方法,以识别受损的Twitter帐户。由于该方法仅使用从上一个用户的帖子中提取的功能,因此有助于尽早检测以控制损坏。结果,可以以令人满意的精度检测到没有用户配置文件的恶意消息。实验是使用Twitter上折衷帐户的现实世界数据集构建的。结果表明该模型适用于由于达到89%的精度而适用于检测。
translated by 谷歌翻译
随着越来越受欢迎和易于访问互联网,在线谣言的问题正在升级。人们依靠社交媒体,易于获取信息,但将牺牲猎物陷入错误信息。在线帖子缺乏可信度评估技术,以便在到达时立即识别谣言。现有研究制定了通过开发机器学习和深度学习算法来打击在线谣言的若干机制。到目前为止的文献为凭借巨大的训练数据集提供了谣言分类的监督框架。然而,在监督学习的在线情景中,动态谣言识别变得困难。在线谣言的早期检测是一个具有挑战性的任务,与他们有关的研究相对较少。只要在线出现,就需要小时才能识别谣言。这项工作提出了一种简洁的谣言检测框架,依赖于在线帖子的内容和使用最先进的聚类技术。拟议的体系结构优于几种现有基线,并且比几种监督技术更好。提出的方法,轻巧,简单,坚固,提供了作为在线谣言识别的工具采用的适用性。
translated by 谷歌翻译
Time series anomaly detection has applications in a wide range of research fields and applications, including manufacturing and healthcare. The presence of anomalies can indicate novel or unexpected events, such as production faults, system defects, or heart fluttering, and is therefore of particular interest. The large size and complex patterns of time series have led researchers to develop specialised deep learning models for detecting anomalous patterns. This survey focuses on providing structured and comprehensive state-of-the-art time series anomaly detection models through the use of deep learning. It providing a taxonomy based on the factors that divide anomaly detection models into different categories. Aside from describing the basic anomaly detection technique for each category, the advantages and limitations are also discussed. Furthermore, this study includes examples of deep anomaly detection in time series across various application domains in recent years. It finally summarises open issues in research and challenges faced while adopting deep anomaly detection models.
translated by 谷歌翻译
非侵入性负载监控(NILM)是将总功率消耗分为单个子组件的任务。多年来,已经合并了信号处理和机器学习算法以实现这一目标。关于最先进的方法,进行了许多出版物和广泛的研究工作,以涉及最先进的方法。科学界最初使用机器学习工具的尼尔姆问题制定和描述的最初兴趣已经转变为更实用的尼尔姆。如今,我们正处于成熟的尼尔姆时期,在现实生活中的应用程序方案中尝试使用尼尔姆。因此,算法的复杂性,可转移性,可靠性,实用性和普遍的信任度是主要的关注问题。这篇评论缩小了早期未成熟的尼尔姆时代与成熟的差距。特别是,本文仅对住宅电器的尼尔姆方法提供了全面的文献综述。本文分析,总结并介绍了大量最近发表的学术文章的结果。此外,本文讨论了这些方法的亮点,并介绍了研究人员应考虑的研究困境,以应用尼尔姆方法。最后,我们表明需要将传统分类模型转移到一个实用且值得信赖的框架中。
translated by 谷歌翻译
社交审核已经占据了网络,成为产品信息的合理来源。人和企业使用此类信息进行决策。企业还利用社交信息使用单个用户,用户组或培训的机器人传播伪信息以产生欺诈内容。许多研究提出了基于用户行为和审查文本来解决欺诈检测挑战的方法。为了提供详尽的文献综述,使用框架进行审查的社会欺诈检测,该框架考虑了三个关键组件:审查本身,执行审核的用户以及正在审查的项目。作为组件表示提取的特征,基于行为,基于文本的特征及其组合提供了一个特征明智的审查。通过此框架,展示了全面的方法概述,包括监督,半监督和无监督的学习。欺诈检测的监督方法被引入并分为两个子类别;古典,深入学习。解释了标记的数据集缺乏,并提出了潜在的解决方案。为了帮助该地区的新研究人员发展更好的理解,在建议的系统框架的每一步中提供了一个主题分析和未来方向的概述。
translated by 谷歌翻译
推文是在线社交媒体中最简洁的交流形式,其中一条推文有可能制作或打破对话的话语。在线仇恨言论比以往任何时候都更容易访问,并且扼杀其传播对于社交媒体公司和用户进行友好沟通至关重要。除了最近的一条推文分类,无论导致这一点的推文线程/上下文如何,大多数研究都集中在对单个推文进行分类。遏制仇恨言论的经典方法之一是在仇恨言论邮寄后采用反应性策略。事实上的事实策略导致忽略了微妙的帖子,这些帖子并未显示出自己激发仇恨言论的潜力,但可能会在随后在帖子的答复中随后的讨论中进行预言。在本文中,我们提出了Dragnet ++,该论文旨在预测推文可以通过其未来的回复链引入的仇恨强度。它使用推文线程的语义和传播结构来最大化导致每个后续推文的仇恨强度的上下文信息。我们探索了三个公开可用的Twitter数据集 - 反种族主义包含有关社交媒体讨论在美国政治和COVID-19的背景期间关于种族主义言论的回答推文;反社会介绍了一个关于反社会行为的19000万推文的数据集;和反亚洲介绍了基于19日大流行期间的反亚洲行为的Twitter数据集。所有策划的数据集都包含Tweet线程的结构图信息。我们表明,Dragnet ++的表现大大优于所有最先进的基线。它比人相关系数的最佳基线降低了11 \%的利润率,而反种族主义数据集则在RMSE上降低了25 \%,而其他两个数据集则具有相似的性能。
translated by 谷歌翻译
金融部门中区块链和分布式分类帐技术(DLT)的兴起产生了社会经济转变,引发了法律关注和监管计划。尽管DLT的匿名性可以保护隐私权,数据保护和其他公民自由的权利,但缺乏身份证明阻碍了问责制,调查和执法。最终的挑战范围扩展到打击洗钱以及恐怖主义和扩散的融资(AML/CFT)的规则。由于执法机构和分析公司已经开始成功地应用取证来跟踪区块链生态系统的货币,因此在本文中,我们着重于这些技术的不断增长的相关性。特别是,我们提供了有关机器学习,网络和交易图分析的货币互联网(IOM)应用程序的见解。在提供了IOM中匿名的概念以及AML/CFT和区块链取证之间的相互作用的一些背景之后,我们着重于导致实验的异常检测方法。也就是说,我们通过各种机器学习技术分析了一个现实世界中的比特币交易数据集。我们的说法是,AML/CFT域可以从机器学习中的新图形分析方法中受益。确实,我们的发现表明,图形卷积网络(GCN)和图形注意网络(GAT)神经网络类型代表了AML/CFT合规性的有希望的解决方案。
translated by 谷歌翻译
自动日志文件分析可以尽早发现相关事件,例如系统故障。特别是,自我学习的异常检测技术在日志数据中捕获模式,随后向系统操作员报告意外的日志事件事件,而无需提前提供或手动对异常情况进行建模。最近,已经提出了越来越多的方法来利用深度学习神经网络为此目的。与传统的机器学习技术相比,这些方法证明了出色的检测性能,并同时解决了不稳定数据格式的问题。但是,有许多不同的深度学习体系结构,并且编码由神经网络分析的原始和非结构化日志数据是不平凡的。因此,我们进行了系统的文献综述,概述了部署的模型,数据预处理机制,异常检测技术和评估。该调查没有定量比较现有方法,而是旨在帮助读者了解不同模型体系结构的相关方面,并强调未来工作的开放问题。
translated by 谷歌翻译
这项工作提供了可靠的nids(R-nids),一种新的机器学习方法(ML)的网络入侵检测系统(NIDS),允许ML模型在集成数据集上工作,从不同数据集中具有不同信息的学习过程。因此,R-NIDS针对更强大的模型的设计,比传统方法更好地概括。我们还提出了一个名为UNK21的新数据集。它是由三个最着名的网络数据集(UGR'16,USNW-NB15和NLS-KDD)构建,每个网络环境收集,使用不同的特征和类,通过使用数据聚合方法R-nids。在r-nids之后,在这项工作中,我们建议基于文献中的三个最常见的数据集的信息来构建两个着名的ML模型(一个线性和非线性的一个),用于NIDS评估中的三个,集成在UNK21中的那些。所提出的方法优惠展示了作为NIDS解决方案训练的两种ML模型的结果可以从这种方法中受益,在新提议的UNK21数据集上培训时能够更好地概括。此外,这些结果用统计工具仔细分析了对我们的结论提供了高度信心的统计工具。
translated by 谷歌翻译
无监督的异常检测旨在通过在正常数据上训练来建立模型以有效地检测看不见的异常。尽管以前的基于重建的方法取得了富有成效的进展,但由于两个危急挑战,他们的泛化能力受到限制。首先,训练数据集仅包含正常模式,这限制了模型泛化能力。其次,现有模型学到的特征表示通常缺乏代表性,妨碍了保持正常模式的多样性的能力。在本文中,我们提出了一种称为自适应存储器网络的新方法,具有自我监督的学习(AMSL)来解决这些挑战,并提高无监督异常检测中的泛化能力。基于卷积的AutoEncoder结构,AMSL包含一个自我监督的学习模块,以学习一般正常模式和自适应内存融合模块来学习丰富的特征表示。四个公共多变量时间序列数据集的实验表明,与其他最先进的方法相比,AMSL显着提高了性能。具体而言,在具有9亿个样本的最大帽睡眠阶段检测数据集上,AMSL以精度和F1分数\ TextBF {4} \%+优于第二个最佳基线。除了增强的泛化能力之外,AMSL还针对输入噪声更加强大。
translated by 谷歌翻译
由于医疗保健是关键方面,健康保险已成为最大程度地减少医疗费用的重要计划。此后,由于保险的增加,医疗保健行业的欺诈活动大幅增加,欺诈行业已成为医疗费用上升的重要贡献者,尽管可以使用欺诈检测技术来减轻其影响。为了检测欺诈,使用机器学习技术。美国联邦政府的医疗补助和医疗保险服务中心(CMS)在本研究中使用“医疗保险D部分”保险索赔来开发欺诈检测系统。在类不平衡且高维的Medicare数据集中使用机器学习算法是一项艰巨的任务。为了紧凑此类挑战,目前的工作旨在在数据采样之后执行功能提取,然后应用各种分类算法,以获得更好的性能。特征提取是一种降低降低方法,该方法将属性转换为实际属性的线性或非线性组合,生成较小,更多样化的属性集,从而降低了尺寸。数据采样通常用于通过扩大少数族裔类的频率或降低多数类的频率以获得两种类别的出现数量大约相等的频率来解决类不平衡。通过标准性能指标评估所提出的方法。因此,为了有效地检测欺诈,本研究将自动编码器作为特征提取技术,合成少数族裔过采样技术(SMOTE)作为数据采样技术,以及各种基于决策树的分类器作为分类算法。实验结果表明,自动编码器的结合,然后在LightGBM分类器上获得SMOTE,取得了最佳的结果。
translated by 谷歌翻译