它是雅虎邮件的重要产品要求,以区分个人和机器生成的电子邮件。雅虎邮件的旧生产分类器基于一个简单的逻辑回归模型。该模型通过在SMTP地址级别的聚合功能进行培训。我们建议在消息级别建立深入学习模型。我们构建并训练了四个单独的CNN模型:(1)具有主题和内容的内容模型作为输入; (2)发件人模型,发件人电子邮件地址和名称为输入; (3)通过分析电子邮件收件人的动作模式和相应地基于发件人的开/删除行为的目标标签进行操作模型; (4)通过利用发件人的“显式称呼”信号作为正标签来称呼模型。接下来,在探索上述四种模型的不同组合后,我们建立了最终的完整模型。与旧生产模型相比,我们的全部模型从70.5%提高到78.8%的调整后召回,同时抬起94.7%至96.0%的精度。我们的完整模式也显着击败了这项任务的最先进的BERT模型。此全模型已部署到当前的生产系统(雅虎邮寄6)中。
translated by 谷歌翻译
仇恨言论的大规模传播,针对特定群体的仇恨内容,是一个批评社会重要性的问题。仇恨语音检测的自动化方法通常采用最先进的深度学习(DL)的文本分类器 - 非常大的预训练的神经语言模型超过1亿个参数,将这些模型适应仇恨语音检测的任务相关标记的数据集。不幸的是,只有许多标记的数据集有限的尺寸可用于此目的。我们为推进这种事态的高潜力进行了几项贡献。我们呈现HyperNetworks用于仇恨语音检测,这是一种特殊的DL网络,其权重由小型辅助网络调节。这些架构在字符级运行,而不是字级,并且与流行的DL分类器相比,几个较小的顺序大小。我们进一步表明,在命名为IT数据增强的过程中使用大量自动生成的示例的培训讨厌检测分类器通常是有益的,但这种做法尤其提高了所提出的HyperNetworks的性能。事实上,我们实现了比艺术最新的语言模型相当或更好的性能,这些模型是使用这种方法的预先训练的和数量级,与使用五个公共仇恨语音数据集进行评估。
translated by 谷歌翻译
近年来,已经出现了许多巨魔帐户来操纵社交媒体的意见。对于社交网络平台而言,检测和消除巨魔是一个关键问题,因为企业,滥用者和民族国家赞助的巨魔农场使用虚假和自动化的帐户。 NLP技术用于从社交网络文本中提取数据,例如Twitter推文。在许多文本处理应用程序中,诸如BERT之类的单词嵌入表示方法的执行效果要好于先前的NLP技术,从而为各种任务提供了新颖的突破,以精确理解和分类社交网络工作信息。本文实施并比较了九个基于深度学习的巨魔推文检测体系结构,每个bert,elmo和手套词嵌入模型的三个模型。精度,召回,F1分数,AUC和分类精度用于评估每个体系结构。从实验结果中,大多数使用BERT模型的架构改进了巨魔推文检测。具有GRU分类器的基于自定义的基于ELMO的体系结构具有检测巨魔消息的最高AUC。所提出的体系结构可以由各种基于社会的系统用于未来检测巨魔消息。
translated by 谷歌翻译
由于GDPR于2018年5月生效以来,公司已经致力于他们的数据实践来遵守本隐私法。特别是,由于隐私政策是用户理解和控制隐私的基本沟通渠道,因此许多公司在强制执行GDPR后更新了他们的隐私政策。但是,大多数隐私政策都是详细的,充满了术语,并模糊地描述了公司的数据实践和用户权利。因此,如果他们符合GDPR,则目前尚不清楚。在本文中,我们创建了一个包含18个GDPR要求的1,080个网站的隐私政策数据集,并开发了一种基于卷积神经网络(CNN)的模型,可以将隐私政策分类为89.2%。我们应用我们的模型,以对隐私政策的合规性进行测量。我们的结果表明,即使在GDPR生效之后,即使在GDPR生效之后,97%的网站仍然无法遵守GDPR的至少一个要求。
translated by 谷歌翻译
随着社交网络的发展,用于各种商业和政治目的的虚假新闻已经大量出现,并在在线世界中广泛存在。有了欺骗性的话,人们可以很容易地被假新闻感染,并会在没有任何事实检查的情况下分享它们。例如,在2016年美国总统选举期间,有关候选人的各种虚假新闻在官方新闻媒体和在线社交网络中都广泛传播。这些假新闻通常会发布以涂抹对手或支持候选人的身边。假新闻中的错误信息通常是为了激励选民的非理性情感和热情。这样的虚假新闻有时会带来毁灭性的影响,改善在线社交网络的信誉的一个重要目标是及时确定假新闻。在本文中,我们建议研究假新闻检测问题。自动假新闻标识非常困难,因为新闻的基于纯模型的事实检查仍然是一个开放问题,并且很少使用现有模型来解决该问题。通过对虚假新闻数据进行彻底的调查,从假新闻中使用的文本单词和图像都可以确定许多有用的明确功能。除了明确的功能外,假新闻中使用的单词和图像中还存在一些隐藏的模式,可以用我们模型中的多个卷积层提取的一组潜在特征来捕获。本文提出了一种称为Ti-CNN的模型(基于文本和图像信息的综合神经网络)。通过将显式和潜在功能投射到统一的特征空间中,Ti-CNN可以同时培训文本和图像信息。在现实世界中的假新闻数据集进行的广泛实验证明了Ti-CNN的有效性。
translated by 谷歌翻译
仇恨言论是一种在线骚扰的形式,涉及使用滥用语言,并且在社交媒体帖子中通常可以看到。这种骚扰主要集中在诸如宗教,性别,种族等的特定群体特征上,如今它既有社会和经济后果。文本文章中对滥用语言的自动检测一直是一项艰巨的任务,但最近它从科学界获得了很多兴趣。本文解决了在社交媒体中辨别仇恨内容的重要问题。我们在这项工作中提出的模型是基于LSTM神经网络体系结构的现有方法的扩展,我们在短文中适当地增强和微调以检测某些形式的仇恨语言,例如种族主义或性别歧视。最重要的增强是转换为由复发性神经网络(RNN)分类器组成的两阶段方案。将第一阶段的所有一Vs式分类器(OVR)分类器的输出组合在一起,并用于训练第二阶段分类器,最终决定了骚扰的类型。我们的研究包括对在16K推文的公共语料库中评估的第二阶段提出的几种替代方法的性能比较,然后对另一个数据集进行了概括研究。报道的结果表明,与当前的最新技术相比,在仇恨言论检测任务中,所提出的方案的分类质量出色。
translated by 谷歌翻译
社交媒体的自杀意图检测是一种不断发展的研究,挑战了巨大的挑战。许多有自杀倾向的人通过社交媒体平台分享他们的思想和意见。作为许多研究的一部分,观察到社交媒体的公开职位包含有价值的标准,以有效地检测有自杀思想的个人。防止自杀的最困难的部分是检测和理解可能导致自杀的复杂风险因素和警告标志。这可以通过自动识别用户行为的突然变化来实现。自然语言处理技术可用于收集社交媒体交互的行为和文本特征,这些功能可以传递给特殊设计的框架,以检测人类交互中的异常,这是自杀意图指标。我们可以使用深度学习和/或基于机器学习的分类方法来实现快速检测自杀式思想。出于这种目的,我们可以采用LSTM和CNN模型的组合来检测来自用户的帖子的这种情绪。为了提高准确性,一些方法可以使用更多数据进行培训,使用注意模型提高现有模型等的效率。本文提出了一种LSTM-Incription-CNN组合模型,用于分析社交媒体提交,以检测任何潜在的自杀意图。在评估期间,所提出的模型的准确性为90.3%,F1分数为92.6%,其大于基线模型。
translated by 谷歌翻译
由于在线学习和评估平台(例如Coursera,Udemy,Khan Academy等)的兴起,对论文(AES)和自动论文评分的自动评估(AES)已成为一个严重的问题。研究人员最近提出了许多用于自动评估的技术。但是,其中许多技术都使用手工制作的功能,因此从特征表示的角度受到限制。深度学习已成为机器学习中的新范式,可以利用大量数据并确定对论文评估有用的功能。为此,我们提出了一种基于复发网络(RNN)和卷积神经网络(CNN)的新型体系结构。在拟议的体系结构中,多通道卷积层从嵌入矢量和基本语义概念中学习并捕获单词n-gram的上下文特征,并使用max-pooling操作在论文级别形成特征向量。 RNN的变体称为双门复发单元(BGRU),用于访问以前和后续的上下文表示。该实验是对Kaggle上的八个数据集进行的,以实现AES的任务。实验结果表明,我们提出的系统比其他基于深度学习的AES系统以及其他最新AES系统的评分精度明显更高。
translated by 谷歌翻译
人们使用移动消息传递服务的增加导致了像网络钓鱼一样的社会工程攻击的传播,考虑到垃圾邮件文本是传播网络钓鱼攻击的主要因素之一,以窃取信用卡和密码等敏感数据。此外,关于Covid-19大流行的谣言和不正确的医疗信息在社交媒体上广泛分享,导致人们的恐惧和混乱。因此,过滤垃圾邮件内容对于降低风险和威胁至关重要。以前的研究依赖于机器学习和深入学习的垃圾邮件分类方法,但这些方法有两个限制。机器学习模型需要手动功能工程,而深度神经网络需要高计算成本。本文介绍了一种动态的深度集合模型,用于垃圾邮件检测,调整其复杂性并自动提取功能。所提出的模型利用卷积和汇集层进行特征提取以及基础分类器,如随机森林和极其随机的树木,用于将文本分类为垃圾邮件或合法的树。此外,该模型采用了Boosting和Bagging等集合学习程序。结果,该模型达到了高精度,召回,F1分数和精度为98.38%。
translated by 谷歌翻译
The development of deep neural networks has improved representation learning in various domains, including textual, graph structural, and relational triple representations. This development opened the door to new relation extraction beyond the traditional text-oriented relation extraction. However, research on the effectiveness of considering multiple heterogeneous domain information simultaneously is still under exploration, and if a model can take an advantage of integrating heterogeneous information, it is expected to exhibit a significant contribution to many problems in the world. This thesis works on Drug-Drug Interactions (DDIs) from the literature as a case study and realizes relation extraction utilizing heterogeneous domain information. First, a deep neural relation extraction model is prepared and its attention mechanism is analyzed. Next, a method to combine the drug molecular structure information and drug description information to the input sentence information is proposed, and the effectiveness of utilizing drug molecular structures and drug descriptions for the relation extraction task is shown. Then, in order to further exploit the heterogeneous information, drug-related items, such as protein entries, medical terms and pathways are collected from multiple existing databases and a new data set in the form of a knowledge graph (KG) is constructed. A link prediction task on the constructed data set is conducted to obtain embedding representations of drugs that contain the heterogeneous domain information. Finally, a method that integrates the input sentence information and the heterogeneous KG information is proposed. The proposed model is trained and evaluated on a widely used data set, and as a result, it is shown that utilizing heterogeneous domain information significantly improves the performance of relation extraction from the literature.
translated by 谷歌翻译
转移学习已通过深度审慎的语言模型广泛用于自然语言处理,例如来自变形金刚和通用句子编码器的双向编码器表示。尽管取得了巨大的成功,但语言模型应用于小型数据集时会过多地适合,并且很容易忘记与分类器进行微调时。为了解决这个忘记将深入的语言模型从一个域转移到另一个领域的问题,现有的努力探索了微调方法,以减少忘记。我们建议DeepeMotex是一种有效的顺序转移学习方法,以检测文本中的情绪。为了避免忘记问题,通过从Twitter收集的大量情绪标记的数据来仪器进行微调步骤。我们使用策划的Twitter数据集和基准数据集进行了一项实验研究。 DeepeMotex模型在测试数据集上实现多级情绪分类的精度超过91%。我们评估了微调DeepeMotex模型在分类Emoint和刺激基准数据集中的情绪时的性能。这些模型在基准数据集中的73%的实例中正确分类了情绪。所提出的DeepeMotex-Bert模型优于BI-LSTM在基准数据集上的BI-LSTM增长23%。我们还研究了微调数据集的大小对模型准确性的影响。我们的评估结果表明,通过大量情绪标记的数据进行微调提高了最终目标任务模型的鲁棒性和有效性。
translated by 谷歌翻译
海洋生态系统及其鱼类栖息地越来越重要,因为它们在提供有价值的食物来源和保护效果方面的重要作用。由于它们的偏僻且难以接近自然,因此通常使用水下摄像头对海洋环境和鱼类栖息地进行监测。这些相机产生了大量数字数据,这些数据无法通过当前的手动处理方法有效地分析,这些方法涉及人类观察者。 DL是一种尖端的AI技术,在分析视觉数据时表现出了前所未有的性能。尽管它应用于无数领域,但仍在探索其在水下鱼类栖息地监测中的使用。在本文中,我们提供了一个涵盖DL的关键概念的教程,该教程可帮助读者了解对DL的工作原理的高级理解。该教程还解释了一个逐步的程序,讲述了如何为诸如水下鱼类监测等挑战性应用开发DL算法。此外,我们还提供了针对鱼类栖息地监测的关键深度学习技术的全面调查,包括分类,计数,定位和细分。此外,我们对水下鱼类数据集进行了公开调查,并比较水下鱼类监测域中的各种DL技术。我们还讨论了鱼类栖息地加工深度学习的新兴领域的一些挑战和机遇。本文是为了作为希望掌握对DL的高级了解,通过遵循我们的分步教程而为其应用开发的海洋科学家的教程,并了解如何发展其研究,以促进他们的研究。努力。同时,它适用于希望调查基于DL的最先进方法的计算机科学家,以进行鱼类栖息地监测。
translated by 谷歌翻译
研究表明,与自杀相关的新闻媒体内容的暴露与自杀率相关,具有一些内容特征可能具有有害和其他可能的保护作用。虽然有一些选定的特征存在良好的证据,但是一般缺少系统的大规模调查,特别是社交媒体数据。我们应用机器学习方法以自动标记大量的Twitter数据。我们开发了一种新的注释计划,将与自杀相关的推文分类为不同的消息类型和问题,以解决方案为中心的视角。然后,我们培训了包括多数分类器的机器学习模型的基准,这是一种基于词频率的方法(具有线性SVM的TF-IDF)和两个最先进的深层学习模型(BERT,XLNET)。这两个深入学习模型在两个分类任务中实现了最佳性能:首先,我们分类了六个主要内容类别,包括个人故事,包括自杀意图和尝试或应对,呼吁采取措施传播问题意识或预防相关信息,自杀病例的报告以及其他与自杀相关和偏离主题推文的报告。深度学习模型平均达到73%以上的准确度,遍布六个类别,F1分数为69%和85%,除了自杀意念和尝试类别(55%)。其次,在分离帖子中,在偏离主题推文中指的是实际自杀题,他们正确标记了大约88%的推文,双方达到了F1分数为93%和74%。这些分类性能与类似任务的最先进的性能相当。通过使数据标签更有效,这项工作能够对各种社交媒体内容的有害和保护作用进行自杀率和寻求帮助行为的有害和保护作用。
translated by 谷歌翻译
通过为患者启用远程医疗服务,远程医疗有助于促进医疗专业人员的机会。随着必要的技术基础设施的出现,这些服务已逐渐流行。自从Covid-19危机开始以来,远程医疗的好处就变得更加明显,因为人们在大流行期间倾向于亲自探望医生。在本文中,我们专注于促进医生和患者之间的聊天课程。我们注意到,随着对远程医疗服务的需求的增加,聊天体验的质量和效率可能至关重要。因此,我们为医学对话开发了一种智能的自动反应生成机制,该机制可帮助医生有效地对咨询请求做出反应,尤其是在繁忙的课程中。我们探索了9个月内收集的医生和患者之间的900,000多个匿名的历史在线信息。我们实施聚类算法,以确定医生最常见的响应,并相应地手动标记数据。然后,我们使用此预处理数据来训练机器学习算法以生成响应。所考虑的算法有两个步骤:过滤(即触发)模型,以滤除不可行的患者消息和一个响应发生器,以建议成功通过触发阶段的响应前3位医生响应。该方法为Precision@3提供了83.28 \%的精度,并显示出其参数的鲁棒性。
translated by 谷歌翻译
The International Workshop on Reading Music Systems (WoRMS) is a workshop that tries to connect researchers who develop systems for reading music, such as in the field of Optical Music Recognition, with other researchers and practitioners that could benefit from such systems, like librarians or musicologists. The relevant topics of interest for the workshop include, but are not limited to: Music reading systems; Optical music recognition; Datasets and performance evaluation; Image processing on music scores; Writer identification; Authoring, editing, storing and presentation systems for music scores; Multi-modal systems; Novel input-methods for music to produce written music; Web-based Music Information Retrieval services; Applications and projects; Use-cases related to written music. These are the proceedings of the 3rd International Workshop on Reading Music Systems, held in Alicante on the 23rd of July 2021.
translated by 谷歌翻译
近年来,我们看到了处理敏感个人信息的应用程序(包括对话系统)的指数增长。这已经揭示了在虚拟环境中有关个人数据保护的极为重要的问题。首先,性能模型应该能够区分敏感内容与中性句子的句子。其次,它应该能够识别其中包含的个人数据类别的类型。这样,可以考虑每个类别的不同隐私处理。在文献中,如果有关于自动敏感数据识别的作品,则通常在没有共同基准的不同域或语言上进行。为了填补这一空白,在这项工作中,我们介绍了SPEDAC,这是一个新的注释基准,用于识别敏感的个人数据类别。此外,我们提供了对数据集的广泛评估,该数据集使用不同的基准和基于Roberta的分类器进行的,这是一种神经体系结构,在检测敏感句子和个人数据类别的分类方面实现了强大的性能。
translated by 谷歌翻译
确保适当的标点符号和字母外壳是朝向应用复杂的自然语言处理算法的关键预处理步骤。这对于缺少标点符号和壳体的文本源,例如自动语音识别系统的原始输出。此外,简短的短信和微博的平台提供不可靠且经常错误的标点符号和套管。本调查概述了历史和最先进的技术,用于恢复标点符号和纠正单词套管。此外,突出了当前的挑战和研究方向。
translated by 谷歌翻译
电子邮件是通信最广泛的方法之一,数以百万计的人和企业每天依靠它来交流和分享知识和信息。然而,近年来,电子邮件用户的增长量增加了垃圾邮件的急剧增加。适当地为个人和公司进行处理和管理电子邮件变得越来越困难。本文提出了一种用于电子邮件垃圾邮件检测的新技术,该技术基于卷积神经网络,封闭式复发单元和注意机制的组合。在系统培训期间,网络选择性地关注电子邮件文本的必要部分。卷积层的用法是通过层次表示提取更有意义,抽象和可推广的特征,这是本研究的主要贡献。此外,此贡献还包括交叉数据集评估,从而使模型培训数据集产生了更多独立的绩效。根据跨数据库评估结果,该提出的技术通过使用时间卷积来推动基于注意力的技术的结果,这使我们使用了更灵活的接收场大小。将建议的技术的发现与最先进的模型的发现进行了比较,并表明我们的方法表现优于它们。
translated by 谷歌翻译
排名模型是信息检索系统的主要组成部分。排名的几种方法是基于传统的机器学习算法,使用一组手工制作的功能。最近,研究人员在信息检索中利用了深度学习模型。这些模型的培训结束于结束,以提取来自RAW数据的特征来排序任务,因此它们克服了手工制作功能的局限性。已经提出了各种深度学习模型,每个模型都呈现了一组神经网络组件,以提取用于排名的特征。在本文中,我们在不同方面比较文献中提出的模型,以了解每个模型的主要贡献和限制。在我们对文献的讨论中,我们分析了有前途的神经元件,并提出了未来的研究方向。我们还显示文档检索和其他检索任务之间的类比,其中排名的项目是结构化文档,答案,图像和视频。
translated by 谷歌翻译
本次调查绘制了用于分析社交媒体数据的生成方法的研究状态的广泛的全景照片(Sota)。它填补了空白,因为现有的调查文章在其范围内或被约会。我们包括两个重要方面,目前正在挖掘和建模社交媒体的重要性:动态和网络。社会动态对于了解影响影响或疾病的传播,友谊的形成,友谊的形成等,另一方面,可以捕获各种复杂关系,提供额外的洞察力和识别否则将不会被注意的重要模式。
translated by 谷歌翻译