智能论文笔记

Automatic Pharma News Categorization

Stanislaw Adaszewski , Pascal Kuner , Ralf J. Jaeger

分类：机器学习

2021-12-28

我们使用由与Pharma信息科学相关的23个新闻类别组成的文本数据集，以便在分类任务中比较多变压器模型的微调性能。使用具有多个自回归和自动调制变换模型的平衡数据集，我们比较了它们的微调性能。为了验证获胜方法，我们在错误预测的情况下执行模型行为的诊断，包括检测类别明智的指标，评估预测确定性和潜在空间表示的评估。最后，我们提出了一个由执行个人预测器的顶部组成的集合模型，并证明这种方法在F1度量中提供了适度的改进。

translated by 谷歌翻译

BERTuit: Understanding Spanish language in Twitter through a native transformer

Javier Huertas-Tato , Alejandro Martin , David Camacho

分类：自然语言处理 | 机器学习

2022-04-07

BERT，ROBERTA或GPT-3等复杂的基于注意力的语言模型的外观已允许在许多场景中解决高度复杂的任务。但是，当应用于特定域时，这些模型会遇到相当大的困难。诸如Twitter之类的社交网络就是这种情况，Twitter是一种不断变化的信息流，以非正式和复杂的语言编写的信息流，鉴于人类的重要作用，每个信息都需要仔细评估，即使人类也需要理解。通过自然语言处理解决该领域的任务涉及严重的挑战。当将强大的最先进的多语言模型应用于这种情况下，特定语言的细微差别用来迷失翻译。为了面对这些挑战，我们提出了\ textbf {bertuit}，这是迄今为止针对西班牙语提出的较大变压器，使用Roberta Optimization进行了230m西班牙推文的大规模数据集进行了预培训。我们的动机是提供一个强大的资源，以更好地了解西班牙Twitter，并用于专注于该社交网络的应用程序，特别强调致力于解决该平台中错误信息传播的解决方案。对Bertuit进行了多个任务评估，并与M-Bert，XLM-Roberta和XLM-T进行了比较，该任务非常具有竞争性的多语言变压器。在这种情况下，使用应用程序显示了我们方法的实用性：一种可视化骗局和分析作者群体传播虚假信息的零击方法。错误的信息在英语以外的其他语言等平台上疯狂地传播，这意味着在英语说话之外转移时，变形金刚的性能可能会受到影响。

translated by 谷歌翻译

StratDef: a strategic defense against adversarial attacks in malware detection

Aqib Rashid , Jose Such

分类：机器学习

2022-02-15

多年来，大多数针对防御机器学习模型的防御攻击的研究都在图像识别领域中。尽管其重要性，但恶意软件检测域仍受到了较少的关注。此外，大多数探索这些防御的工作都集中在几种方法上，但是在应用它们时没有策略。在本文中，我们介绍了Stratdef，这是一种基于移动目标防御方法的恶意软件检测域而定制的战略防御系统。我们克服了与系统构建，选择和战略使用模型有关的挑战，以最大程度地提高对抗性鲁棒性。 Stratdef动态和战略性地选择了最佳模型，以增加攻击者的不确定性，同时最大程度地减少对抗性ML域（如攻击转移性）的关键方面。我们对针对恶意软件检测机器学习的对抗性攻击进行了首次全面评估，我们的威胁模型探索了不同级别的威胁，攻击者知识，能力和攻击强度。我们表明，即使面对对抗性威胁，StratDEF的表现也比其他防御能力更好。我们还表明，从现有的防御措施中，只有少数几个受对抗训练的模型比使用香草型号提供了更好的保护，但仍然胜过Stratdef。

translated by 谷歌翻译

BERTifying Sinhala -- A Comprehensive Analysis of Pre-trained Language Models for Sinhala Text Classification

Vinura Dhananjaya , Piyumal Demotte , Surangika Ranathunga , Sanath Jayasena

分类：自然语言处理

2022-08-16

这项研究提供了对僧伽罗文本分类的预训练语言模型的性能的首次全面分析。我们测试了一组不同的Sinhala文本分类任务，我们的分析表明，在包括Sinhala（XLM-R，Labse和Laser）的预训练的多语言模型中，XLM-R是迄今为止Sinhala文本的最佳模型分类。我们还预先培训了两种基于罗伯塔的单语僧伽罗模型，它们远远优于僧伽罗的现有预训练的语言模型。我们表明，在微调时，这些预训练的语言模型为僧伽罗文本分类树立了非常强大的基线，并且在标记数据不足以进行微调的情况下非常强大。我们进一步提供了一组建议，用于使用预训练的模型进行Sinhala文本分类。我们还介绍了新的注释数据集，可用于僧伽罗文本分类的未来研究，并公开发布我们的预培训模型。

translated by 谷歌翻译

Benchmark time series data sets for PyTorch -- the torchtime package

Philip Darke , Paolo Missier , Jaume Bacardit

分类：机器学习

2022-07-25

电子健康记录数据模型的开发是一个积极研究的领域，其中包含少数公共基准数据集。研究人员通常编写自定义数据处理代码，但这会阻碍可重复性并引入错误。Python软件包TORCHTIME提供了常用Physionet和UEA和UCR时间序列分类存储库数据集的可重复实现。提供了用于处理不规则的不规则时间序列的不规则抽样的特征。它旨在简化对生理学数据的访问，并在这一令人兴奋的研究领域中对模型进行公平的比较。

translated by 谷歌翻译

A Heuristic-driven Uncertainty based Ensemble Framework for Fake News Detection in Tweets and News Articles

Sourya Dipta Das , Ayan Basak , Saikat Dutta

分类：自然语言处理 | 人工智能

2021-04-05

社交媒体的重要性在过去几十年中增加了流畅，因为它帮助人们甚至是世界上最偏远的角落保持联系。随着技术的出现，数字媒体比以往任何时候都变得更加相关和广泛使用，并且在此之后，假冒新闻和推文的流通中有一种复兴，需要立即关注。在本文中，我们描述了一种新的假新闻检测系统，可自动识别新闻项目是“真实的”或“假”，作为我们在英语挑战中的约束Covid-19假新闻检测中的工作的延伸。我们使用了一个由预先训练的模型组成的集合模型，然后是统计特征融合网络，以及通过在新闻项目或推文中的各种属性，如源，用户名处理，URL域和作者中的各种属性结合到统计特征中的各种属性。我们所提出的框架还规定了可靠的预测性不确定性以及分类任务的适当类别输出置信水平。我们在Covid-19假新闻数据集和Fakenewsnet数据集上评估了我们的结果，以显示所提出的算法在短期内容中检测假新闻以及新闻文章中的算法。我们在Covid-19数据集中获得了0.9892的最佳F1分，以及Fakenewsnet数据集的F1分数为0.9073。

translated by 谷歌翻译

LexGLUE: A Benchmark Dataset for Legal Language Understanding in English

Ilias Chalkidis , Abhik Jana , Dirk Hartung , Michael Bommarito , Ion Androutsopoulos , Daniel Martin Katz , Nikolaos Aletras

分类：自然语言处理

2021-10-03

Laws and their interpretations, legal arguments and agreements\ are typically expressed in writing, leading to the production of vast corpora of legal text. Their analysis, which is at the center of legal practice, becomes increasingly elaborate as these collections grow in size. Natural language understanding (NLU) technologies can be a valuable tool to support legal practitioners in these endeavors. Their usefulness, however, largely depends on whether current state-of-the-art models can generalize across various tasks in the legal domain. To answer this currently open question, we introduce the Legal General Language Understanding Evaluation (LexGLUE) benchmark, a collection of datasets for evaluating model performance across a diverse set of legal NLU tasks in a standardized way. We also provide an evaluation and analysis of several generic and legal-oriented models demonstrating that the latter consistently offer performance improvements across multiple tasks.

translated by 谷歌翻译

Unsupervised Law Article Mining based on Deep Pre-Trained Language Representation Models with Application to the Italian Civil Code

Andrea Tagarelli , Andrea Simeri

分类：自然语言处理 | 人工智能

2021-12-02

建模法检索和检索作为预测问题最近被出现为法律智能的主要方法。专注于法律文章检索任务，我们展示了一个名为Lamberta的深度学习框架，该框架被设计用于民法代码，并在意大利民法典上专门培训。为了我们的知识，这是第一项研究提出了基于伯特（来自变压器的双向编码器表示）学习框架的意大利法律制度对意大利法律制度的高级法律文章预测的研究，最近引起了深度学习方法的增加，呈现出色的有效性在几种自然语言处理和学习任务中。我们通过微调意大利文章或其部分的意大利预先训练的意大利预先训练的伯爵来定义Lamberta模型，因为法律文章作为分类任务检索。我们Lamberta框架的一个关键方面是我们构思它以解决极端的分类方案，其特征在于课程数量大，少量学习问题，以及意大利法律预测任务的缺乏测试查询基准。为了解决这些问题，我们为法律文章的无监督标签定义了不同的方法，原则上可以应用于任何法律制度。我们提供了深入了解我们Lamberta模型的解释性和可解释性，并且我们对单一标签以及多标签评估任务进行了广泛的查询模板实验分析。经验证据表明了Lamberta的有效性，以及对广泛使用的深度学习文本分类器和一些构思的几次学习者来说，其优越性是对属性感知预测任务的优势。

translated by 谷歌翻译

Extend and Explain: Interpreting Very Long Language Models

Joel Stremmel , Brian L. Hill , Jeffrey Hertzberg , Jaime Murillo , Llewelyn Allotey , Eran Halperin

分类：自然语言处理

2022-09-02

尽管变压器语言模型（LMS）是信息提取的最新技术，但长文本引入了需要次优的预处理步骤或替代模型体系结构的计算挑战。稀疏注意的LMS可以代表更长的序列，克服性能障碍。但是，目前尚不清楚如何解释这些模型的预测，因为并非所有令牌都在自我发项层中相互参加，而在运行时，长序列对可解释性算法提出了计算挑战，而当运行时取决于文档长度。这些挑战在文档可能很长的医学环境中是严重的，机器学习（ML）模型必须是审核和值得信赖的。我们介绍了一种新颖的蒙版抽样程序（MSP），以识别有助于预测的文本块，将MSP应用于预测医学文本诊断的背景下，并通过两位临床医生的盲目审查来验证我们的方法。我们的方法比以前的最先进的临床信息块高约1.7倍，速度更快100倍，并且可用于生成重要的短语对。 MSP特别适合长LMS，但可以应用于任何文本分类器。我们提供了MSP的一般实施。

translated by 谷歌翻译

Negation detection in Dutch clinical texts: an evaluation of rule-based and machine learning methods

Bram van Es , Leon C. Reteig , Sander C. Tan , Marijn Schraagen , Myrthe M. Hemker , Sebastiaan R. S. Arends , Miguel A. R. Rios , Saskia Haitjema

分类：自然语言处理 | 机器学习 | (统计)机器学习

2022-09-01

由于结构化数据通常不足，因此在开发用于临床信息检索和决策支持系统模型时，需要从电子健康记录中的自由文本中提取标签。临床文本中最重要的上下文特性之一是否定，这表明没有发现。我们旨在通过比较荷兰临床注释中的三种否定检测方法来改善标签的大规模提取。我们使用Erasmus医疗中心荷兰临床语料库比较了基于ContextD的基于规则的方法，即使用MEDCAT和（Fineted）基于Roberta的模型的BilstM模型。我们发现，Bilstm和Roberta模型都在F1得分，精度和召回方面始终优于基于规则的模型。此外，我们将每个模型的分类错误系统地分类，这些错误可用于进一步改善特定应用程序的模型性能。在性能方面，将三个模型结合起来并不有益。我们得出的结论是，尤其是基于Bilstm和Roberta的模型在检测临床否定方面非常准确，但是最终，根据手头的用例，这三种方法最终都可以可行。

translated by 谷歌翻译

HTML版本

TNT-KID: Transformer-based Neural Tagger for Keyword Identification

Matej Martinc , Blaž Škrlj , Senja Pollak

分类：自然语言处理

2020-03-20

随着越来越多的可用文本数据，能够自动分析，分类和摘要这些数据的算法的开发已成为必需品。在本研究中，我们提出了一种用于关键字识别的新颖算法，即表示给定文档的关键方面的一个或多字短语的提取，称为基于变压器的神经标记器，用于关键字识别（TNT-KID）。通过将变压器架构适用于手头的特定任务并利用域特定语料库上的预先磨损的语言模型，该模型能够通过提供竞争和强大的方式克服监督和无监督的最先进方法的缺陷在各种不同的数据集中的性能，同时仅需要最佳执行系统所需的手动标记的数据。本研究还提供了彻底的错误分析，具有对模型内部运作的有价值的见解和一种消融研究，测量关键字识别工作流程的特定组分对整体性能的影响。

translated by 谷歌翻译

Testing the Generalization of Neural Language Models for COVID-19 Misinformation Detection

Jan Philip Wahle , Nischal Ashok , Terry Ruas , Norman Meuschke , Tirthankar Ghosal , Bela Gipp

分类：自然语言处理 | 人工智能 | 机器学习

2021-11-15

潜在的生命危及危及生命的错误信息急剧上升是Covid-19大流行的副产品。计算支持，以识别关于该主题的大规模数据内的虚假信息至关重要，以防止伤害。研究人员提出了许多用于标记与Covid-19相关的在线错误信息的方法。但是，这些方法主要针对特定的内容类型（例如，新闻）或平台（例如，Twitter）。概括的方法的能力在很大程度上尚不清楚。我们在五十个COVID-19错误信息数据集中评估基于15个变压器的模型，包括社交媒体帖子，新闻文章和科学论文来填补这一差距。我们向Covid-19数据量身定制的标记和模型不提供普通目的的数据的显着优势。我们的研究为检测Covid-19错误信息的模型提供了逼真的评估。我们预计评估广泛的数据集和模型将使未来的开发错误信息检测系统进行未来的研究。

translated by 谷歌翻译

Survey of Generative Methods for Social Media Analysis

Stan Matwin , Aristides Milios , Paweł Prałat , Amilcar Soares , François Théberge

分类：机器学习

2021-12-13

本次调查绘制了用于分析社交媒体数据的生成方法的研究状态的广泛的全景照片（Sota）。它填补了空白，因为现有的调查文章在其范围内或被约会。我们包括两个重要方面，目前正在挖掘和建模社交媒体的重要性：动态和网络。社会动态对于了解影响影响或疾病的传播，友谊的形成，友谊的形成等，另一方面，可以捕获各种复杂关系，提供额外的洞察力和识别否则将不会被注意的重要模式。

translated by 谷歌翻译

Is Your Model Sensitive? SPeDaC: A New Benchmark for Detecting and Classifying Sensitive Personal Data

Gaia Gambarelli , Aldo Gangemi , Rocco Tripodi

分类：自然语言处理 | 人工智能

2022-08-12

近年来，我们看到了处理敏感个人信息的应用程序（包括对话系统）的指数增长。这已经揭示了在虚拟环境中有关个人数据保护的极为重要的问题。首先，性能模型应该能够区分敏感内容与中性句子的句子。其次，它应该能够识别其中包含的个人数据类别的类型。这样，可以考虑每个类别的不同隐私处理。在文献中，如果有关于自动敏感数据识别的作品，则通常在没有共同基准的不同域或语言上进行。为了填补这一空白，在这项工作中，我们介绍了SPEDAC，这是一个新的注释基准，用于识别敏感的个人数据类别。此外，我们提供了对数据集的广泛评估，该数据集使用不同的基准和基于Roberta的分类器进行的，这是一种神经体系结构，在检测敏感句子和个人数据类别的分类方面实现了强大的性能。

translated by 谷歌翻译

Grammatical Error Correction: A Survey of the State of the Art

Christopher Bryant , Zheng Yuan , Muhammad Reza Qorib , Hannan Cao , Hwee Tou Ng , Ted Briscoe

分类：自然语言处理 | 人工智能

2022-11-09

Grammatical Error Correction (GEC) is the task of automatically detecting and correcting errors in text. The task not only includes the correction of grammatical errors, such as missing prepositions and mismatched subject-verb agreement, but also orthographic and semantic errors, such as misspellings and word choice errors respectively. The field has seen significant progress in the last decade, motivated in part by a series of five shared tasks, which drove the development of rule-based methods, statistical classifiers, statistical machine translation, and finally neural machine translation systems which represent the current dominant state of the art. In this survey paper, we condense the field into a single article and first outline some of the linguistic challenges of the task, introduce the most popular datasets that are available to researchers (for both English and other languages), and summarise the various methods and techniques that have been developed with a particular focus on artificial error generation. We next describe the many different approaches to evaluation as well as concerns surrounding metric reliability, especially in relation to subjective human judgements, before concluding with an overview of recent progress and suggestions for future work and remaining challenges. We hope that this survey will serve as comprehensive resource for researchers who are new to the field or who want to be kept apprised of recent developments.

translated by 谷歌翻译

An Empirical Survey on Long Document Summarization: Datasets, Models and Metrics

Huan Yee Koh , Jiaxin Ju , Ming Liu , Shirui Pan

分类：自然语言处理

2022-07-03

诸如学术文章和商业报告之类的长期文件一直是详细说明重要问题和需要额外关注的复杂主题的标准格式。自动汇总系统可以有效地将长文档置于简短而简洁的文本中，以封装最重要的信息，从而在帮助读者的理解中很重要。最近，随着神经体系结构的出现，已经做出了重大的研究工作，以推动自动文本摘要系统，以及有关将这些系统扩展到长期文档领域的挑战的大量研究。在这项调查中，我们提供了有关长期文档摘要的研究的全面概述，以及其研究环境的三个主要组成部分的系统评估：基准数据集，汇总模型和评估指标。对于每个组成部分，我们在长期汇总的背景下组织文献，并进行经验分析，以扩大有关当前研究进度的观点。实证分析包括一项研究基准数据集的内在特征，摘要模型的多维分析以及摘要评估指标的综述。根据总体发现，我们通过提出可能在这个快速增长的领域中提出未来探索的方向来得出结论。

translated by 谷歌翻译

Punctuation Restoration for Singaporean Spoken Languages: English, Malay, and Mandarin

Abhinav Rao , Ho Thi-Nga , Chng Eng-Siong

分类：自然语言处理

2022-12-10

This paper presents the work of restoring punctuation for ASR transcripts generated by multilingual ASR systems. The focus languages are English, Mandarin, and Malay which are three of the most popular languages in Singapore. To the best of our knowledge, this is the first system that can tackle punctuation restoration for these three languages simultaneously. Traditional approaches usually treat the task as a sequential labeling task, however, this work adopts a slot-filling approach that predicts the presence and type of punctuation marks at each word boundary. The approach is similar to the Masked-Language Model approach employed during the pre-training stages of BERT, but instead of predicting the masked word, our model predicts masked punctuation. Additionally, we find that using Jieba1 instead of only using the built-in SentencePiece tokenizer of XLM-R can significantly improve the performance of punctuating Mandarin transcripts. Experimental results on English and Mandarin IWSLT2022 datasets and Malay News show that the proposed approach achieved state-of-the-art results for Mandarin with 73.8% F1-score while maintaining a reasonable F1-score for English and Malay, i.e. 74.7% and 78% respectively. Our source code that allows reproducing the results and building a simple web-based application for demonstration purposes is available on Github.

translated by 谷歌翻译

Learning Rich Representation of Keyphrases from Text

Mayank Kulkarni , Debanjan Mahata , Ravneet Arora , Rajarshi Bhowmik

分类：自然语言处理 | 机器学习

2021-12-16

在这项工作中，我们探索如何学习专用的语言模型，旨在学习从文本文件中学习关键词的丰富表示。我们在判别和生成设置中进行预训练变压器语言模型（LMS）的不同掩蔽策略。在歧视性设定中，我们引入了一种新的预训练目标 - 关键边界，用替换（kbir）infifiling，在使用Kbir预先训练的LM进行微调时显示出在Sota上的性能（F1中高达9.26点）的大量增益关键酶提取的任务。在生成设置中，我们为BART - 键盘介绍了一个新的预训练设置，可再现与CATSeq格式中的输入文本相关的关键字，而不是Denoised原始输入。这也导致在关键词中的性能（F1 @ M）中的性能（高达4.33点），用于关键正版生成。此外，我们还微调了在命名实体识别（ner），问题应答（qa），关系提取（重新），抽象摘要和达到与SOTA的可比性表现的预训练的语言模型，表明学习丰富的代表关键词确实有利于许多其他基本的NLP任务。

translated by 谷歌翻译

MN-DS: A Multilabeled News Dataset for News Articles Hierarchical Classification

Alina Petukhova , Nuno Fachada

分类：自然语言处理 | 人工智能 | 机器学习

2022-12-22

This article presents a dataset of 10,917 news articles with hierarchical news categories collected between January 1st 2019, and December 31st 2019. We manually labelled the articles based on a hierarchical taxonomy with 17 first-level and 109 second-level categories. This dataset can be used to train machine learning models for automatically classifying news articles by topic. This dataset can be helpful for researchers working on news structuring, classification, and predicting future events based on released news.

translated by 谷歌翻译

Weak Supervision in Analysis of News: Application to Economic Policy Uncertainty

Paul Trust , Ahmed Zahran , Rosane Minghim

分类：人工智能 | 机器学习

2022-08-10

对经济决策的及时数据分析的需求促使大多数经济学家和政策制定者搜索非传统补充数据来源。在这种情况下，正在探索文本数据以丰富传统数据源，因为它易于收集和高度丰富。我们的工作着重于研究文本数据的潜力，特别是新闻文章，以衡量经济政策不确定性（EPU）。经济政策的不确定性被定义为公众无法在新政策和未来经济基本面下预测其决策的结果。量化EPU对政策制定者，经济学家和投资者非常重要，因为它影响了他们对未来经济基本面的期望，并影响其政策，投资和储蓄决策。以前使用新闻文章来衡量EPU的大多数工作都是手册或基于简单的关键字搜索。我们的工作提出了一种基于机器学习的解决方案，涉及较弱的监督，以将新闻文章分类为经济政策不确定性。薄弱的监督被证明是一种有效的机器学习范式，用于在没有或稀缺训练集的低资源设置中应用机器学习模型，利用领域知识和启发式方法。我们进一步产生了基于监督的EPU指数，我们用来进行大量计量经济学分析以及爱尔兰宏观经济指标，以验证我们生成的指数是否预示了较高的宏观经济性能。

translated by 谷歌翻译