智能论文笔记

Distant Reading of the German Coalition Deal: Recognizing Policy Positions with BERT-based Text Classification

Michael Zylla , Thomas Haider

分类：自然语言处理

2022-12-30

Automated text analysis has become a widely used tool in political science. In this research, we use a BERT model trained on German party manifestos to identify the individual parties' contribution to the coalition agreement of 2021.

translated by 谷歌翻译

Mining Legal Arguments in Court Decisions

Ivan Habernal , Daniel Faber , Nicola Recchia , Sebastian Bretthauer , Iryna Gurevych , Indra Spiecker genannt Döhmann , Christoph Burchard

分类：自然语言处理

2022-08-12

自论证挖掘领域成立以来，在法律话语中识别，分类和分析的论点一直是研究的重要领域。但是，自然语言处理（NLP）研究人员的模型模型与法院决策中的注释论点与法律专家理解和分析法律论证的方式之间存在重大差异。尽管计算方法通常将论点简化为通用的前提和主张，但法律研究中的论点通常表现出丰富的类型，对于获得一般法律的特定案例和应用很重要。我们解决了这个问题，并做出了一些实质性的贡献，以推动该领域的前进。首先，我们在欧洲人权法院（ECHR）诉讼中为法律论点设计了新的注释计划，该计划深深植根于法律论证研究的理论和实践中。其次，我们编译和注释了373项法院判决（230万令牌和15K注释的论点跨度）的大量语料库。最后，我们训练一个论证挖掘模型，该模型胜过法律NLP领域中最先进的模型，并提供了彻底的基于专家的评估。所有数据集和源代码均可在https://github.com/trusthlt/mining-legal-arguments的开放lincenses下获得。

translated by 谷歌翻译

Improving Probabilistic Models in Text Classification via Active Learning

Mitchell Bosley , Saki Kuzushima , Ted Enamorado , Yuki Shiraito

分类：自然语言处理

2022-02-05

社会科学家经常将文本文档分类为使用结果标签作为实证研究的结果或预测指标。自动化文本分类已成为标准工具，因为它需要较少的人体编码。但是，学者们仍然需要许多人类标记的文件来培训自动分类器。为了降低标签成本，我们提出了一种新的文本分类算法，将概率模型与主动学习结合在一起。概率模型同时使用标记和未标记的数据，而主动学习集中在难以分类的文件上标记工作。我们的验证研究表明，我们的算法的分类性能与最先进的方法相当，而计算成本的一部分。此外，我们复制了两篇最近发表的文章，并得出相同的实质性结论，其中仅占这些研究中使用的原始标记数据的一小部分。我们提供ActiveText，一种开源软件来实现我们的方法。

translated by 谷歌翻译

BERT in Plutarch's Shadows

Ivan P. Yamshchikov , Alexey Tikhonov , Yorgos Pantis , Charlotte Schubert , Jürgen Jost

分类：自然语言处理 | 人工智能 | 机器学习

2022-11-10

The extensive surviving corpus of the ancient scholar Plutarch of Chaeronea (ca. 45-120 CE) also contains several texts which, according to current scholarly opinion, did not originate with him and are therefore attributed to an anonymous author Pseudo-Plutarch. These include, in particular, the work Placita Philosophorum (Quotations and Opinions of the Ancient Philosophers), which is extremely important for the history of ancient philosophy. Little is known about the identity of that anonymous author and its relation to other authors from the same period. This paper presents a BERT language model for Ancient Greek. The model discovers previously unknown statistical properties relevant to these literary, philosophical, and historical problems and can shed new light on this authorship question. In particular, the Placita Philosophorum, together with one of the other Pseudo-Plutarch texts, shows similarities with the texts written by authors from an Alexandrian context (2nd/3rd century CE).

translated by 谷歌翻译

Supporting peace negotiations in the Yemen war through machine learning

M. Arana-Catania , F. A. Van Lier , Rob Procter

分类：自然语言处理 | 机器学习

2022-07-23

当今的冲突变得越来越复杂，流畅和分散，通常涉及许多具有多重且经常发散利益的国家和国际参与者。随着调解员努力使冲突动态有理由，例如冲突政党的范围和政治立场的演变，相关与较少相关的参与者在和平建立和认同之间的区别或身份证明，这一发展构成了冲突调解的重大挑战。关键冲突问题及其相互依存。国际和平努力似乎不足以成功应对这些挑战。尽管技术已经在与冲突相关的领域进行了试验和使用，例如预测冲突或信息收集，但对技术如何促进冲突调解的关注较少。该案例研究有助于有关在冲突调解过程中使用最先进的机器学习技术和技术的新兴研究。本研究使用也门和平谈判中的对话成绩单，通过为他们提供知识管理，提取和冲突分析的工具来有效地支持中介团队。除了说明冲突调解中的机器学习工具的潜力外，本文还强调了跨学科和参与性的共同创造方法对开发上下文敏感和有针对性的工具的重要性，并确保有意义和负责任的实施。

translated by 谷歌翻译

Panning for gold: Lessons learned from the platform-agnostic automated detection of political content in textual data

Mykola Makhortykh , Ernesto de León , Aleksandra Urman , Clara Christner , Maryna Sydorova , Silke Adam , Michaela Maier , Teresa Gil-Lopez

分类：自然语言处理

2022-07-01

关于在线信息行为的数据的日益增长的可用性为政治传播研究带来了新的可能性。但是，这些数据的数量和多样性使它们难以分析，并提示需要开发自动化内容方法，这些方法依赖于广泛的自然语言处理技术（例如机器学习或基于神经网络）。在本文中，我们讨论如何使用这些技术来检测不同平台的政治内容。使用三个验证数据集，其中包括来自在线平台的各种政治和非政治文本文档，我们系统地比较了依赖词典，监督机器学习或神经网络的三组检测技术的性能。我们还使用大型检测模型的大集合（n = 66）检查了不同数据预处理模式（例如，驱动和停止词）对这些技术的低成本实现的影响。我们的结果表明，预处理对模型性能的影响有限，与基于神经网络和机器学习模型所获得的嘈杂数据的最佳结果相比，基于嘈杂的数据的基于词典模型的更强性能。

translated by 谷歌翻译

Top Gear or Black Mirror: Inferring Political Leaning From Non-Political Content

Ahmet Kurnaz , Scott A. Hale

分类：自然语言处理

2022-08-11

在明确的政治事件（例如选举）的背景下，经常对两极分化和回声室进行研究，而在非政治背景下，很少有学术研究检查了政治团体的混合。在非政治背景下研究政治两极分化的一个主要障碍是，政治倾向（即左派与右取向）通常是未知的。尽管如此，众所周知，政治倾向与许多生活方式选择相关联（有时很强），导致刻板印象，例如“拿铁咖啡自由主义者”。我们开发了一个机器学习分类器，以推断出从非政治文本中倾斜的政治倾向，并且可以选择地，用户在社交媒体上关注的帐户。我们使用在Twitter上共享的选民建议申请结果作为我们的地面图，并在Twitter数据集上训练并测试我们的分类器，其中包括3200个用户的3200个最新推文，此前删除了任何有政治文本的推文。我们将大多数用户的政治倾向正确分类（F1分数从0.70到0.85，具体取决于覆盖范围）。我们发现政治活动水平与我们的分类结果之间没有关系。我们将分类器应用于英国新闻共享的案例研究，发现一般而言，政治新闻的共享表现出独特的左右鸿沟，而体育新闻则没有。

translated by 谷歌翻译

Introducing an Abusive Language Classification Framework for Telegram to Investigate the German Hater Community

Maximilian Wich , Adrian Gorniak , Tobias Eder , Daniel Bartmann , Burak Enes Çakici , Georg Groh

分类：自然语言处理

2021-09-15

由于传统的社交媒体平台继续禁止演员传播仇恨言论或其他形式的滥用语言（称为令人作为令人作为的过程），因此这些演员迁移到不适中用户内容的替代平台。一个流行的平台与德国Hater社区相关，是迄今为止已经有限的研究工作的电报。本研究旨在开发一个广泛的框架，包括（i）用于德国电报消息的滥用语言分类模型和（ii）电报频道仇恨性的分类模型。对于第一部分，我们使用包含来自其他平台的帖子的现有滥用语言数据集来开发我们的分类模型。对于信道分类模型，我们开发了一种方法，该方法将从主题模型中收集的信道特定内容信息与社会图组合以预测频道的仇恨性。此外，我们补充了这两种仇恨语音检测方法，并在德国电报上的呼吸群落演变。我们还提出了对仇恨语音研究界进行可扩展网络分析的方法。作为本研究的额外输出，我们提供了包含1,149个注释电报消息的注释滥用语言数据集。

translated by 谷歌翻译

The GINCO Training Dataset for Web Genre Identification of Documents Out in the Wild

Taja Kuzman , Peter Rupnik , Nikola Ljubešić

分类：自然语言处理

2022-01-11

本文介绍了一个新的培训数据集，用于自动类型识别Ginco，基于1,125个爬行的斯洛文尼亚文档，由650万字组成。每个文档都是手动注释的，用于具有在现有模式上构建的新注释模式，主要是标签和注册间协议的主要明确。数据集包括与基于Web的数据相关的各种挑战，例如机器翻译内容，编码错误，在一个文件中呈现的多个内容等，使得能够评估现实条件中的分类器。 DataSet上的初始机器学习实验表明（1）预变压器模型的巨大程度较低，能够模拟现象，宏观F1度量范围约为0.22，而基于变压器的模型达到约0.58的分数，而且（2）多语言变压器模型以及任务的工作以及先前被证明是优于标准NLP任务的多语言模型的单格式模型。

translated by 谷歌翻译

Overview of the SV-Ident 2022 Shared Task on Survey Variable Identification in Social Science Publications

Tornike Tsereteli , Yavuz Selim Kartal , Simone Paolo Ponzetto , Andrea Zielinski , Kai Eckert , Philipp Mayr

分类：自然语言处理

2022-09-19

在本文中，我们将概述SV形式共享任务，作为第三届学术文档处理（SDP）的一部分，在Coling 2022.中，在共同的任务中，为参与者提供了变量和变量的词汇，被要求确定全文学术文档中的单个句子中提到了哪些变量。两支球队总共向共享任务排行榜提交了9项意见。尽管所有团队都没有改进基线系统，但我们仍然从他们的意见书中获取见解。此外，我们提供了详细的评估。我们共享任务的数据和基线可在https://github.com/vadis-project/sv-inend上免费获得

translated by 谷歌翻译

Contextual-Lexicon Approach for Abusive Language Detection

Francielle Vargas , Fabiana Rodrigues de Góes , Isabelle Carvalho , Fabrício Benevenuto , Thiago Alexandre Salgueiro Pardo

分类：自然语言处理

2021-04-25

Since a lexicon-based approach is more elegant scientifically, explaining the solution components and being easier to generalize to other applications, this paper provides a new approach for offensive language and hate speech detection on social media. Our approach embodies a lexicon of implicit and explicit offensive and swearing expressions annotated with contextual information. Due to the severity of the social media abusive comments in Brazil, and the lack of research in Portuguese, Brazilian Portuguese is the language used to validate the models. Nevertheless, our method may be applied to any other language. The conducted experiments show the effectiveness of the proposed approach, outperforming the current baseline methods for the Portuguese language.

translated by 谷歌翻译

Text and author-level political inference using heterogeneous knowledge representations

Samuel Caetano da Silva , Ivandre Paraboni

分类：自然语言处理

2022-06-24

从文本数据中推断出具有政治收费的信息是文本和作者级别的自然语言处理（NLP）的流行研究主题。近年来，对这种研究的研究是在伯特等变形金刚的代表性的帮助下进行的。尽管取得了很大的成功，但我们可能会询问是否通过将基于转换的模型与其他知识表示形式相结合，是否可以进一步改善结果。为了阐明这个问题，本工作描述了一系列实验，以比较英语和葡萄牙语中文本的政治推断的替代模型配置。结果表明，某些文本表示形式 - 特别是，BERT预训练的语言模型与句法依赖模型的联合使用可能胜过多个实验环境的替代方案，这是进一步研究异质文本表示的潜在强大案例在这些以及可能的其他NLP任务中。

translated by 谷歌翻译

Capturing Logical Structure of Visually Structured Documents with Multimodal Transition Parser

Yuta Koreeda , Christopher D. Manning

分类：自然语言处理 | 计算机视觉

2021-05-01

虽然许多NLP管道采用RAW，清洁文本，但我们在野外遇到的许多文本，包括绝大多数法律文件，并不是那么干净，其中许多人在视觉上结构化文件（VSD），如PDF。用于VSD的传统预处理工具主要集中在字分割和粗布局分析上，而VSD的细粒度逻辑结构分析（例如识别段界限及其层次结构）是曝光的。为此，我们建议将任务作为预测“转换标签”在将片段映射到树的文本片段之间的预测，并开发了一种基于特征的机器学习系统，该系统保留了视觉，文本和语义线索。您的系统很容易可定制不同类型的VSD，并且它显着超越了识别VSD中不同结构的基线。例如，我们的系统获得了0.953的段落边界检测F1得分，这显着优于流行的PDF到文本工具，F1得分为0.739。

translated by 谷歌翻译

Entity Graph Extraction from Legal Acts -- a Prototype for a Use Case in Policy Design Analysis

Anna Wróblewska , Bartosz Pieliński , Karolina Seweryn , Karol Saputa , Aleksandra Wichrowska , Sylwia Sysko-Romańczuk , Hanna Schreiber

分类：自然语言处理

2022-09-02

本文介绍了有关开发的原型的研究，以服务公共政策设计的定量研究。政治学的这种子学科着重于确定参与者，之间的关系以及在健康，环境，经济和其他政策方面可以使用的工具。我们的系统旨在自动化收集法律文件，用机构语法注释它们的过程，并使用超图来分析关键实体之间的相互关系。我们的系统经过了《联合国教科文组织公约》的保护，以保护2003年的无形文化遗产，这是一份法律文件，该文件规定了确保文化遗产的国际关系的基本方面。

translated by 谷歌翻译

HTML版本

LexGLUE: A Benchmark Dataset for Legal Language Understanding in English

Ilias Chalkidis , Abhik Jana , Dirk Hartung , Michael Bommarito , Ion Androutsopoulos , Daniel Martin Katz , Nikolaos Aletras

分类：自然语言处理

2021-10-03

Laws and their interpretations, legal arguments and agreements\ are typically expressed in writing, leading to the production of vast corpora of legal text. Their analysis, which is at the center of legal practice, becomes increasingly elaborate as these collections grow in size. Natural language understanding (NLU) technologies can be a valuable tool to support legal practitioners in these endeavors. Their usefulness, however, largely depends on whether current state-of-the-art models can generalize across various tasks in the legal domain. To answer this currently open question, we introduce the Legal General Language Understanding Evaluation (LexGLUE) benchmark, a collection of datasets for evaluating model performance across a diverse set of legal NLU tasks in a standardized way. We also provide an evaluation and analysis of several generic and legal-oriented models demonstrating that the latter consistently offer performance improvements across multiple tasks.

translated by 谷歌翻译

Textwash -- automated open-source text anonymisation

Bennett Kleinberg , Toby Davies , Maximilian Mozes

分类：自然语言处理

2022-08-27

社会科学研究中文本数据的使用增加受益于易于访问的数据（例如Twitter）。这种趋势是以研究成本需要敏感但难以分享的数据的成本（例如，访谈数据，警察报告，电子健康记录）。我们使用开源文本匿名软件_textwash_介绍了该僵局的解决方案。本文使用TILD标准介绍了该工具的经验评估：技术评估（工具的准确性？），信息损失评估（匿名过程中丢失了多少信息？）和De-Nomenymisation Test（可以可以使用（可以可以可以使用）测试（可以可以使用匿名测试（可以人类从匿名文本数据中识别个人吗？）。研究结果表明，TextWash的性能类似于最新的实体识别模型，并引入了可忽略的信息损失0.84％。对于De-nonymisation测试，我们任命人类从众包人的描述数据集中对非常著名，半著名和不存在的个人的描述来识别个人。该工具的现实用例的匿名率范围为1.01-2.01％。我们在第二项研究中复制了发现，并得出结论，Textwash成功地删除了潜在的敏感信息，这些信息实际上使人描述实际上是匿名的。

translated by 谷歌翻译

HTML版本

Semantic Segmentation of Legal Documents via Rhetorical Roles

Vijit Malik , Rishabh Sanjay , Shouvik Kumar Guha , Shubham Kumar Nigam , Angshuman Hazarika , Arnab Bhattacharya , Ashutosh Modi

分类：自然语言处理 | 人工智能 | 机器学习

2021-12-03

法律文件是非结构化的，使用法律术语，并且具有相当长的长度，使得难以通过传统文本处理技术自动处理。如果文档可以在语义上分割成连贯的信息单位，法律文件处理系统将基本上受益。本文提出了一种修辞职位（RR）系统，用于将法律文件分组成语义连贯的单位：事实，论点，法规，问题，先例，裁决和比例。在法律专家的帮助下，我们提出了一套13个细粒度的修辞标志标签，并创建了与拟议的RR批发的新的法律文件有条件。我们开发一个系统，以将文件分段为修辞职位单位。特别是，我们开发了一种基于多任务学习的深度学习模型，文档修辞角色标签作为分割法律文件的辅助任务。我们在广泛地尝试各种深度学习模型，用于预测文档中的修辞角色，并且所提出的模型对现有模型显示出卓越的性能。此外，我们应用RR以预测法律案件的判断，并表明与基于变压器的模型相比，使用RR增强了预测。

translated by 谷歌翻译

CiteBench: A benchmark for Scientific Citation Text Generation

Martin Funkquist , Ilia Kuznetsov , Yufang Hou , Iryna Gurevych

分类：自然语言处理

2022-12-19

The publication rates are skyrocketing across many fields of science, and it is difficult to stay up to date with the latest research. This makes automatically summarizing the latest findings and helping scholars to synthesize related work in a given area an attractive research objective. In this paper we study the problem of citation text generation, where given a set of cited papers and citing context the model should generate a citation text. While citation text generation has been tackled in prior work, existing studies use different datasets and task definitions, which makes it hard to study citation text generation systematically. To address this, we propose CiteBench: a benchmark for citation text generation that unifies the previous datasets and enables standardized evaluation of citation text generation models across task settings and domains. Using the new benchmark, we investigate the performance of multiple strong baselines, test their transferability between the datasets, and deliver new insights into task definition and evaluation to guide the future research in citation text generation. We make CiteBench publicly available at https://github.com/UKPLab/citebench.

translated by 谷歌翻译

Can You Fool AI by Doing a 180? $\unicode{x2013}$ A Case Study on Authorship Analysis of Texts by Arata Osada

Jagna Nieuwazny , Karol Nowakowski , Michal Ptaszynski , Fumito Masui

分类：自然语言处理 | 人工智能 | 机器学习

2022-07-19

本文是我们尝试回答两个问题，涵盖道德和作者资格分析领域的问题。首先，由于用于执行作者身份分析的方法意味着他或她创建的内容可以识别作者，因此我们有兴趣找出作者身份证系统是否有可能正确地将作者归因于作者，如果年来，他们经历了重大的心理过渡。其次，从作者的道德价值观演变的角度来看，我们检查了如果作者归因系统在检测单个作者身份方面遇到困难，这将是什么意思。我们着手使用基于预训练的变压器模型的文本分类器执行二进制作者资格分析任务来回答这些问题，并依靠常规相似性指标来回答这些问题。对于测试套装，我们选择了教育史上的日本教育家和专家Arata Osada的作品，其中一半是在第二次世界大战之前写的书，在1950年代又是一半，在此期间，他进行了转变。政治意见的条款。结果，我们能够确认，在10年以上的时间跨度中，Arata Osada撰写的文本，而分类准确性下降了很大的利润率，并且大大低于其他非虚构的文本作家，预测的信心得分仍然与时间跨度较短的水平相似，这表明分类器在许多情况下被欺骗来决定在多年的时间跨度上写的文本实际上是由两个不同的人编写的，这反过来又使我们相信这种变化会影响作者身份分析，并且历史事件对人的著作中所表达的道德观。

translated by 谷歌翻译

Creation and Analysis of an International Corpus of Privacy Laws

Sonu Gupta , Ellen Poplavska , Nora O'Toole , Siddhant Arora , Thomas Norton , Norman Sadeh , Shomir Wilson

分类：自然语言处理

2022-06-28

世界各地的隐私法律和法规的景观是复杂而不断变化的。国家和超国家法律，协议，法令和其他政府发行的规则构成了公司必须遵循的拼凑而成才能在国际上进行运作。为了检查该拼凑而成的状态和演变，我们介绍了1,043条隐私法，法规和准则的政府隐私指示语料库或GPI语料库，涵盖了182个司法管辖区。该语料库可以对法律焦点进行大规模定量和定性检查。我们检查了创建GPI的时间分布，并说明了过去50年中隐私立法的急剧增加，尽管较细粒度的检查表明，增加的速度取决于GPIS所说的个人数据类型。我们的探索还表明，大多数隐私法分别解决了相对较少的个人数据类型，这表明全面的隐私立法仍然很少见。此外，主题建模结果显示了GPI中常见主题的普遍性，例如财务，医疗保健和电信。最后，我们将语料库释放到研究界，以促进进一步的研究。

translated by 谷歌翻译