本文是我们尝试回答两个问题,涵盖道德和作者资格分析领域的问题。首先,由于用于执行作者身份分析的方法意味着他或她创建的内容可以识别作者,因此我们有兴趣找出作者身份证系统是否有可能正确地将作者归因于作者,如果年来,他们经历了重大的心理过渡。其次,从作者的道德价值观演变的角度来看,我们检查了如果作者归因系统在检测单个作者身份方面遇到困难,这将是什么意思。我们着手使用基于预训练的变压器模型的文本分类器执行二进制作者资格分析任务来回答这些问题,并依靠常规相似性指标来回答这些问题。对于测试套装,我们选择了教育史上的日本教育家和专家Arata Osada的作品,其中一半是在第二次世界大战之前写的书,在1950年代又是一半,在此期间,他进行了转变。政治意见的条款。结果,我们能够确认,在10年以上的时间跨度中,Arata Osada撰写的文本,而分类准确性下降了很大的利润率,并且大大低于其他非虚构的文本作家,预测的信心得分仍然与时间跨度较短的水平相似,这表明分类器在许多情况下被欺骗来决定在多年的时间跨度上写的文本实际上是由两个不同的人编写的,这反过来又使我们相信这种变化会影响作者身份分析,并且历史事件对人的著作中所表达的道德观。
translated by 谷歌翻译
本次调查绘制了用于分析社交媒体数据的生成方法的研究状态的广泛的全景照片(Sota)。它填补了空白,因为现有的调查文章在其范围内或被约会。我们包括两个重要方面,目前正在挖掘和建模社交媒体的重要性:动态和网络。社会动态对于了解影响影响或疾病的传播,友谊的形成,友谊的形成等,另一方面,可以捕获各种复杂关系,提供额外的洞察力和识别否则将不会被注意的重要模式。
translated by 谷歌翻译
研究表明,与自杀相关的新闻媒体内容的暴露与自杀率相关,具有一些内容特征可能具有有害和其他可能的保护作用。虽然有一些选定的特征存在良好的证据,但是一般缺少系统的大规模调查,特别是社交媒体数据。我们应用机器学习方法以自动标记大量的Twitter数据。我们开发了一种新的注释计划,将与自杀相关的推文分类为不同的消息类型和问题,以解决方案为中心的视角。然后,我们培训了包括多数分类器的机器学习模型的基准,这是一种基于词频率的方法(具有线性SVM的TF-IDF)和两个最先进的深层学习模型(BERT,XLNET)。这两个深入学习模型在两个分类任务中实现了最佳性能:首先,我们分类了六个主要内容类别,包括个人故事,包括自杀意图和尝试或应对,呼吁采取措施传播问题意识或预防相关信息,自杀病例的报告以及其他与自杀相关和偏离主题推文的报告。深度学习模型平均达到73%以上的准确度,遍布六个类别,F1分数为69%和85%,除了自杀意念和尝试类别(55%)。其次,在分离帖子中,在偏离主题推文中指的是实际自杀题,他们正确标记了大约88%的推文,双方达到了F1分数为93%和74%。这些分类性能与类似任务的最先进的性能相当。通过使数据标签更有效,这项工作能够对各种社交媒体内容的有害和保护作用进行自杀率和寻求帮助行为的有害和保护作用。
translated by 谷歌翻译
同行评审是一项广泛接受的研究评估机制,在学术出版中发挥关键作用。然而,批评已经长期升级了这种机制,主要是因为它的低效率和主体性。近年来已经看到人工智能(AI)在协助同行评审过程中的应用。尽管如此,随着人类的参与,这种限制仍然是不可避免的。在本文中,我们提出了自动化学术纸质审查(ASPR)的概念,并审查了相关的文献和技术,讨论实现全面的计算机化审查流程的可能性。我们进一步研究了现有技术ASPR的挑战。在审查和讨论的基础上,我们得出结论,ASPR的每个阶段都有相应的研究和技术。这验证了随着相关技术继续发展的长期可以实现ASPR。其实现中的主要困难在于不完美的文献解析和表示,数据不足,数据缺陷,人机互动和有缺陷的深度逻辑推理。在可预见的未来,ASPR和同行评审将在ASPR能够充分承担从人类的审查工作量之前以加强方式共存。
translated by 谷歌翻译
社交媒体平台上的滥用内容的增长增加对在线用户的负面影响。对女同性恋,同性恋者,跨性别或双性恋者的恐惧,不喜欢,不适或不疑虑被定义为同性恋/转铁症。同性恋/翻译语音是一种令人反感的语言,可以总结为针对LGBT +人的仇恨语音,近年来越来越受到兴趣。在线同性恋恐惧症/ Transphobobia是一个严重的社会问题,可以使网上平台与LGBT +人有毒和不受欢迎,同时还试图消除平等,多样性和包容性。我们为在线同性恋和转鸟以及专家标记的数据集提供了新的分类分类,这将允许自动识别出具有同种异体/传递内容的数据集。我们受过教育的注释器并以综合的注释规则向他们提供,因为这是一个敏感的问题,我们以前发现未受训练的众包注释者因文化和其他偏见而诊断倡导性的群体。数据集包含15,141个注释的多语言评论。本文介绍了构建数据集,数据的定性分析和注册间协议的过程。此外,我们为数据集创建基线模型。据我们所知,我们的数据集是第一个已创建的数据集。警告:本文含有明确的同性恋,转基因症,刻板印象的明确陈述,这可能对某些读者令人痛苦。
translated by 谷歌翻译
本地语言识别(NLI)是培训(通过监督机器学习)的任务,该分类器猜测文本作者的母语。在过去的十年中,这项任务已经进行了广泛的研究,多年来,NLI系统的性能稳步改善。我们专注于NLI任务的另一个方面,即分析由\ emph {Aupplable}机器学习算法培训的NLI分类器的内部组件,以获取其分类决策的解释,并具有获得的最终目标,即获得最终的目标。深入了解语言现象````赋予说话者''的母语''。我们使用这种观点来解决NLI和(研究得多的)伴侣任务,即猜测是由本地人还是非本地人说的文本。使用三个不同出处的数据集(英语学习者论文的两个数据集和社交媒体帖子的数据集),我们研究哪种语言特征(词汇,形态学,句法和统计)最有效地解决了我们的两项任务,即,最大的表明说话者的L1。我们还提出了两个案例研究,一个关于西班牙语,另一个关于意大利英语学习者,其中我们分析了分类器对发现这些L1最重要的单个语言特征。总体而言,我们的研究表明,使用可解释的机器学习可能是TH的宝贵工具
translated by 谷歌翻译
通过摩尔维亚岛与罗马尼亚语方言识别的机器学习模型的看似高精度水平和对这一主题的越来越多的研究兴趣,我们提供了摩尔维亚的跟进与罗马尼亚语交叉方言主题识别(MRC)的Vartial共享任务2019年评估运动。共享任务包括两个子任务类型:一个组成,其中包括摩尔维亚和罗马尼亚语方言的区分,其中一个由罗马尼亚语两条方言进行主题分类文件。参与者实现了令人印象深刻的分数,例如,摩尔维亚州的顶级型号与罗马尼亚语方言识别获得了0.895的宏F1得分。我们对人类注释者进行了主观评估,显示人类与机器学习(ML)模型相比,人类可以获得更低的精度率。因此,还不清楚为什么参与者提出的方法达到这种高精度率的方法。我们的目标是理解(i)为什么所提出的方法如此良好地工作(通过可视化鉴别特征)和(ii)这些方法可以在多大程度上保持其高精度水平,例如,这些方法可以保持高精度水平。当我们将文本样本缩短到单个句子时或我们在推理时间使用推文时。我们工作的二级目标是使用集合学习提出改进的ML模型。我们的实验表明,ML模型可以准确地识别方言,即使在句子水平和不同的域中(新闻文章与推文)。我们还分析了最佳性能模型的最辨别特征,在这些模型所采取的决策背后提供了一些解释。有趣的是,我们学习我们以前未知的新的辩证模式或我们的人为注册者。此外,我们进行实验,表明可以通过基于堆叠的集合来改善MRC共享任务的机器学习性能。
translated by 谷歌翻译
Determining the author of a text is a difficult task. Here we compare multiple AI techniques for classifying literary texts written by multiple authors by taking into account a limited number of speech parts (prepositions, adverbs, and conjunctions). We also introduce a new dataset composed of texts written in the Romanian language on which we have run the algorithms. The compared methods are Artificial Neural Networks, Support Vector Machines, Multi Expression Programming, Decision Trees with C5.0, and k-Nearest Neighbour. Numerical experiments show, first of all, that the problem is difficult, but some algorithms are able to generate decent errors on the test set.
translated by 谷歌翻译
近年来,我们看到了处理敏感个人信息的应用程序(包括对话系统)的指数增长。这已经揭示了在虚拟环境中有关个人数据保护的极为重要的问题。首先,性能模型应该能够区分敏感内容与中性句子的句子。其次,它应该能够识别其中包含的个人数据类别的类型。这样,可以考虑每个类别的不同隐私处理。在文献中,如果有关于自动敏感数据识别的作品,则通常在没有共同基准的不同域或语言上进行。为了填补这一空白,在这项工作中,我们介绍了SPEDAC,这是一个新的注释基准,用于识别敏感的个人数据类别。此外,我们提供了对数据集的广泛评估,该数据集使用不同的基准和基于Roberta的分类器进行的,这是一种神经体系结构,在检测敏感句子和个人数据类别的分类方面实现了强大的性能。
translated by 谷歌翻译
情感是引人入胜的叙事的关键部分:文学向我们讲述了有目标,欲望,激情和意图的人。情绪分析是情感分析更广泛,更大的领域的一部分,并且在文学研究中受到越来越多的关注。过去,文学的情感维度主要在文学诠释学的背景下进行了研究。但是,随着被称为数字人文科学(DH)的研究领域的出现,在文学背景下对情绪的一些研究已经发生了计算转折。鉴于DH仍被形成为一个领域的事实,这一研究方向可以相对较新。在这项调查中,我们概述了现有的情感分析研究机构,以适用于文献。所评论的研究涉及各种主题,包括跟踪情节发展的巨大变化,对文学文本的网络分析以及了解文本的情感以及其他主题。
translated by 谷歌翻译
情绪分析中最突出的任务是为文本分配情绪,并了解情绪如何在语言中表现出来。自然语言处理的一个重要观察结果是,即使没有明确提及情感名称,也可以通过单独参考事件来隐式传达情绪。在心理学中,被称为评估理论的情感理论类别旨在解释事件与情感之间的联系。评估可以被形式化为变量,通过他们认为相关的事件的人们的认知评估来衡量认知评估。其中包括评估事件是否是新颖的,如果该人认为自己负责,是否与自己的目标以及许多其他人保持一致。这样的评估解释了哪些情绪是基于事件开发的,例如,新颖的情况会引起惊喜或不确定后果的人可能引起恐惧。我们在文本中分析了评估理论对情绪分析的适用性,目的是理解注释者是否可以可靠地重建评估概念,如果可以通过文本分类器预测,以及评估概念是否有助于识别情感类别。为了实现这一目标,我们通过要求人们发短信描述触发特定情绪并披露其评估的事件来编译语料库。然后,我们要求读者重建文本中的情感和评估。这种设置使我们能够衡量是否可以纯粹从文本中恢复情绪和评估,并为判断模型的绩效指标提供人体基准。我们将文本分类方法与人类注释者的比较表明,两者都可以可靠地检测出具有相似性能的情绪和评估。我们进一步表明,评估概念改善了文本中情绪的分类。
translated by 谷歌翻译
我们研究了检查问题的事实,旨在识别给定索赔的真实性。具体而言,我们专注于事实提取和验证(发烧)及其伴随数据集的任务。该任务包括从维基百科检索相关文件(和句子)并验证文件中的信息是否支持或驳斥所索赔的索赔。此任务至关重要,可以是假新闻检测和医疗索赔验证等应用程序块。在本文中,我们以通过以结构化和全面的方式呈现文献来更好地了解任务的挑战。我们通过分析不同方法的技术视角并讨论发热数据集的性能结果,描述了所提出的方法,这是最熟悉的和正式结构化的数据集,就是事实提取和验证任务。我们还迄今为止迄今为止确定句子检索组件的有益损失函数的最大实验研究。我们的分析表明,采样负句对于提高性能并降低计算复杂性很重要。最后,我们描述了开放的问题和未来的挑战,我们激励了未来的任务研究。
translated by 谷歌翻译
新闻文章修订历史为新闻文章中的叙事和事实演变提供了线索。为了促进对这一进化的分析,我们介绍了新闻修订历史记录的第一个公开可用的数据集。我们的数据集是大规模和多语言的;它包含120万篇文章,其中有460万款来自三个国家 /地区的英语和法语报纸来源,涵盖了15年的报道(2006 - 2021年)。我们定义文章级的编辑操作:加法,删除,编辑和重构,并开发高准确性提取算法以识别这些动作。为了强调许多编辑操作的事实性质,我们进行的分析表明,添加和删除的句子更可能包含更新事件,主要内容和报价,而不是不变的句子。最后,为了探索编辑操作是否可以预测,我们介绍了三个旨在预测版本更新过程中执行的动作的新任务。我们表明,这些任务对于人类专业而言是可能的,但对于大型NLP模型而言,这些任务具有挑战性。我们希望这可以刺激叙事框架的研究,并为追逐突发新闻的记者提供预测工具。
translated by 谷歌翻译
社交媒体平台为挖掘公众舆论提供了众多社会兴趣问题的金矿。意见采矿是一个问题,可以通过捕获和汇总各个社交媒体职位的立场,作为支持,反对或者在手头上的问题上进行。虽然大多数姿态检测工作已经调查了具有有限时间覆盖率的数据集,但最近提高了调查纵向数据集的兴趣。在新数据中观察到的语言和行为模式中的演变动态,依次适应姿态检测系统来处理变化。在本调查论文中,我们研究了计算语言学与数字媒体人类交流的交叉口。在考虑动态的新兴研究中,我们在探索不同的语义和语用因素,探讨了影响语言数据的不同语义和语用因素,特别是审查。我们进一步讨论了在社交媒体中捕获姿态动态的当前方向。我们组织处理姿态动态的挑战,确定公开挑战,并在三个关键方面讨论未来的方向:话语,背景和影响。
translated by 谷歌翻译
The extensive surviving corpus of the ancient scholar Plutarch of Chaeronea (ca. 45-120 CE) also contains several texts which, according to current scholarly opinion, did not originate with him and are therefore attributed to an anonymous author Pseudo-Plutarch. These include, in particular, the work Placita Philosophorum (Quotations and Opinions of the Ancient Philosophers), which is extremely important for the history of ancient philosophy. Little is known about the identity of that anonymous author and its relation to other authors from the same period. This paper presents a BERT language model for Ancient Greek. The model discovers previously unknown statistical properties relevant to these literary, philosophical, and historical problems and can shed new light on this authorship question. In particular, the Placita Philosophorum, together with one of the other Pseudo-Plutarch texts, shows similarities with the texts written by authors from an Alexandrian context (2nd/3rd century CE).
translated by 谷歌翻译
创新是经济和社会发展的主要驱动力,有关多种创新的信息嵌入了专利和专利申请的半结构化数据中。尽管在专利数据中表达的创新的影响和新颖性很难通过传统手段来衡量,但ML提供了一套有希望的技术来评估新颖性,汇总贡献和嵌入语义。在本文中,我们介绍了Harvard USPTO专利数据集(HUPD),该数据集是2004年至2004年之间提交给美国专利商业办公室(USPTO)的大型,结构化和多用途的英语专利专利申请。 2018年。HUPD拥有超过450万张专利文件,是可比的Coldia的两到三倍。与以前在NLP中提出的专利数据集不同,HUPD包含了专利申请的发明人提交的版本(不是授予专利的最终版本),其中允许我们在第一次使用NLP方法进行申请时研究专利性。它在包含丰富的结构化元数据以及专利申请文本的同时也很新颖:通过提供每个应用程序的元数据及其所有文本字段,数据集使研究人员能够执行一组新的NLP任务,以利用结构性协变量的变异。作为有关HUPD的研究类型的案例研究,我们向NLP社区(即专利决策的二元分类)介绍了一项新任务。我们还显示数据集中提供的结构化元数据使我们能够对此任务进行概念转移的明确研究。最后,我们演示了如何将HUPD用于三个其他任务:专利主题领域的多类分类,语言建模和摘要。
translated by 谷歌翻译
道德框架和情感会影响各种在线和离线行为,包括捐赠,亲环境行动,政治参与,甚至参与暴力抗议活动。自然语言处理中的各种计算方法(NLP)已被用来从文本数据中检测道德情绪,但是为了在此类主观任务中取得更好的性能,需要大量的手工注销训练数据。事实证明,以前对道德情绪注释的语料库已被证明是有价值的,并且在NLP和整个社会科学中都产生了新的见解,但仅限于Twitter。为了促进我们对道德修辞的作用的理解,我们介绍了道德基础Reddit语料库,收集了16,123个reddit评论,这些评论已从12个不同的子雷迪维特策划,由至少三个训练有素的注释者手工注释,用于8种道德情绪(即护理,相称性,平等,纯洁,权威,忠诚,瘦道,隐含/明确的道德)基于更新的道德基础理论(MFT)框架。我们使用一系列方法来为这种新的语料库(例如跨域分类和知识转移)提供基线道德句子分类结果。
translated by 谷歌翻译
Reasoning is central to human intelligence. However, fallacious arguments are common, and some exacerbate problems such as spreading misinformation about climate change. In this paper, we propose the task of logical fallacy detection, and provide a new dataset (Logic) of logical fallacies generally found in text, together with an additional challenge set for detecting logical fallacies in climate change claims (LogicClimate). Detecting logical fallacies is a hard problem as the model must understand the underlying logical structure of the argument. We find that existing pretrained large language models perform poorly on this task. In contrast, we show that a simple structure-aware classifier outperforms the best language model by 5.46% on Logic and 4.51% on LogicClimate. We encourage future work to explore this task as (a) it can serve as a new reasoning challenge for language models, and (b) it can have potential applications in tackling the spread of misinformation. Our dataset and code are available at https://github.com/causalNLP/logical-fallacy
translated by 谷歌翻译
DarkWeb代表了一个用于非法活动的温床,用户在不同的市场论坛上进行交流以交换商品和服务。执法机构从执行作者分析的法医工具中受益,以根据其文本内容识别和配置用户。然而,传统上使用文学文本(例如小说或粉丝小说中的片段)对作者身份分析进行了研究,这些文字在网络犯罪背景下可能不合适。此外,使用撰稿人分析工具进行网络犯罪的少数作品通常采用临时实验设置和数据集。为了解决这些问题,我们发布了Veridark:由三个大规模作者身份验证数据集和一个从用户活动中从黑暗网络相关的Reddit社区或流行的非法黑暗网络市场论坛获得的基准组成的基准。我们在三个数据集上评估竞争性NLP基准,并对预测进行分析,以更好地了解此类方法的局限性。我们在https://github.com/bit-ml/veridark上公开提供数据集和基线
translated by 谷歌翻译
雇用措施恳求抄袭文本的措施是对学术诚信的严重威胁。要启用检测机释录的文本,我们会评估五个预先训练的单词嵌入模型的有效性与机器学习分类器和最先进的神经语言模型相结合。我们分析了研究论文,毕业论文和维基百科文章的预印刷品,我们使用不同的工具SpinBot和Spinnerchief释放。最佳的表演技术,啰素,平均F1得分为80.99%(F1 = 99.68%,纺纱病例的F1 = 71.64%),而人类评估员均达到纺纱病例的F1 = 78.4%,F1 = 65.6%的纺纱病例。我们表明,自动分类减轻了广泛使用的文本匹配系统的缺点,例如金风格和Plagscan。为了促进未来的研究,所有数据,代码和两个展示我们贡献的Web应用程序都公开使用。
translated by 谷歌翻译