识别文本跨越几十年的作者的任务,并使用语言学,统计数据,更新,最近,机器学习。灵感灵感来自广泛的自然语言处理任务的令人印象深刻的性能增益,并通过持续的潘大型作者数据集的可用性,我们首先研究几个伯特式变压器的有效性,以便为作者验证的任务。这些模型证明了始终如一地达到非常高的分数。接下来,我们经验证明他们专注于局部线索而不是作者写作风格特征,利用数据集中的现有偏差。为了解决这个问题,我们为PAN-2020提供了新的分割,其中培训和测试数据从不相交的主题或作者采样。最后,我们介绍了DarkRedDit,一个具有不同输入数据分发的数据集。我们进一步使用它来分析低数据制度中模型的域泛化性能,以及在使用所提出的PAN-2020分割时如何变化,以进行微调。我们表明这些分割可以提高模型的模型,以通过新的,显着不同的数据集传输知识。
translated by 谷歌翻译
DarkWeb代表了一个用于非法活动的温床,用户在不同的市场论坛上进行交流以交换商品和服务。执法机构从执行作者分析的法医工具中受益,以根据其文本内容识别和配置用户。然而,传统上使用文学文本(例如小说或粉丝小说中的片段)对作者身份分析进行了研究,这些文字在网络犯罪背景下可能不合适。此外,使用撰稿人分析工具进行网络犯罪的少数作品通常采用临时实验设置和数据集。为了解决这些问题,我们发布了Veridark:由三个大规模作者身份验证数据集和一个从用户活动中从黑暗网络相关的Reddit社区或流行的非法黑暗网络市场论坛获得的基准组成的基准。我们在三个数据集上评估竞争性NLP基准,并对预测进行分析,以更好地了解此类方法的局限性。我们在https://github.com/bit-ml/veridark上公开提供数据集和基线
translated by 谷歌翻译
尽管对作者身份归因(AA)和作者身份验证(AV)进行了数十年的研究,但数据集拆分/过滤和不匹配的评估方法不一致,因此很难评估艺术的状态。在本文中,我们介绍了对领域的调查,解决混乱点,介绍瓦拉(Valla)标准化和基准测试AA/AV数据集和指标,提供了大规模的经验评估,并提供现有方法之间的苹果对苹果比较。我们评估了15个数据集(包括分配偏移的挑战集)上的八种有希望的方法,并根据Project Gutenberg归档的文本引入了新的大规模数据集。令人惊讶的是,我们发现基于NGRAM的传统模型在5(7个)AA任务上表现最佳,达到了76.50美元的平均宏观准确性\%$(相比之下,基于BERT的型号为66.71美元\%$)。但是,在两个AA数据集上,每个作者和AV数据集中的单词数量最多,基于BERT的模型表现最好。虽然AV方法很容易应用于AA,但很少将它们作为基准包含在AA论文中。我们表明,通过应用硬性采矿,AV方法是AA方法的竞争替代方法。 Valla和所有实验代码可以在此处找到:https://github.com/jacobtyo/valla
translated by 谷歌翻译
在法律文本中预先培训的基于变压器的预训练语言模型(PLM)的出现,法律领域中的自然语言处理受益匪浅。有经过欧洲和美国法律文本的PLM,最著名的是Legalbert。但是,随着印度法律文件的NLP申请量的迅速增加以及印度法律文本的区别特征,也有必要在印度法律文本上预先培训LMS。在这项工作中,我们在大量的印度法律文件中介绍了基于变压器的PLM。我们还将这些PLM应用于印度法律文件的几个基准法律NLP任务,即从事实,法院判决的语义细分和法院判决预测中的法律法规识别。我们的实验证明了这项工作中开发的印度特定PLM的实用性。
translated by 谷歌翻译
We present a novel corpus for French dialect identification comprising 413,522 French text samples collected from public news websites in Belgium, Canada, France and Switzerland. To ensure an accurate estimation of the dialect identification performance of models, we designed the corpus to eliminate potential biases related to topic, writing style, and publication source. More precisely, the training, validation and test splits are collected from different news websites, while searching for different keywords (topics). This leads to a French cross-domain (FreCDo) dialect identification task. We conduct experiments with four competitive baselines, a fine-tuned CamemBERT model, an XGBoost based on fine-tuned CamemBERT features, a Support Vector Machines (SVM) classifier based on fine-tuned CamemBERT features, and an SVM based on word n-grams. Aside from presenting quantitative results, we also make an analysis of the most discriminative features learned by CamemBERT. Our corpus is available at https://github.com/MihaelaGaman/FreCDo.
translated by 谷歌翻译
作者归因是确定给定文本的作者的任务。大多数现有方法都使用手动设计的功能来捕获数据集的内容和样式。但是,这种依赖数据集的方法会产生不一致的性能。因此,我们建议使用对比度学习和监督学习(Contra-X)的结合来微调预训练的语言表示。我们表明,Contra-X在多个人类和机器作者身份归因基准上提高了最先进的方法,从而提高了高达6.8%的改善。我们还表明,在不同的数据方案中,Contra-X始终优于跨凝性微调。至关重要的是,我们介绍了这些改进的定性和定量分析。我们博学的表示形成了不同作者的高度可分开的群集。但是,我们发现对比度学习以牺牲某些作者的牺牲成本提高了整体准确性。解决这种紧张关系将是未来工作的重要方向。据我们所知,我们是第一个分析将对比度学习与跨凝性微调相结合的作者归因的效果。
translated by 谷歌翻译
本文是我们尝试回答两个问题,涵盖道德和作者资格分析领域的问题。首先,由于用于执行作者身份分析的方法意味着他或她创建的内容可以识别作者,因此我们有兴趣找出作者身份证系统是否有可能正确地将作者归因于作者,如果年来,他们经历了重大的心理过渡。其次,从作者的道德价值观演变的角度来看,我们检查了如果作者归因系统在检测单个作者身份方面遇到困难,这将是什么意思。我们着手使用基于预训练的变压器模型的文本分类器执行二进制作者资格分析任务来回答这些问题,并依靠常规相似性指标来回答这些问题。对于测试套装,我们选择了教育史上的日本教育家和专家Arata Osada的作品,其中一半是在第二次世界大战之前写的书,在1950年代又是一半,在此期间,他进行了转变。政治意见的条款。结果,我们能够确认,在10年以上的时间跨度中,Arata Osada撰写的文本,而分类准确性下降了很大的利润率,并且大大低于其他非虚构的文本作家,预测的信心得分仍然与时间跨度较短的水平相似,这表明分类器在许多情况下被欺骗来决定在多年的时间跨度上写的文本实际上是由两个不同的人编写的,这反过来又使我们相信这种变化会影响作者身份分析,并且历史事件对人的著作中所表达的道德观。
translated by 谷歌翻译
大型语言模型在各种任务上显示出令人印象深刻的几次结果。但是,当知识是此类结果的关键时,就像问题回答和事实检查之类的任务一样,似乎需要存储知识的大量参数计数。众所周知,检索增强模型可以在不需要多个参数的情况下在知识密集的任务上表现出色,但是目前尚不清楚它们是否在几个弹药设置中工作。在这项工作中,我们介绍了地图集,这是一个经过精心设计和预先训练的增强语言模型,能够通过很少的培训示例学习知识密集型任务。我们对包括MMLU,苏格兰短裙和归类等各种任务进行评估,并研究文档索引内容的影响,表明它可以很容易地进行更新。值得注意的是,在自然问题上仅使用64个示例在自然问题上达到超过42 \%的准确性,尽管参数少了50倍,但比540B参数模型的表现优于540b参数模型。
translated by 谷歌翻译
Determining the author of a text is a difficult task. Here we compare multiple AI techniques for classifying literary texts written by multiple authors by taking into account a limited number of speech parts (prepositions, adverbs, and conjunctions). We also introduce a new dataset composed of texts written in the Romanian language on which we have run the algorithms. The compared methods are Artificial Neural Networks, Support Vector Machines, Multi Expression Programming, Decision Trees with C5.0, and k-Nearest Neighbour. Numerical experiments show, first of all, that the problem is difficult, but some algorithms are able to generate decent errors on the test set.
translated by 谷歌翻译
雇用措施恳求抄袭文本的措施是对学术诚信的严重威胁。要启用检测机释录的文本,我们会评估五个预先训练的单词嵌入模型的有效性与机器学习分类器和最先进的神经语言模型相结合。我们分析了研究论文,毕业论文和维基百科文章的预印刷品,我们使用不同的工具SpinBot和Spinnerchief释放。最佳的表演技术,啰素,平均F1得分为80.99%(F1 = 99.68%,纺纱病例的F1 = 71.64%),而人类评估员均达到纺纱病例的F1 = 78.4%,F1 = 65.6%的纺纱病例。我们表明,自动分类减轻了广泛使用的文本匹配系统的缺点,例如金风格和Plagscan。为了促进未来的研究,所有数据,代码和两个展示我们贡献的Web应用程序都公开使用。
translated by 谷歌翻译
近年来,在应用预训练的语言模型(例如Bert)上,取得了巨大进展,以获取信息检索(IR)任务。在网页中通常使用的超链接已被利用用于设计预训练目标。例如,超链接的锚文本已用于模拟查询,从而构建了巨大的查询文档对以进行预训练。但是,作为跨越两个网页的桥梁,尚未完全探索超链接的潜力。在这项工作中,我们专注于建模通过超链接连接的两个文档之间的关系,并为临时检索设计一个新的预训练目标。具体而言,我们将文档之间的关系分为四组:无链接,单向链接,对称链接和最相关的对称链接。通过比较从相邻组采样的两个文档,该模型可以逐渐提高其捕获匹配信号的能力。我们提出了一个渐进的超链接预测({php})框架,以探索预训练中超链接的利用。对两个大规模临时检索数据集和六个提问数据集的实验结果证明了其优于现有的预训练方法。
translated by 谷歌翻译
对于自然语言处理应用可能是有问题的,因为它们的含义不能从其构成词语推断出来。缺乏成功的方法方法和足够大的数据集防止了用于检测成语的机器学习方法的开发,特别是对于在训练集中不发生的表达式。我们提出了一种叫做小鼠的方法,它使用上下文嵌入来实现此目的。我们展示了一个新的多字表达式数据集,具有文字和惯用含义,并使用它根据两个最先进的上下文单词嵌入式培训分类器:Elmo和Bert。我们表明,使用两个嵌入式的深度神经网络比现有方法更好地执行,并且能够检测惯用词使用,即使对于训练集中不存在的表达式。我们展示了开发模型的交叉传输,并分析了所需数据集的大小。
translated by 谷歌翻译
Current state-of-the-art approaches to text classification typically leverage BERT-style Transformer models with a softmax classifier, jointly fine-tuned to predict class labels of a target task. In this paper, we instead propose an alternative training objective in which we learn task-specific embeddings of text: our proposed objective learns embeddings such that all texts that share the same target class label should be close together in the embedding space, while all others should be far apart. This allows us to replace the softmax classifier with a more interpretable k-nearest-neighbor classification approach. In a series of experiments, we show that this yields a number of interesting benefits: (1) The resulting order induced by distances in the embedding space can be used to directly explain classification decisions. (2) This facilitates qualitative inspection of the training data, helping us to better understand the problem space and identify labelling quality issues. (3) The learned distances to some degree generalize to unseen classes, allowing us to incrementally add new classes without retraining the model. We present extensive experiments which show that the benefits of ante-hoc explainability and incremental learning come at no cost in overall classification accuracy, thus pointing to practical applicability of our proposed approach.
translated by 谷歌翻译
通过摩尔维亚岛与罗马尼亚语方言识别的机器学习模型的看似高精度水平和对这一主题的越来越多的研究兴趣,我们提供了摩尔维亚的跟进与罗马尼亚语交叉方言主题识别(MRC)的Vartial共享任务2019年评估运动。共享任务包括两个子任务类型:一个组成,其中包括摩尔维亚和罗马尼亚语方言的区分,其中一个由罗马尼亚语两条方言进行主题分类文件。参与者实现了令人印象深刻的分数,例如,摩尔维亚州的顶级型号与罗马尼亚语方言识别获得了0.895的宏F1得分。我们对人类注释者进行了主观评估,显示人类与机器学习(ML)模型相比,人类可以获得更低的精度率。因此,还不清楚为什么参与者提出的方法达到这种高精度率的方法。我们的目标是理解(i)为什么所提出的方法如此良好地工作(通过可视化鉴别特征)和(ii)这些方法可以在多大程度上保持其高精度水平,例如,这些方法可以保持高精度水平。当我们将文本样本缩短到单个句子时或我们在推理时间使用推文时。我们工作的二级目标是使用集合学习提出改进的ML模型。我们的实验表明,ML模型可以准确地识别方言,即使在句子水平和不同的域中(新闻文章与推文)。我们还分析了最佳性能模型的最辨别特征,在这些模型所采取的决策背后提供了一些解释。有趣的是,我们学习我们以前未知的新的辩证模式或我们的人为注册者。此外,我们进行实验,表明可以通过基于堆叠的集合来改善MRC共享任务的机器学习性能。
translated by 谷歌翻译
我们分析预先训练的语言模型在使用不同类型系统注释的数据集中传输知识的能力,并概括在域名和数据集之外,他们接受了培训。我们创建了一个元任务,在多个数据集上集中于预测修辞角色。在案例决策中扮演句子扮演的修辞角色的预测是AI&法律中的重要且经常学习的任务。通常,它需要批注大量句子来训练模型,这可能是耗时和昂贵的。此外,模型的应用受到培训的相同数据集。我们微调语言模型并在数据集中评估它们的性能,以研究模型的拓展域的能力。我们的结果表明,该方法可以有助于克服主动或Interactie学习中的冷启动问题,并显示模型跨越数据集和域的能力。
translated by 谷歌翻译
The extensive surviving corpus of the ancient scholar Plutarch of Chaeronea (ca. 45-120 CE) also contains several texts which, according to current scholarly opinion, did not originate with him and are therefore attributed to an anonymous author Pseudo-Plutarch. These include, in particular, the work Placita Philosophorum (Quotations and Opinions of the Ancient Philosophers), which is extremely important for the history of ancient philosophy. Little is known about the identity of that anonymous author and its relation to other authors from the same period. This paper presents a BERT language model for Ancient Greek. The model discovers previously unknown statistical properties relevant to these literary, philosophical, and historical problems and can shed new light on this authorship question. In particular, the Placita Philosophorum, together with one of the other Pseudo-Plutarch texts, shows similarities with the texts written by authors from an Alexandrian context (2nd/3rd century CE).
translated by 谷歌翻译
本文介绍了关于剧透筛选的研究。在这种用例中,我们描述了微调和组织基于文本的模型任务的方法,并具有最新的深度学习成果和技术来解释模型的结果。到目前为止,文献中的剧透研究很少描述。我们在带有带注释的扰流板(ROC AUC以上的TV Tropes Point DataSet上超过81 \%的Roc Auc以上的Roc Auc上超过81 \%)的转移学习方法和不同的最新变压器架构。我们还收集了数据并使用细粒度注释组装了新数据集。为此,我们采用了可解释技术和措施来评估模型的可靠性并解释其结果。
translated by 谷歌翻译
我们研究了检查问题的事实,旨在识别给定索赔的真实性。具体而言,我们专注于事实提取和验证(发烧)及其伴随数据集的任务。该任务包括从维基百科检索相关文件(和句子)并验证文件中的信息是否支持或驳斥所索赔的索赔。此任务至关重要,可以是假新闻检测和医疗索赔验证等应用程序块。在本文中,我们以通过以结构化和全面的方式呈现文献来更好地了解任务的挑战。我们通过分析不同方法的技术视角并讨论发热数据集的性能结果,描述了所提出的方法,这是最熟悉的和正式结构化的数据集,就是事实提取和验证任务。我们还迄今为止迄今为止确定句子检索组件的有益损失函数的最大实验研究。我们的分析表明,采样负句对于提高性能并降低计算复杂性很重要。最后,我们描述了开放的问题和未来的挑战,我们激励了未来的任务研究。
translated by 谷歌翻译
State-of-the-art computer vision systems are trained to predict a fixed set of predetermined object categories. This restricted form of supervision limits their generality and usability since additional labeled data is needed to specify any other visual concept. Learning directly from raw text about images is a promising alternative which leverages a much broader source of supervision. We demonstrate that the simple pre-training task of predicting which caption goes with which image is an efficient and scalable way to learn SOTA image representations from scratch on a dataset of 400 million (image, text) pairs collected from the internet. After pre-training, natural language is used to reference learned visual concepts (or describe new ones) enabling zero-shot transfer of the model to downstream tasks. We study the performance of this approach by benchmarking on over 30 different existing computer vision datasets, spanning tasks such as OCR, action recognition in videos, geo-localization, and many types of fine-grained object classification. The model transfers non-trivially to most tasks and is often competitive with a fully supervised baseline without the need for any dataset specific training. For instance, we match the accuracy of the original ResNet-50 on ImageNet zero-shot without needing to use any of the 1.28 million training examples it was trained on. We release our code and pre-trained model weights at https://github.com/OpenAI/CLIP.
translated by 谷歌翻译
Understanding customer feedback is becoming a necessity for companies to identify problems and improve their products and services. Text classification and sentiment analysis can play a major role in analyzing this data by using a variety of machine and deep learning approaches. In this work, different transformer-based models are utilized to explore how efficient these models are when working with a German customer feedback dataset. In addition, these pre-trained models are further analyzed to determine if adapting them to a specific domain using unlabeled data can yield better results than off-the-shelf pre-trained models. To evaluate the models, two downstream tasks from the GermEval 2017 are considered. The experimental results show that transformer-based models can reach significant improvements compared to a fastText baseline and outperform the published scores and previous models. For the subtask Relevance Classification, the best models achieve a micro-averaged $F1$-Score of 96.1 % on the first test set and 95.9 % on the second one, and a score of 85.1 % and 85.3 % for the subtask Polarity Classification.
translated by 谷歌翻译