智能论文笔记

An Empirical Study of the Effectiveness of an Ensemble of Stand-alone Sentiment Detection Tools for Software Engineering Datasets

Gias Uddin , Yann-Gael Gueheneuc , Foutse Khomh , Chanchal K Roy

分类：机器学习

2021-11-04

软件工程（SE）中的情感分析表明了承诺分析和支持各种发展活动。我们报告了经验研究的结果，以确定我们通过组合独立的SE特定情绪探测器的极性标签来确定开发集合发动机的可行性。我们的研究有两个阶段。在第一阶段，我们通过Lin等人从最近发表的两篇论文中选择了五个特定的情绪检测工具。 [31,32]，谁首先报告了独立的情绪探测器的负面结果，然后提出了改进的SE特异性情绪检测器，POME [31]。我们向第17,581个单位（句子/文件）报告来自六个目前可用情绪基准的17,581个单位（句子/文件）。我们发现现有工具可以在85-95％的情况下互补，即，一个是错误的，但另一个是对的。然而，这些工具的大多数基于投票的集合未能提高情绪检测的准确性。我们通过将极性标签和单词袋作为特征组合来开发Sentisead，一个受监督的工具。 Sentisead将各个工具的性能（F1分数）提高了4％（Over Senti4SD [5]） - 100％（通过Pome [31]）。在第二阶段，我们使用预先培训的变压器模型（PTM）进行比较和改进Sentisead基础架构。我们发现，带Roberta的Sentisead基础架构作为来自Lin等人的五个独立规则和浅学习的SE特定工具的集合。 [31,32]在六个数据集中提供0.805的最佳F1分数，而独立罗伯塔显示F1分数为0.801。

translated by 谷歌翻译

An Empirical Study of IoT Security Aspects at Sentence-Level in Developer Textual Discussions

Nibir Chandra Mandal , Gias Uddin

分类：机器学习

2022-06-07

物联网是一个快速新兴的范式，现在几乎涵盖了我们现代生活的各个方面。因此，确保物联网设备的安全至关重要。物联网设备与传统计算可能有所不同，从而在物联网设备中设计和实施适当的安全措施可能具有挑战性。我们观察到，物联网开发人员在堆栈溢出（SO）等开发人员论坛中讨论了与安全相关的挑战。但是，我们发现，在SO中，物联网安全讨论也可以埋葬在非安全性讨论中。在本文中，我们旨在了解物联网开发人员在将安全实践和技术应用于IoT设备时面临的挑战。我们有两个目标：（1）开发一个模型，该模型可以自动在SO中找到与安全有关的物联网讨论，并且（2）研究模型输出以了解与IoT开发人员安全相关的挑战。首先，我们从中下载了53k帖子，因此包含有关物联网的讨论。其次，我们手动将53K帖子的5,919个句子标记为1或0。第三，我们使用此基准测试来研究一套深度学习变压器模型。最佳性能模型称为SECBOT。第四，我们将SECBOT应用于整个帖子，并找到大约30K安全性的句子。第五，我们将主题建模应用于与安全有关的句子。然后，我们标记并分类主题。第六，我们分析了主题的演变。我们发现（1）SECBOT是基于深度学习模型Roberta的重建。 SECBOT提供的最佳F1分数为0.935，（2）SECBOT错误分类的样本中有六个错误类别。当关键字/上下文是模棱两可的（例如，网关可以是安全网关或简单网关）时，SECBOT主要是错误的，（3）有9个安全主题分为三个类别：软件，硬件和网络，以及（4）最多的主题属于软件安全性，然后是网络安全。

translated by 谷歌翻译

Automated Identification of Toxic Code Reviews Using ToxiCR

Jaydeb Sarker , Asif Kamal Turzo , Ming Dong , Amiangshu Bosu

分类：自然语言处理 | 机器学习

2022-02-26

软件开发互动期间的有毒对话可能会对免费开源软件（FOSS）开发项目产生严重影响。例如，有毒对话的受害者可能会害怕表达自己，因此会丧失自己的动力，并最终可能离开该项目。自动过滤有毒的对话可能有助于福斯社区保持其成员之间的健康互动。但是，现成的毒性探测器在软件工程（SE）数据集上的表现较差，例如从代码审查评论中策划的一个。为了遇到这一挑战，我们提出了毒性，这是一种基于学习的基于学习的毒性识别工具，用于代码审查互动。有毒物质包括选择一种监督学习算法之一，选择文本矢量化技术，八个预处理步骤以及一个大规模标记的数据集，其中包括19,571个代码评论评论。在这八个预处理步骤中，有两个是特定于SE域。通过对预处理步骤和矢量化技术的各种组合的模型进行严格的评估，我们已经确定了数据集的最佳组合，可提高95.8％的精度和88.9％的F1得分。毒性明显优于我们数据集中的现有毒性探测器。我们已发布了数据集，预处理的模型，评估结果和源代码，网址为：https：//github.com/wsu-seal/toxicr

translated by 谷歌翻译

Computational Sarcasm Analysis on Social Media: A Systematic Review

Faria Binte Kader , Nafisa Hossain Nujat , Tasmia Binte Sogir , Mohsinul Kabir , Hasan Mahmud , Kamrul Hasan

分类：自然语言处理

2022-09-13

讽刺可以被定义为说或写讽刺与一个人真正想表达的相反，通常是为了侮辱，刺激或娱乐某人。由于文本数据中讽刺性的性质晦涩难懂，因此检测到情感分析研究社区的困难和非常感兴趣。尽管讽刺检测的研究跨越了十多年，但最近已经取得了一些重大进步，包括在多模式环境中采用了无监督的预训练的预训练的变压器，并整合了环境以识别讽刺。在这项研究中，我们旨在简要概述英语计算讽刺研究的最新进步和趋势。我们描述了与讽刺有关的相关数据集，方法，趋势，问题，挑战和任务，这些数据集，趋势，问题，挑战和任务是无法检测到的。我们的研究提供了讽刺数据集，讽刺特征及其提取方法以及各种方法的性能分析，这些表可以帮助相关领域的研究人员了解当前的讽刺检测中最新实践。

translated by 谷歌翻译

Can Transformer Models Effectively Detect Software Aspects in StackOverflow Discussion?

Nibir Chandra Mandal , Tashreef Muhammad , G. M. Shahariar

分类：自然语言处理

2022-09-24

正在纳入数十种新工具和技术，以帮助开发人员，因为他们努力选择一种而不是其他人，这已成为震惊的根源。例如，开发人员至少有十个框架可用于开发Web应用程序，并在选择满足其需求的最佳框架时提出了一个难题。结果，开发人员正在不断搜索每个API，框架，工具等的所有好处和缺点。典型的方法之一是通过官方文档和讨论来检查所有功能。这种方法是耗时的，通常使难以确定哪些方面对特定开发人员最重要，以及特定方面对整个社区是否重要。在本文中，我们使用了从stackoverflow帖子中收集的基准API方面数据集（意见器），并观察了Transformer模型（Bert，Roberta，Distilbert和XLNet）在检测有关基线支持矢量的文本开发人员讨论中的软件方面时的表现机器（SVM）型号。通过广泛的实验，我们发现变压器模型改善了大多数方面的基线SVM的性能，即``performance''，``安全性''，``可用性''，``可用性''，``bug'''，``bug''' '和``其他''。但是，这些模型未能理解某些方面（例如，“社区”和“陶器”），其性能取决于方面。同样，与Distilbert这样的较小体系结构相比，XLNET等较大的体系结构在解释软件方面无效。

translated by 谷歌翻译

Improved two-stage hate speech classification for twitter based on Deep Neural Networks

Georgios K. Pitsilis

分类：自然语言处理 | 人工智能

2022-06-08

仇恨言论是一种在线骚扰的形式，涉及使用滥用语言，并且在社交媒体帖子中通常可以看到。这种骚扰主要集中在诸如宗教，性别，种族等的特定群体特征上，如今它既有社会和经济后果。文本文章中对滥用语言的自动检测一直是一项艰巨的任务，但最近它从科学界获得了很多兴趣。本文解决了在社交媒体中辨别仇恨内容的重要问题。我们在这项工作中提出的模型是基于LSTM神经网络体系结构的现有方法的扩展，我们在短文中适当地增强和微调以检测某些形式的仇恨语言，例如种族主义或性别歧视。最重要的增强是转换为由复发性神经网络（RNN）分类器组成的两阶段方案。将第一阶段的所有一Vs式分类器（OVR）分类器的输出组合在一起，并用于训练第二阶段分类器，最终决定了骚扰的类型。我们的研究包括对在16K推文的公共语料库中评估的第二阶段提出的几种替代方法的性能比较，然后对另一个数据集进行了概括研究。报道的结果表明，与当前的最新技术相比，在仇恨言论检测任务中，所提出的方案的分类质量出色。

translated by 谷歌翻译

Improving the Generalizability of Text-Based Emotion Detection by Leveraging Transformers with Psycholinguistic Features

Sourabh Zanwar , Daniel Wiechmann , Yu Qiao , Elma Kerz

分类：自然语言处理

2022-12-19

In recent years, there has been increased interest in building predictive models that harness natural language processing and machine learning techniques to detect emotions from various text sources, including social media posts, micro-blogs or news articles. Yet, deployment of such models in real-world sentiment and emotion applications faces challenges, in particular poor out-of-domain generalizability. This is likely due to domain-specific differences (e.g., topics, communicative goals, and annotation schemes) that make transfer between different models of emotion recognition difficult. In this work we propose approaches for text-based emotion detection that leverage transformer models (BERT and RoBERTa) in combination with Bidirectional Long Short-Term Memory (BiLSTM) networks trained on a comprehensive set of psycholinguistic features. First, we evaluate the performance of our models within-domain on two benchmark datasets: GoEmotion and ISEAR. Second, we conduct transfer learning experiments on six datasets from the Unified Emotion Dataset to evaluate their out-of-domain robustness. We find that the proposed hybrid models improve the ability to generalize to out-of-distribution data compared to a standard transformer-based approach. Moreover, we observe that these models perform competitively on in-domain data.

translated by 谷歌翻译

ReDDIT: Regret Detection and Domain Identification from Text

Fazlourrahman Balouchzahi , Sabur Butt , Grigori Sidorov , Alexander Gelbukh

分类：自然语言处理 | 人工智能 | 机器学习

2022-12-14

In this paper, we present a study of regret and its expression on social media platforms. Specifically, we present a novel dataset of Reddit texts that have been classified into three classes: Regret by Action, Regret by Inaction, and No Regret. We then use this dataset to investigate the language used to express regret on Reddit and to identify the domains of text that are most commonly associated with regret. Our findings show that Reddit users are most likely to express regret for past actions, particularly in the domain of relationships. We also found that deep learning models using GloVe embedding outperformed other models in all experiments, indicating the effectiveness of GloVe for representing the meaning and context of words in the domain of regret. Overall, our study provides valuable insights into the nature and prevalence of regret on social media, as well as the potential of deep learning and word embeddings for analyzing and understanding emotional language in online text. These findings have implications for the development of natural language processing algorithms and the design of social media platforms that support emotional expression and communication.

translated by 谷歌翻译

A Comprehensive Review of Visual-Textual Sentiment Analysis from Social Media Networks

Israa Khalaf Salman Al-Tameemi , Mohammad-Reza Feizi-Derakhshi , Saeed Pashazadeh , Mohammad Asadpour

分类：自然语言处理 | 人工智能

2022-07-05

社交媒体网络已成为人们生活的重要方面，它是其思想，观点和情感的平台。因此，自动化情绪分析（SA）对于以其他信息来源无法识别人们的感受至关重要。对这些感觉的分析揭示了各种应用，包括品牌评估，YouTube电影评论和医疗保健应用。随着社交媒体的不断发展，人们以不同形式发布大量信息，包括文本，照片，音频和视频。因此，传统的SA算法已变得有限，因为它们不考虑其他方式的表现力。通过包括来自各种物质来源的此类特征，这些多模式数据流提供了新的机会，以优化基于文本的SA之外的预期结果。我们的研究重点是多模式SA的最前沿领域，该领域研究了社交媒体网络上发布的视觉和文本数据。许多人更有可能利用这些信息在这些平台上表达自己。为了作为这个快速增长的领域的学者资源，我们介绍了文本和视觉SA的全面概述，包括数据预处理，功能提取技术，情感基准数据集以及适合每个字段的多重分类方法的疗效。我们还简要介绍了最常用的数据融合策略，并提供了有关Visual Textual SA的现有研究的摘要。最后，我们重点介绍了最重大的挑战，并调查了一些重要的情感应用程序。

translated by 谷歌翻译

Negation detection in Dutch clinical texts: an evaluation of rule-based and machine learning methods

Bram van Es , Leon C. Reteig , Sander C. Tan , Marijn Schraagen , Myrthe M. Hemker , Sebastiaan R. S. Arends , Miguel A. R. Rios , Saskia Haitjema

分类：自然语言处理 | 机器学习 | (统计)机器学习

2022-09-01

由于结构化数据通常不足，因此在开发用于临床信息检索和决策支持系统模型时，需要从电子健康记录中的自由文本中提取标签。临床文本中最重要的上下文特性之一是否定，这表明没有发现。我们旨在通过比较荷兰临床注释中的三种否定检测方法来改善标签的大规模提取。我们使用Erasmus医疗中心荷兰临床语料库比较了基于ContextD的基于规则的方法，即使用MEDCAT和（Fineted）基于Roberta的模型的BilstM模型。我们发现，Bilstm和Roberta模型都在F1得分，精度和召回方面始终优于基于规则的模型。此外，我们将每个模型的分类错误系统地分类，这些错误可用于进一步改善特定应用程序的模型性能。在性能方面，将三个模型结合起来并不有益。我们得出的结论是，尤其是基于Bilstm和Roberta的模型在检测临床否定方面非常准确，但是最终，根据手头的用例，这三种方法最终都可以可行。

translated by 谷歌翻译

HTML版本

Effectiveness of Transformer Models on IoT Security Detection in StackOverflow Discussions

Nibir Chandra Mandal , G. M. Shahariar , Md. Tanvir Rouf Shawon

分类：机器学习

2022-07-29

物联网（IoT）是一个新兴的概念，它直接链接到连接到Internet的数十亿个物理项目或“事物”，并且都在收集和在设备和系统之间收集和交换信息。但是，IoT设备并未考虑到安全性，这可能会导致多设备系统中的安全漏洞。传统上，我们通过调查物联网开发商和专家来调查物联网问题。但是，该技术是不可扩展的，因为对所有物联网开发人员进行调查是不可行的。研究物联网问题的另一种方法是在主要在线开发论坛（如Stack Overflow（So））上查看IoT开发人员讨论。但是，发现与物联网问题相关的讨论是具有挑战性的，因为它们经常不属于与IoT相关的术语。在本文中，我们介绍了“ IoT安全数据集”，这是一个针对7147个示例的特定领域数据集，仅针对IoT安全讨论。由于没有自动化工具来标记这些样品，因此我们将其标记为标签。我们进一步采用了多个变压器模型来自动检测安全讨论。通过严格的调查，我们发现物联网安全讨论与传统的安全讨论更加不同，更复杂。当我们从通用数据集“ Opiner”转移知识时，我们证明了跨域数据集上的变压器模型的大量性能损失（多达44％）。因此，我们构建了一个特定于域的IoT安全检测器，F1得分为0.69。我们已经公开了数据集，希望开发人员能够了解有关安全性讨论的更多信息，并且供应商将加强他们对产品安全的担忧。

translated by 谷歌翻译

Improving Classifier Training Efficiency for Automatic Cyberbullying Detection with Feature Density

Juuso Eronen , Michal Ptaszynski , Fumito Masui , Aleksander Smywiński-Pohl , Gniewosz Leliwa , Michal Wroczynski

分类：自然语言处理 | 人工智能

2021-11-02

我们使用不同的语言支持特征预处理方法研究特征密度（FD）的有效性，以估计数据集复杂性，这又用于比较估计任何训练之前机器学习（ML）分类器的潜在性能。我们假设估计数据集复杂性允许减少所需实验迭代的数量。这样我们可以优化ML模型的资源密集型培训，这是由于可用数据集大小的增加以及基于深神经网络（DNN）的模型的不断增加的普及而成为一个严重问题。由于训练大规模ML模型引起的令人惊叹的二氧化碳排放量，不断增加对更强大的计算资源需求的问题也在影响环境。该研究是在多个数据集中进行的，包括流行的数据集，例如用于培训典型情感分析模型的Yelp业务审查数据集，以及最近的数据集尝试解决网络欺凌问题，这是一个严重的社会问题，也是一个严重的社会问题一个更复杂的问题，形成了语言代表的观点。我们使用收集多种语言的网络欺凌数据集，即英语，日语和波兰语。数据集的语言复杂性的差异允许我们另外讨论语言备份的单词预处理的功效。

translated by 谷歌翻译

ArmanEmo: A Persian Dataset for Text-based Emotion Detection

Hossein Mirzaee , Javad Peymanfard , Hamid Habibzadeh Moshtaghin , Hossein Zeinali

分类：自然语言处理 | 人工智能

2022-07-24

随着社交媒体平台上的开放文本数据的最新扩散，在过去几年中，文本的情感检测（ED）受到了更多关注。它有许多应用程序，特别是对于企业和在线服务提供商，情感检测技术可以通过分析客户/用户对产品和服务的感受来帮助他们做出明智的商业决策。在这项研究中，我们介绍了Armanemo，这是一个标记为七个类别的7000多个波斯句子的人类标记的情感数据集。该数据集是从不同资源中收集的，包括Twitter，Instagram和Digikala（伊朗电子商务公司）的评论。标签是基于埃克曼（Ekman）的六种基本情感（愤怒，恐惧，幸福，仇恨，悲伤，奇迹）和另一个类别（其他），以考虑Ekman模型中未包含的任何其他情绪。除数据集外，我们还提供了几种基线模型，用于情绪分类，重点是最新的基于变压器的语言模型。我们的最佳模型在我们的测试数据集中达到了75.39％的宏观平均得分。此外，我们还进行了转移学习实验，以将我们提出的数据集的概括与其他波斯情绪数据集进行比较。这些实验的结果表明，我们的数据集在现有的波斯情绪数据集中具有较高的概括性。 Armanemo可在https://github.com/arman-rayan-sharif/arman-text-emotion上公开使用。

translated by 谷歌翻译

Domain Adaptation of Transformer-Based Models using Unlabeled Data for Relevance and Polarity Classification of German Customer Feedback

Ahmad Idrissi-Yaghir , Henning Schäfer , Nadja Bauer , Christoph M. Friedrich

分类：自然语言处理 | 机器学习

2022-12-12

Understanding customer feedback is becoming a necessity for companies to identify problems and improve their products and services. Text classification and sentiment analysis can play a major role in analyzing this data by using a variety of machine and deep learning approaches. In this work, different transformer-based models are utilized to explore how efficient these models are when working with a German customer feedback dataset. In addition, these pre-trained models are further analyzed to determine if adapting them to a specific domain using unlabeled data can yield better results than off-the-shelf pre-trained models. To evaluate the models, two downstream tasks from the GermEval 2017 are considered. The experimental results show that transformer-based models can reach significant improvements compared to a fastText baseline and outperform the published scores and previous models. For the subtask Relevance Classification, the best models achieve a micro-averaged $F1$-Score of 96.1 % on the first test set and 95.9 % on the second one, and a score of 85.1 % and 85.3 % for the subtask Polarity Classification.

translated by 谷歌翻译

Survey of Generative Methods for Social Media Analysis

Stan Matwin , Aristides Milios , Paweł Prałat , Amilcar Soares , François Théberge

分类：机器学习

2021-12-13

本次调查绘制了用于分析社交媒体数据的生成方法的研究状态的广泛的全景照片（Sota）。它填补了空白，因为现有的调查文章在其范围内或被约会。我们包括两个重要方面，目前正在挖掘和建模社交媒体的重要性：动态和网络。社会动态对于了解影响影响或疾病的传播，友谊的形成，友谊的形成等，另一方面，可以捕获各种复杂关系，提供额外的洞察力和识别否则将不会被注意的重要模式。

translated by 谷歌翻译

Annotation Error Detection: Analyzing the Past and Present for a More Coherent Future

Jan-Christoph Klie , Bonnie Webber , Iryna Gurevych

分类：自然语言处理

2022-06-05

注释数据是用于培训和评估机器学习模型的自然语言处理中的重要成分。因此，注释具有高质量是非常理想的。但是，最近的工作表明，几个流行的数据集包含令人惊讶的注释错误或不一致之处。为了减轻此问题，多年来已经设计了许多注释错误检测方法。尽管研究人员表明他们的方法在新介绍的数据集上效果很好，但他们很少将其方法与以前的工作或同一数据集进行比较。这引起了人们对方法的一般表现的强烈关注，并且使他们的优势和劣势很难解决。因此，我们重新实现18种检测潜在注释错误的方法，并在9个英语数据集上对其进行评估，以进行文本分类以及令牌和跨度标签。此外，我们定义了统一的评估设置，包括注释错误检测任务，评估协议和一般最佳实践的新形式化。为了促进未来的研究和可重复性，我们将数据集和实施释放到易于使用和开源软件包中。

translated by 谷歌翻译

Dataset for Identification of Homophobia and Transophobia in Multilingual YouTube Comments

Bharathi Raja Chakravarthi , Ruba Priyadharshini , Rahul Ponnusamy , Prasanna Kumar Kumaresan , Kayalvizhi Sampath , Durairaj Thenmozhi , Sathiyaraj Thangasamy , Rajendran Nallathambi , John Phillip McCrae

分类：自然语言处理

2021-09-01

社交媒体平台上的滥用内容的增长增加对在线用户的负面影响。对女同性恋，同性恋者，跨性别或双性恋者的恐惧，不喜欢，不适或不疑虑被定义为同性恋/转铁症。同性恋/翻译语音是一种令人反感的语言，可以总结为针对LGBT +人的仇恨语音，近年来越来越受到兴趣。在线同性恋恐惧症/ Transphobobia是一个严重的社会问题，可以使网上平台与LGBT +人有毒和不受欢迎，同时还试图消除平等，多样性和包容性。我们为在线同性恋和转鸟以及专家标记的数据集提供了新的分类分类，这将允许自动识别出具有同种异体/传递内容的数据集。我们受过教育的注释器并以综合的注释规则向他们提供，因为这是一个敏感的问题，我们以前发现未受训练的众包注释者因文化和其他偏见而诊断倡导性的群体。数据集包含15,141个注释的多语言评论。本文介绍了构建数据集，数据的定性分析和注册间协议的过程。此外，我们为数据集创建基线模型。据我们所知，我们的数据集是第一个已创建的数据集。警告：本文含有明确的同性恋，转基因症，刻板印象的明确陈述，这可能对某些读者令人痛苦。

translated by 谷歌翻译

Empirical evaluation of shallow and deep learning classifiers for Arabic sentiment analysis

Ali Bou Nassif , Abdollah Masoud Darya , Ashraf Elnagar

分类：自然语言处理 | 机器学习

2021-12-01

这项工作提出了诸如卷积神经网络（CNN），长短期记忆（LSTM），门控复发单元（GRU），它们的混合动力和情绪的浅学习分类器等深度学习模型的性能的详细比较阿拉伯语评论分析。另外，比较包括最先进的模型，例如变压器架构和阿拉伯的预先训练模型。本研究中使用的数据集是多方面的阿拉伯语酒店和书评数据集，这些数据集是阿拉伯评论的一些最大的公共数据集。结果表明，二元和多标签分类的浅层学习表现优于浅层学习，与文献中报告的类似工作的结果相比。结果中的这种差异是由数据集大小引起的，因为我们发现它与深度学习模型的性能成比例。在准确性和F1分数方面分析了深层和浅层学习技术的性能。最好的浅学习技术是随机森林，后跟决策树，以及adaboost。深度学习模型类似地使用默认的嵌入层进行，而变压器模型在增强Arabert时表现最佳。

translated by 谷歌翻译

Adaptation of domain-specific transformer models with text oversampling for sentiment analysis of social media posts on Covid-19 vaccines

Anmol Bansal , Arjun Choudhry , Anubhav Sharma , Seba Susan

分类：自然语言处理

2022-09-22

Covid-19已遍布全球，已经开发了几种疫苗来应对其激增。为了确定与社交媒体帖子中与疫苗相关的正确情感，我们在与Covid-19疫苗相关的推文上微调了各种最新的预训练的变压器模型。具体而言，我们使用最近引入的最先进的预训练的变压器模型Roberta，XLNet和Bert，以及在CoVID-19的推文中预先训练的域特异性变压器模型CT-Bert和Bertweet。我们通过使用基于语言模型的过采样技术（LMOTE）过采样来进一步探索文本扩展的选项，以改善这些模型的准确性，特别是对于小样本数据集，在正面，负面和中性情感类别之间存在不平衡的类别分布。我们的结果总结了我们关于用于微调最先进的预训练的变压器模型的不平衡小样本数据集的文本过采样的适用性，以及针对分类任务的域特异性变压器模型的实用性。

translated by 谷歌翻译

Automatically Categorising GitHub Repositories by Application Domain

Francisco Zanartu , Christoph Treude , Bruno Cartaxo , Hudson Silva Borges , Pedro Moura , Markus Wagner , Gustavo Pinto

分类：机器学习

2022-07-30

GitHub是Internet上最大的开源软件主机。这个大型，可自由访问的数据库吸引了从业人员和研究人员的注意。但是，随着Github的增长的继续，越来越难以导航遍布广泛领域的大量存储库。过去的工作表明，考虑到应用程序域对于预测存储库的普及以及有关项目质量的推理的任务至关重要。在这项工作中，我们建立在先前注释的5,000个GitHub存储库的数据集上，以设计自动分类器，以通过其应用程序域对存储库进行分类。分类器使用最先进的自然语言处理技术和机器学习，根据五个应用程序域从多个数据源和目录存储库中学习。我们用（1）自动分类器贡献，该分类器可以将流行的存储库分配给每个应用程序域，至少具有70％的精度，（2）对该方法在不流行的存储库中的性能进行调查，以及（3）这种方法对这种方法的实际应用程序，用于回答软件工程实践的采用如何在应用程序域之间有何不同。我们的工作旨在帮助GitHub社区确定感兴趣的存储库，并为未来的工作开放有希望的途径，以调查来自不同应用领域的存储库之间的差异。

translated by 谷歌翻译