数据增强技术广泛用于通过解决类别不平衡问题和数据稀疏性来增强机器学习模型的性能。已显示最先进的生成语言模型在不同的NLP任务中提供了显着的增益。但是,它们对几张拍摄设置中的文本分类任务的数据增强的适用性尚未完全探索,特别是对于专门域。在本文中,我们利用GPT-2(Radford A等,2019)来产生人工训练实例,以提高分类性能。我们的目的是分析种子训练示例的选择过程对GPT生成的样品的质量以及因此分类器性能的影响。我们使用几种种子选择策略进行实验,其中包括利用课程分层结构和域专家选择。我们的结果表明,少数标签实例中的微调GPT-2导致一致的分类改进和优于竞争性基线。最后,我们展示通过域专家选择指导这一过程可能会导致进一步的改进,这开辟了有趣的研究途径,用于结合生成模型和主动学习。
translated by 谷歌翻译