基础培训数据的质量对于建立具有更广泛的Generalizabilty的表演机器学习模型非常重要。但是,当前机器学习(ML)工具缺乏简化的流程,用于提高数据质量。因此,获取数据质量见解并迭代地修剪以获取最大代表下游使用情况的数据集的错误仍然是Ad-hoc手动过程。我们的工作解决了这种数据工具差距,需要纯粹通过以数据为中心的技术构建改进的ML工作流程。更具体地说,我们介绍了(1)在数据集中找到嘈杂或错误标记的样本的系统框架,(2)识别最具信息丰富的样本,当包含在训练中时,该样本将提供最大的模型性能提升。我们展示了我们在公共场合的框架以及两家财富500强公司的私营企业数据集的效果,并确信这项工作将形成ML团队执行更智能的数据发现和修剪的基础。
translated by 谷歌翻译
使用知识图(KGS)增强预培训的语言模型在各种型号推理任务方面取得了成功。但是,对于给定的任务实例,kg或kg的某些部分可能没有用。虽然kg-cugmented模型经常使用注意力集中在特定的kg组件上,但仍然始终使用kg,并且从未明确教授应该使用关注机制。同时,显着性方法可以测量kg特征(例如,图形,节点,路径)对模型进行正确预测的影响,从而解释了哪个kg特征是有用的。本文探讨了可用于提高kg增强模型的性能的显着性解释。首先,我们建议创建粗(是kg有用的?)和精细(kg中的节点/路径是有用的?)显着解释。其次,为了激励基于显着的监督,我们分析了Oracle kg-angimented模型,即直接使用显着解释作为引导他们注意的额外输入。第三,我们提出Salkg,kg-ug-anded模型的框架,以从粗糙和/或罚款解释中学习。给定从任务的培训集创建的显着解释,Salkg共同列举模型来预测解释,然后通过参加预测的解释突出显示的kg功能来解决任务。在三个型号QA基准(CSQA,OBQA,Codah)和一系列KG增强模型中,我们表明Salkg可以产生相当大的性能增益 - 对CSQA的绝对改善高达2.76%。
translated by 谷歌翻译