机器学习(ML)模型通常是针对给定数据集的精度进行优化的。但是,此预测标准很少捕获模型的所有理想属性,特别是它与域专家对任务的理解的匹配程度。指定的是指多种模型的存在,这些模型在其内域准确性上是无法区分的,即使它们在其他期望的属性(例如分布(OOD)性能)上有所不同。确定这些情况对于评估ML模型的可靠性至关重要。我们正式化了指定的概念,并提出了一种识别和部分解决它的方法。我们训练多个模型具有独立约束,迫使他们实施不同的功能。他们发现了预测性特征,否则标准经验风险最小化(ERM)忽略了这些特征,然后我们将其提炼成具有出色OOD性能的全球模型。重要的是,我们限制了模型以与数据歧管保持一致,以确保它们发现有意义的功能。我们在计算机视觉(拼贴,wild-camelyon17,gqa)中演示了多个数据集的方法,并讨论了指定规定的一般含义。最值得注意的是,没有其他假设,内域性能无法用于OOD模型选择。
translated by 谷歌翻译