我们介绍了一种计算关于数据集的学习任务的导数的方法。学习任务是从训练设置到验证错误的函数,可以由培训的深神经网络(DNN)表示。 “数据集导数”是一个线性运算符,围绕培训的模型计算,它通知每个训练样本的权重的扰动如何影响验证误差,通常在单独的验证数据集上计算。我们的方法,DIVA(可微分验证)铰接在预先训练的DNN周围的休假交叉验证误差的闭合形式微分表达上。这种表达构成数据集衍生物。 Diva可用于数据集自动策策,例如用错误的注释删除样本,使用其他相关样本增强数据集或重新平衡。更一般地,DIVA可用于优化数据集,以及模型的参数,作为培训过程的一部分,而无需单独的验证数据集,与AutomL的双层优化方法不同。为了说明DIVA的灵活性,我们向样本自动策展任务报告实验,如异常值拒绝,数据集扩展和多模态数据的自动聚合。
translated by 谷歌翻译
人工神经网络(ANNS)是普遍存在的机器学习模型,这些模型已应用于各种现实世界分类任务。 ANNS需要大量数据来强大的样本性能,并且许多用于训练ANN参数的算法基于随机梯度下降(SGD)。然而,倾向于在预测任务上最佳地执行最佳的SGD ANN在结束以结束的方式培训,这需要大量模型参数和随机初始化。这意味着培训Anns非常耗时,所产生的模型需要大量的内存来部署。为了培养更多的宽松安卡型号,我们建议使用来自受限优化文献的替代方法,以便安训练和预先预测。特别是,我们提出了用于训练完全连接的ANN的新型混合整数编程(MIP)制剂。我们的配方可以考虑二进制激活和整流的线性单元(Relu)激活Ann,以及用于使用日志似然损耗。我们还开发了一个层展的贪婪方法,一种技术适用于减少ANN中的层数,用于使用我们的MIP制剂的模型预估计。然后,我们将基于MIP的方法与基于SGD的现有方法进行比较,并表明我们能够实现具有竞争力的模型,这些模型具有明显更加解析的样本性能。
translated by 谷歌翻译
使用复杂的数学方法建模的工程问题或者以昂贵的测试或实验为特征,占用有限预算或有限计算资源。此外,行业的实际情景,基于物流和偏好,对可以进行实验的方式施加限制。例如,材料供应可以仅在单次或计算模型的情况下仅实现少量实验,因此可以基于共享计算资源面临显着的等待时间。在这种情况下,一个人通常以允许最大化一个人的知识的方式进行实验,同时满足上述实际限制。实验顺序设计(Sdoe)是一种流行的方法套件,近年来越来越多的不同工程和实际问题。利用贝叶斯形式主义的普通战略是贝叶斯Sdoe,它通常在一步一步的一步中选择单一实验的一步或近视场景中最好的工作。在这项工作中,我们的目标是扩展SDOE策略,以批量输入查询实验或计算机代码。为此,我们利用基于深度加强学习(RL)的政策梯度方法,提出批次选择的查询,以考虑到整个预算。该算法保留了SDOE中固有的顺序性质,同时基于来自深rl域的任务的奖励元素。所提出的方法的独特能力是其应用于多个任务的能力,例如函数的优化,一旦其培训。我们展示了在合成问题上提出了算法的性能,以及挑战的高维工程问题。
translated by 谷歌翻译
最近与大型变压器的主要工作的主要重点是优化包装到模型参数中的信息量。在这项工作中,我们问了一个不同的问题:多峰变压器可以在他们推理中利用明确的知识吗?现有,主要是单峰,方法在知识检索范例下探讨了方法,随后回答预测,但留下了关于所使用的检索知识的质量和相关性的开放性问题,以及如何集成隐含和明确知识的推理过程。为了解决这些挑战,我们提出了一种新颖的模型 - 知识增强变压器(KAT) - 在OK-VQA的开放式多模式任务上实现了强大的最先进的结果(+6分)。我们的方法在结束到终端编码器 - 解码器架构中集成了隐式和显式知识,同时在答案生成期间仍然共同推理了两个知识源。在我们分析中提高了模型预测的可解释性,可以看到明确知识集成的额外好处。
translated by 谷歌翻译
已知自然语言推断(NLI)模型从训练数据内的偏见和人工制品中学习,影响他们概括到其他看不见的数据集。现有的去偏置方法侧重于防止模型学习这些偏差,这可能导致限制模型和较低的性能。相反,我们调查教学模型如何将人类接近NLI任务,以便学习将更好地概括到以前看不见的特征。使用自然语言解释,我们监督模型的注意力,以鼓励更多地关注解释中存在的词语,显着提高模型性能。我们的实验表明,这种方法的分布式改进也伴随着分发的改进,监督模型从概括到其他NLI数据集的功能。该模型的分析表明,人类解释鼓励增加对重要词语的关注,在前提下的单词和较少关注标点符号和止扰言论的关注。
translated by 谷歌翻译