Chain of thought prompting successfully improves the reasoning capabilities of large language models, achieving state of the art results on a range of datasets. However, these reasoning capabilities only appear to emerge in models with a size of over 100 billion parameters. In this paper, we explore the transfer of such reasoning capabilities to models with less than 100 billion parameters via knowledge distillation. Specifically, we finetune a student model on the chain of thought outputs generated by a larger teacher model. Our experiments show that the proposed method improves task performance across arithmetic, commonsense and symbolic reasoning datasets. For example, the accuracy of T5 XXL on GSM8K improves from 8.11% to 21.99% when finetuned on PaLM-540B generated chains of thought.
translated by 谷歌翻译
文本编辑模型最近已成为单语文本生成任务(例如语法误差校正,简化和样式传输)的SEQ2SEQ模型的突出替代方法。这些任务具有共同的特征 - 它们在源文本和目标文本之间表现出大量的文本重叠。文本编辑模型利用了此观察结果,并通过预测应用于源序列的编辑操作来学会生成输出。相比之下,Seq2Seq模型从头开始生成逐字输出,从而使它们在推理时间缓慢。文本编辑模型比SEQ2SEQ模型提供了多个好处,包括更快的推理速度,更高的样本效率以及对输出的更好的控制和解释性。本教程提供了有关文本编辑模型和当前最新方法的全面概述,并分析了他们的利弊。我们讨论了与生产化有关的挑战,以及如何使用这些模型来减轻幻觉和偏见,这两者都在文本生成领域遇到了紧迫的挑战。
translated by 谷歌翻译
本文提出了一个简单的食谱,用于训练最先进的多语言语法误差校正(GEC)模型。我们首先提出一种语言不足的方法来实现这一目标,以生成大量的合成示例。第二个成分是使用大规模的多语言模型(最多11B参数)。一旦对特定于语言的监督集进行了微调,我们就会以四种语言的GEC基准进行以前的最新结果:英语,捷克语,德语和俄语。在为GEC建立了一套新的基线后,我们通过释放Clang-8数据集使结果可以轻松地重现和访问。它是通过使用我们称为GT5的最佳型号来清洁广泛使用但嘈杂的Lang-8数据集的目标而产生的。 Clang-8极大地简化了由多个微调阶段组成的典型GEC训练管道 - 我们证明,使用现成的语言模型在Clang-8上执行单个微调步骤,可以进一步改善已经是顶级的,为英语执行GT5型号。
translated by 谷歌翻译
本研究提出了一种通过将印刷层的图像与基于G代码的参考图像与搅拌器产生的理想过程的参考图像进行比较来检测3D打印异常的开源方法。通过分析局部图像区域的导向梯度(HOG)直方图的相似性来实现对视觉偏差的认识。开发技术需要初步建模工作环境,以实现最佳方向,色彩渲染,照明和印刷部分的其他参数。算法的输出是印刷和合成参考层之间的不匹配水平。实现了12个相似性和距离措施,并在检测六种不同代表性故障类型及其控制无差错打印图像上检测3D打印误差时的有效性。结果表明,虽然Kendall Tau,Jaccard和Sorensen相似之处是最敏感,Pearson R,Spearman Rho,余弦,骰子相似性产生更可靠的结果。该开源方法允许该程序注意其发生的早期阶段中的严重错误,并且暂停制造过程,以便通过操作员或将来的AI控制的自动纠错进一步调查。这种新方法的实施不需要训练的初步数据,并且可以通过相同几何形状的添加剂或减法制造来实现最大的效率。可以得出结论,这种开源方法是使用复杂原料以及其他具有挑战性的制造环境来实现适应性制造的智能分布回收的有希望的方法。
translated by 谷歌翻译