Language models (LMs) often generate incoherent outputs: they refer to events and entity states that are incompatible with the state of the world described in their inputs. We introduce SituationSupervision, a family of approaches for improving coherence in LMs by training them to construct and condition on explicit representations of entities and their states. SituationSupervision has two components: an auxiliary situation modeling task that trains models to predict state representations in context, and a latent state inference procedure that imputes these states from partially annotated training data. SituationSupervision can be applied to both fine-tuning (by supervising LMs to encode state variables in their hidden representations) and prompting (by inducing LMs to interleave textual descriptions of entity states with output text). In both cases, SituationSupervision requires only a small number of state annotations to produce major coherence improvements (between 4-11%), showing that standard LMs can be sample-efficiently trained to model not just language but the situations it describes.
translated by 谷歌翻译
Finetuning language models on a collection of datasets phrased as instructions has been shown to improve model performance and generalization to unseen tasks. In this paper we explore instruction finetuning with a particular focus on (1) scaling the number of tasks, (2) scaling the model size, and (3) finetuning on chain-of-thought data. We find that instruction finetuning with the above aspects dramatically improves performance on a variety of model classes (PaLM, T5, U-PaLM), prompting setups (zero-shot, few-shot, CoT), and evaluation benchmarks (MMLU, BBH, TyDiQA, MGSM, open-ended generation). For instance, Flan-PaLM 540B instruction-finetuned on 1.8K tasks outperforms PALM 540B by a large margin (+9.4% on average). Flan-PaLM 540B achieves state-of-the-art performance on several benchmarks, such as 75.2% on five-shot MMLU. We also publicly release Flan-T5 checkpoints, which achieve strong few-shot performance even compared to much larger models, such as PaLM 62B. Overall, instruction finetuning is a general method for improving the performance and usability of pretrained language models.
translated by 谷歌翻译
We present a retrospective on the state of Embodied AI research. Our analysis focuses on 13 challenges presented at the Embodied AI Workshop at CVPR. These challenges are grouped into three themes: (1) visual navigation, (2) rearrangement, and (3) embodied vision-and-language. We discuss the dominant datasets within each theme, evaluation metrics for the challenges, and the performance of state-of-the-art models. We highlight commonalities between top approaches to the challenges and identify potential future directions for Embodied AI research.
translated by 谷歌翻译
对于工业规模的广告系统,对广告点击率(CTR)的预测是一个核心问题。广告点击构成了一类重要的用户参与,通常用作广告对用户有用的主要信号。此外,在每次点击收费的广告系统中,单击费用期望值直接输入价值估计。因此,对于大多数互联网广告公司而言,CTR模型开发是一项重大投资。此类问题的工程需要许多适合在线学习的机器学习(ML)技术,这些技术远远超出了传统的准确性改进,尤其是有关效率,可重复性,校准,信用归因。我们介绍了Google搜索广告CTR模型中部署的实用技术的案例研究。本文提供了一项行业案例研究,该研究强调了当前的ML研究的重要领域,并说明了如何评估有影响力的新ML方法并在大型工业环境中有用。
translated by 谷歌翻译
基于语音的在线服务的广泛采用提出了有关使用和共享数据的安全性和隐私问题。如果数据受到损害,攻击者可以利用用户语音绕过扬声器验证系统甚至模仿用户。为了减轻这种情况,我们提出了DEID-VC,这是一种演讲者的识别系统,将真实的演讲者转换为伪扬声器,从而从口头声音中删除或使依赖说话者的属性混淆。 DEID-VC的关键组件包括基于变量的自动编码器(VAE)的伪扬声器生成器(PSG)和在零摄像机设置下的语音转换自动编码器(AE)。在PSG的帮助下,DeID-VC可以在扬声器级别甚至在话语层面上分配独特的伪扬声器。此外,还添加了两个新颖的学习目标,以弥合训练和零声音转换的推理之间的差距。我们以单词错误率(WER)和相等的错误率(EER)以及三个主观指标介绍了我们的实验结果,以评估DEID-VC的生成输出。结果表明,与我们的基线相比,我们的方法显着提高了清晰度(低10%)和去识别效果(EER高5%)。代码和听力演示:https://github.com/a43992899/deid-vc
translated by 谷歌翻译
预测未来的世界事件是一项具有挑战性但有价值的任务。对气候,地缘政治冲突,大流行和经济指标的预测有助于塑造政策和决策。在这些领域中,专家人类的判断有助于最佳预测。鉴于语言建模的进步,这些预测可以自动化吗?为此,我们介绍了AutoCast,这是一个包含数千个预测问题和随附的新闻语料库的数据集。问题来自预测锦标赛,确保高质量,现实世界中的重要性和多样性。新闻语料库是按日期组织的,使我们能够精确模拟人类过去的预测(避免将来泄漏)的条件。我们的动机是由于数量级的预测数字的难度(例如,2022年的Covid-19的全球案例),我们还策划了Intervalqa,这是数值问题和校准的数值问题和指标的数据集。我们在预测任务上测试语言模型,并发现绩效远低于人类专家基线。但是,随着新闻语料库中相关信息的合并,绩效提高了绩效。总而言之,AutoCast对大型语言模型提出了一个新颖的挑战,并提高了性能可能会带来很大的实际收益。
translated by 谷歌翻译
深度学习(DL)技术已被广泛用于医学图像分类。大多数基于DL的分类网络通常是层次结构化的,并通过最小化网络末尾测量的单个损耗函数而进行了优化。但是,这种单一的损失设计可能会导致优化一个特定的感兴趣价值,但无法利用中间层的信息特征,这些特征可能会受益于分类性能并降低过度拟合的风险。最近,辅助卷积神经网络(AUXCNNS)已在传统分类网络之上采用,以促进中间层的培训,以提高分类性能和鲁棒性。在这项研究中,我们提出了一个基于对抗性学习的AUXCNN,以支持对医学图像分类的深神经网络的培训。我们的AUXCNN分类框架采用了两项主要创新。首先,所提出的AUXCNN体系结构包括图像发生器和图像鉴别器,用于为医学图像分类提取更多信息图像特征,这是由生成对抗网络(GAN)的概念及其在近似目标数据分布方面令人印象深刻的能力的动机。其次,混合损失函数旨在通过合并分类网络和AUXCNN的不同目标来指导模型训练,以减少过度拟合。全面的实验研究表明,提出的模型的分类表现出色。研究了与网络相关因素对分类性能的影响。
translated by 谷歌翻译
语言模型既展示了定量的改进,又展示了新的定性功能,随着规模的增加。尽管它们具有潜在的变革性影响,但这些新能力的特征却很差。为了为未来的研究提供信息,为破坏性的新模型能力做准备,并改善社会有害的效果,至关重要的是,我们必须了解目前和近乎未来的能力和语言模型的局限性。为了应对这一挑战,我们介绍了超越模仿游戏基准(Big Bench)。 Big Bench目前由204个任务组成,由132家机构的442位作者贡献。任务主题是多样的,从语言学,儿童发展,数学,常识性推理,生物学,物理学,社会偏见,软件开发等等。 Big-Bench专注于被认为超出当前语言模型的功能的任务。我们评估了OpenAI的GPT型号,Google内部密集变压器体系结构和大型基础上的开关稀疏变压器的行为,跨越了数百万到数十亿个参数。此外,一个人类专家评估者团队执行了所有任务,以提供强大的基准。研究结果包括:模型性能和校准都随规模改善,但绝对的术语(以及与评估者的性能相比);在模型类中的性能非常相似,尽管带有稀疏性。逐渐和预测的任务通常涉及大量知识或记忆成分,而在临界规模上表现出“突破性”行为的任务通常涉及多个步骤或组成部分或脆性指标;社交偏见通常会随着含糊不清的环境而随着规模而增加,但这可以通过提示来改善。
translated by 谷歌翻译
像汤普森采样等多武装强盗算法可用于进行自适应实验,其中最大化奖励意味着数据用于逐步为更多参与者分配更有效的武器。这些转让策略增加了统计假设试验的风险,鉴定武器之间的差异,当没有一个时,并且在真正是一个是一个时,武器的差异存在差异。我们为2臂实验仿真,探讨了两种算法,这些算法结合了统计分析的均匀随机化的益处,具有通过Thompson采样(TS)实现的奖励最大化的益处。首先,前两种汤普森采样增加了固定量的均匀随机分配(UR)随时间均匀传播。二,一种新的启发式算法,称为TS Postdiff(差异后概率)。 Ts Postdiff采用贝叶斯方法来混合TS和UR:使用UR分配分配参与者的概率是后部概率,即两个臂之间的差异是“小”(低于某个阈值),允许在存在时探索更多的探索很少或没有奖励获得。我们发现TS PostDiff方法跨多种效果大小进行良好,因此不需要根据真实效果大小的猜测进行调整。
translated by 谷歌翻译
当一个神经语言模型(LM)适于执行新任务时,任务的哪些方面预测了模型的最终性能?在NLP中,LM概括到个别示例的系统特征很好,但LM对新任务的系统的系统性方面并不理解。我们使用500个程序生成的序列建模任务构建的新基准测试,展示了LM适应性的特性和限制的大规模实证研究。这些任务组合了语言处理的核心方面,包括词汇语义,序列处理,记忆,逻辑推理和世界知识。使用TaskBench500,我们评估了三个适应性的方面,发现:(1)适应程序在他们记忆小型数据集的能力中急剧差异; (2)在任务类型的子集中,适应程序表现出对复杂任务的组成适应性; (3)未能匹配培训标签分布,在预测个别标签的内在难度中解释了不匹配。我们的实验表明,可以系统地描述和理解新的任务,如新示例的泛化,以及讨论可以使用新基准研究的适应性的其他方面的结论。
translated by 谷歌翻译