We introduce M-VADER: a diffusion model (DM) for image generation where the output can be specified using arbitrary combinations of images and text. We show how M-VADER enables the generation of images specified using combinations of image and text, and combinations of multiple images. Previously, a number of successful DM image generation algorithms have been introduced that make it possible to specify the output image using a text prompt. Inspired by the success of those models, and led by the notion that language was already developed to describe the elements of visual contexts that humans find most important, we introduce an embedding model closely related to a vision-language model. Specifically, we introduce the embedding model S-MAGMA: a 13 billion parameter multimodal decoder combining components from an autoregressive vision-language model MAGMA and biases finetuned for semantic search.
translated by 谷歌翻译
Finetuning language models on a collection of datasets phrased as instructions has been shown to improve model performance and generalization to unseen tasks. In this paper we explore instruction finetuning with a particular focus on (1) scaling the number of tasks, (2) scaling the model size, and (3) finetuning on chain-of-thought data. We find that instruction finetuning with the above aspects dramatically improves performance on a variety of model classes (PaLM, T5, U-PaLM), prompting setups (zero-shot, few-shot, CoT), and evaluation benchmarks (MMLU, BBH, TyDiQA, MGSM, open-ended generation). For instance, Flan-PaLM 540B instruction-finetuned on 1.8K tasks outperforms PALM 540B by a large margin (+9.4% on average). Flan-PaLM 540B achieves state-of-the-art performance on several benchmarks, such as 75.2% on five-shot MMLU. We also publicly release Flan-T5 checkpoints, which achieve strong few-shot performance even compared to much larger models, such as PaLM 62B. Overall, instruction finetuning is a general method for improving the performance and usability of pretrained language models.
translated by 谷歌翻译
语言模型既展示了定量的改进,又展示了新的定性功能,随着规模的增加。尽管它们具有潜在的变革性影响,但这些新能力的特征却很差。为了为未来的研究提供信息,为破坏性的新模型能力做准备,并改善社会有害的效果,至关重要的是,我们必须了解目前和近乎未来的能力和语言模型的局限性。为了应对这一挑战,我们介绍了超越模仿游戏基准(Big Bench)。 Big Bench目前由204个任务组成,由132家机构的442位作者贡献。任务主题是多样的,从语言学,儿童发展,数学,常识性推理,生物学,物理学,社会偏见,软件开发等等。 Big-Bench专注于被认为超出当前语言模型的功能的任务。我们评估了OpenAI的GPT型号,Google内部密集变压器体系结构和大型基础上的开关稀疏变压器的行为,跨越了数百万到数十亿个参数。此外,一个人类专家评估者团队执行了所有任务,以提供强大的基准。研究结果包括:模型性能和校准都随规模改善,但绝对的术语(以及与评估者的性能相比);在模型类中的性能非常相似,尽管带有稀疏性。逐渐和预测的任务通常涉及大量知识或记忆成分,而在临界规模上表现出“突破性”行为的任务通常涉及多个步骤或组成部分或脆性指标;社交偏见通常会随着含糊不清的环境而随着规模而增加,但这可以通过提示来改善。
translated by 谷歌翻译
大型语言模型已被证明可以使用少量学习来实现各种自然语言任务的出色表现,这大大减少了将模型调整到特定应用程序所需的特定任务培训示例的数量。为了进一步了解量表对少量学习的影响,我们培训了一个5400亿个参数,密集激活的变压器语言模型,我们称之为“途径”语言模型棕榈。我们使用Pathways在6144 TPU V4芯片上训练了Palm,这是一种新的ML系统,可在多个TPU POD上进行高效的训练。我们通过在数百种语言理解和产生基准的基准方面实现最先进的学习结果来证明扩展的持续好处。在这些任务中,Palm 540B实现了突破性的表现,在一系列多步推理任务上表现出色,超过了最新的最新表现,并且在最近发布的Big Benchmark上表现优于平均人类表现。大量的大型基础任务显示出与模型量表的不连续改进,这意味着当我们扩展到最大模型时,性能急剧增加。 Palm在多语言任务和源代码生成方面也具有很强的功能,我们在各种基准测试中证明了这一点。我们还提供了有关偏见和毒性的全面分析,并研究了训练数据记忆的程度,相对于模型量表。最后,我们讨论与大语言模型有关的道德考虑,并讨论潜在的缓解策略。
translated by 谷歌翻译
在学习动作识别中,模型通常预先接受对象识别,例如图像,例如想象成,稍后在与视频的目标动作识别上微调。这种方法造成了良好的经验性能,特别是最近的基于变压器的视频架构。虽然最近许多作品旨在为行动识别设计更先进的变压器架构,但如何训练视频变压器的努力。在这项工作中,我们探索了几种培训范式并提出了两个结果。首先,视频变压器受益于各种视频数据集和标签空间的联合培训(例如,动力学是关注的,而某些东西是以运动为中心的)。其次,通过进一步与图像共同训练(作为单帧视频),视频变换器学习更好的视频表示。我们将这种方法作为用于行动识别的共同培训视频和图像(封面)。特别是,当基于时序形式的架构上的ImageNet-21k上掠夺时,盖子将动力学-400的前1个精度提高2.4%,动力学-600以2.3%,有些东西-V2达2.3%。当以前最先进的较大刻度图像数据集预先磨削时,覆盖覆盖在动力学-400(87.2%),动力学-600(87.9%),动力学-700(79.8%),有些内容达到最佳结果(70.9%),和时刻 - 时间(46.1%),具有简单的时空视频变压器。
translated by 谷歌翻译
具有更多数据,计算和参数的缩放语言模型在自然语言处理方面取得了重大进展。例如,由于缩放,GPT-3能够在内心学习任务上实现强烈结果。但是,培训这些大密度模型需要大量的计算资源。在本文中,我们提出并开发了名为Glam(通用语言模型)的语言模型系列,它使用稀疏激活的专家架构来规模模型容量,同时与致密变体相比,也产生显着更少的训练成本。最大的Glam具有1.2万亿参数,比GPT-3大约为7倍。它仅消耗了用于训练GPT-3的1/3的能量,并且需要一半的计算拖鞋进行推理,同时仍然在29个NLP任务中实现更好的整体零射击和一次性性能。
translated by 谷歌翻译
对不利环境中的行人无处不在的定位服务了很长的挑战。尽管深入学习的戏剧性进展,但多传感器深度测量系统却带来了高计算成本并随着时间的推移遭受累积漂移的错误。由于边缘设备的计算能力越来越多,我们通过在边缘与EKF(扩展卡尔曼滤波器) - 欧拉后端集成了最新的深径测量模型,提出了一种新的无处不在的定位解决方案。我们仔细比较并选择三个传感器模式,即惯性测量单元(IMU),毫米波(MMWAVE)雷达和热红外摄像机,并实现实时运行的深度内径推理引擎。提出了考虑精度,复杂性和边缘平台的深度径流的管道。我们设计一个Lora链接,用于定位数据回程,并将深度内径仪的聚合位置投影到全局框架中。我们发现简单的基于EKF的融合模块足以用于通用定位校准,具有超过34%的精度增长,针对任何独立的深径测量系统。不同环境的广泛测试验证了我们所提出的定位系统的效率和功效。
translated by 谷歌翻译
基于RF信号的方向查找和定位系统因多径传播而受到显着影响,特别是在室内环境中。现有算法(例如音乐)在多径存在的情况下解决到达角度(AOA)或在弱信号方案中操作时表现不佳。我们注意到数字采样的RF前端允许轻松分析信号和延迟组件。低成本软件定义的无线电(SDR)模块使能跨宽频谱的通道状态信息(CSI)提取,激励增强的到达角度(AOA)解决方案的设计。我们提出了一种深入的学习方法,可以从SDR多通道数据的单一快照派生AOA。我们比较和对比基于深度学习的角度分类和回归模型,准确地估计最多两个AOA。我们已经在不同平台上实施了推理引擎,实时提取了AOA,展示了我们方法的计算途径。为了证明我们的方法的效用,我们在各种视角(LOS)和非线视线中收集了来自四元通用线性阵列(ULA)的IQ(同步和正交组件)样本( NLOS)环境,并发布了数据集。我们所提出的方法在确定撞击信号的数量并实现平均值为2 ^ {\ rIC} $ 2 ^ {\ cird} $时,我们提出的方法展示了出色的可靠性。
translated by 谷歌翻译
本文探讨了提高语言模型的零次学习能力的简单方法。我们表明,指令调整 - 通过对说明书中所述的任务集合微调语言模型 - 大幅提升零射门上看不见任务中的表现。我们采取预训练的语言模型和指令调整它通过自然语言指令模板语言表达了60NLP任务137B参数。我们评估这种指令调整模型,我们称之为FLAN,在看不见的任务类型。FLAN显着改善其未修饰的对应的性能和超过25的20个任务,我们评估零射门175BGPT-3。FLAN甚至GPT-3通过在安利,RTE,BoolQ,AI2-ARC,OpenbookQA和StoryCloze大比分胜过几拍。消融研究显示任务和模型的规模,这个数字是指令调整取得成功的关键组成部分。
translated by 谷歌翻译
对策培训提供了一种规范的监督学习算法的方法,而虚拟对手训练能够将监督的学习算法扩展到半监督设置。然而,两种方法都需要对输入向量的许多条目进行小扰动,这是不适合稀疏的高维输入,例如单个热词表示。我们通过将扰动应用于经常性神经网络中的单词嵌入而不是原始输入本身来扩展对文本领域的对抗和虚拟对抗训练。所提出的方法实现了最新的状态,导致多个基准半监督和纯粹监督任务。我们提供可视化和分析,表明学习的单词嵌入品质的质量有所提高,而且训练时,该模型易于过度装备。代码可在https://github.com/tensorflow/models/tree/master/research/addersarial_text中获得。
translated by 谷歌翻译