Large language models (LLMs) have been shown to be able to perform new tasks based on a few demonstrations or natural language instructions. While these capabilities have led to widespread adoption, most LLMs are developed by resource-rich organizations and are frequently kept from the public. As a step towards democratizing this powerful technology, we present BLOOM, a 176B-parameter open-access language model designed and built thanks to a collaboration of hundreds of researchers. BLOOM is a decoder-only Transformer language model that was trained on the ROOTS corpus, a dataset comprising hundreds of sources in 46 natural and 13 programming languages (59 in total). We find that BLOOM achieves competitive performance on a wide variety of benchmarks, with stronger results after undergoing multitask prompted finetuning. To facilitate future research and applications using LLMs, we publicly release our models and code under the Responsible AI License.
translated by 谷歌翻译
Video super-resolution is one of the most popular tasks on mobile devices, being widely used for an automatic improvement of low-bitrate and low-resolution video streams. While numerous solutions have been proposed for this problem, they are usually quite computationally demanding, demonstrating low FPS rates and power efficiency on mobile devices. In this Mobile AI challenge, we address this problem and propose the participants to design an end-to-end real-time video super-resolution solution for mobile NPUs optimized for low energy consumption. The participants were provided with the REDS training dataset containing video sequences for a 4X video upscaling task. The runtime and power efficiency of all models was evaluated on the powerful MediaTek Dimensity 9000 platform with a dedicated AI processing unit capable of accelerating floating-point and quantized neural networks. All proposed solutions are fully compatible with the above NPU, demonstrating an up to 500 FPS rate and 0.2 [Watt / 30 FPS] power consumption. A detailed description of all models developed in the challenge is provided in this paper.
translated by 谷歌翻译
尽管将进化计算整合到增强学习中的新进展,但缺乏高性能平台可赋予合成性和大规模的并行性,这对与异步商业游戏相关的研究和应用造成了非平凡的困难。在这里,我们介绍了Lamarckian-一个开源平台,其支持进化增强学习可扩展到分布式计算资源的支持。为了提高训练速度和数据效率,拉马克人采用了优化的通信方法和异步进化增强学习工作流程。为了满足商业游戏和各种方法对异步界面的需求,Lamarckian量身定制了异步的马尔可夫决策过程界面,并设计了带有脱钩模块的面向对象的软件体系结构。与最先进的RLLIB相比,我们从经验上证明了Lamarckian在基准测试中具有多达6000 CPU核心的独特优势:i)i)在Google足球游戏上运行PPO时,采样效率和训练速度都翻了一番; ii)在乒乓球比赛中运行PBT+PPO时,训练速度的速度快13倍。此外,我们还提出了两种用例:i)如何将拉马克安应用于生成行为多样性游戏AI; ii)Lamarckian如何应用于游戏平衡测试的异步商业游戏。
translated by 谷歌翻译
深度神经网络中的建筑进步导致了跨越一系列计算机视觉任务的巨大飞跃。神经建筑搜索(NAS)并没有依靠人类的专业知识,而是成为自动化建筑设计的有前途的途径。尽管图像分类的最新成就提出了机会,但NAS的承诺尚未对更具挑战性的语义细分任务进行彻底评估。将NAS应用于语义分割的主要挑战来自两个方面:(i)要处理的高分辨率图像; (ii)针对自动驾驶等应用的实时推理速度(即实时语义细分)的其他要求。为了应对此类挑战,我们在本文中提出了一种替代辅助的多目标方法。通过一系列自定义预测模型,我们的方法有效地将原始的NAS任务转换为普通的多目标优化问题。然后是用于填充选择的层次预筛选标准,我们的方法逐渐实现了一组有效的体系结构在细分精度和推理速度之间进行交易。对三个基准数据集的经验评估以及使用华为地图集200 dk的应用程序的实证评估表明,我们的方法可以识别架构明显优于人类专家手动设计和通过其他NAS方法自动设计的现有最先进的体系结构。
translated by 谷歌翻译
网络体系结构设计的持续进步导致了各种具有挑战性的计算机视觉任务的深入学习取得的显着成就。同时,神经体系结构搜索(NAS)的开发提供了有前途的方法来自动化网络体系结构的设计,从而获得较低的预测错误。最近,深入学习的新兴应用程序方案提高了考虑多个设计标准的网络体系结构的更高需求:参数/浮点操作的数量以及推理延迟等。从优化的角度来看,涉及多个设计标准的NAS任务是本质上多目标优化问题。因此,采用进化的多目标优化(EMO)算法来解决它们是合理的。尽管如此,仍然存在一个明显的差距,将相关研究沿着这一途径限制:一方面,从优化的角度出发,缺乏NAS任务的一般问题。另一方面,在NAS任务上对EMO算法进行基准评估存在挑战。弥合差距:(i)我们将NAS任务制定为一般的多目标优化问题,并从优化的角度分析复杂特征; (ii)我们提出了一条端到端管道,称为$ \ texttt {evoxbench} $,以生成Emo算法的基准测试问题,以有效运行 - 无需GPU或Pytorch/tensorflow; (iii)我们实例化了两个测试套件,全面涵盖了两个数据集,七个搜索空间和三个硬件设备,最多涉及八个目标。基于上述内容,我们使用六种代表性的EMO算法验证了提出的测试套件,并提供了一些经验分析。 $ \ texttt {evoxBench} $的代码可从$ \ href {https://github.com/emi-group/evoxbench} {\ rm {there}} $。
translated by 谷歌翻译
已经发现深层神经网络容易受到对抗攻击的影响,从而引起了对安全敏感的环境的潜在关注。为了解决这个问题,最近的研究从建筑的角度研究了深神经网络的对抗性鲁棒性。但是,搜索深神经网络的体系结构在计算上是昂贵的,尤其是当与对抗性训练过程相结合时。为了应对上述挑战,本文提出了双重主体神经体系结构搜索方法。首先,我们制定了NAS问题,以增强深度神经网络的对抗性鲁棒性为多目标优化问题。具体而言,除了低保真绩效预测器作为第一个目标外,我们还利用辅助目标 - 其值是经过高保真评估训练的替代模型的输出。其次,我们通过结合三种性能估计方法,即参数共享,低保真评估和基于替代的预测指标来降低计算成本。在CIFAR-10,CIFAR-100和SVHN数据集上进行的广泛实验证实了所提出的方法的有效性。
translated by 谷歌翻译
通用事件边界字幕(GEBC)旨在生成三个句子,描述给定时间边界的状态更改。以前的方法仅处理一次单个边界的信息,该信息缺乏视频上下文信息的利用。为了解决此问题,我们设计了一个直接将整个视频作为输入的模型,并为各个边界提供标题。该模型可以通过对边界边界建模来了解每个时间边界的上下文信息。实验证明了上下文信息的有效性。所提出的方法在测试集上达到了72.84分数,我们在此挑战中达到了$ 2^{nd} $。我们的代码可在:\ url {https://github.com/zjr2000/context-gebc}中获得。
translated by 谷歌翻译
现有视觉语言预训练(VLP)方法主要依赖于配对的图像文本数据集,这些数据集由大量人类劳动注释,或者从互联网上爬行,然后是精心制作的数据清洁技术。为了减少对良好的图像文本对的依赖,有望直接利用仅大规模的仅文本和仅图像的语料库。本文提出了一种数据增强方法,即跨模式cutmix(CMC),用于在未配对的VLP中进行隐式跨模式对齐学习。具体而言,CMC将自然句子从文本视图转换为多模式视图,在该视图中,句子中的视觉词语单词被带有相似语义的各种图像贴片随机替换。拟议中的CMC有几个吸引人的礼节。首先,它增强了数据多样性,同时保持语义含义完好无损地解决了对齐数据稀缺的问题;其次,通过将跨模式噪声连接到单模式数据上,它指导模型以学习跨模态的令牌级相互作用,以更好地降级。此外,我们提出了一种名为VLMIXER的新的未配对VLP方法,该方法将CMC与对比度学习集成在一起,以将Uni-Mododal和多模式视图汇总在一起,以在不同模式之间进行更好的实例级别对齐。在五个下游任务上进行的广泛实验表明,VLMIXER可以超过以前最先进的未配对VLP方法。
translated by 谷歌翻译
近年来,目睹了直接建立在点云上的学识渊博的代表。尽管变得越来越表现力,但大多数现有的表示仍然很难产生有序的点集。受到球形多视图扫描仪的启发,我们提出了一种称为Spotlights的新型采样模型,代表3D形状作为深度值的紧凑型1D阵列。它模拟了均匀分布在球体上的摄像机的配置,在该球体上,每个虚拟摄像机都会通过小同心球形盖上的样品点从主要点施放光线,以探测可能与球体包围的物体的相交。因此,结构化点云被隐式地作为深度的函数。我们提供了该新样本方案的详细几何分析,并在点云完成任务的背景下证明了其有效性。合成数据和真实数据的实验结果表明,我们的方法可以达到竞争精度和一致性,同时显着降低了计算成本。此外,我们在下游点云注册任务上显示出优于最新完成方法的性能。
translated by 谷歌翻译
直接使用现有的文本生成数据集进行可控生成时,我们面临的问题是没有域知识,因此可以控制的方面受到限制。一个典型的示例是,当使用CNN/Daily Mail数据集用于可控文本摘要时,没有关于摘要句子的重点的指导信息。更有用的文本生成器应利用输入文本和控制信号来指导生成,只能在对域知识的深入了解中构建。在这个愿景的激励下,我们的论文介绍了一个名为Mred的新文本生成数据集。我们的新数据集由7,089个元评论组成,其所有45k元评论句子都用9个精心定义的类别之一手动注释,包括抽象,力量,决策等。我们介绍了对开始的实验结果摘要模型,并提出了使用我们的带注释数据的方法对结构控制生成的方法。通过探索各种设置并分析模型行为相对于控制信号,我们证明了我们提出的任务的挑战以及数据集MRD的值。同时,MRD还使我们能够更好地了解元评论域。
translated by 谷歌翻译