During image editing, existing deep generative models tend to re-synthesize the entire output from scratch, including the unedited regions. This leads to a significant waste of computation, especially for minor editing operations. In this work, we present Spatially Sparse Inference (SSI), a general-purpose technique that selectively performs computation for edited regions and accelerates various generative models, including both conditional GANs and diffusion models. Our key observation is that users tend to make gradual changes to the input image. This motivates us to cache and reuse the feature maps of the original image. Given an edited image, we sparsely apply the convolutional filters to the edited regions while reusing the cached features for the unedited regions. Based on our algorithm, we further propose Sparse Incremental Generative Engine (SIGE) to convert the computation reduction to latency reduction on off-the-shelf hardware. With 1.2%-area edited regions, our method reduces the computation of DDIM by 7.5$\times$ and GauGAN by 18$\times$ while preserving the visual fidelity. With SIGE, we accelerate the speed of DDIM by 3.0x on RTX 3090 and 6.6$\times$ on Apple M1 Pro CPU, and GauGAN by 4.2$\times$ on RTX 3090 and 14$\times$ on Apple M1 Pro CPU.
translated by 谷歌翻译
Classifier-free guided diffusion models have recently been shown to be highly effective at high-resolution image generation, and they have been widely used in large-scale diffusion frameworks including DALLE-2, Stable Diffusion and Imagen. However, a downside of classifier-free guided diffusion models is that they are computationally expensive at inference time since they require evaluating two diffusion models, a class-conditional model and an unconditional model, tens to hundreds of times. To deal with this limitation, we propose an approach to distilling classifier-free guided diffusion models into models that are fast to sample from: Given a pre-trained classifier-free guided model, we first learn a single model to match the output of the combined conditional and unconditional models, and then we progressively distill that model to a diffusion model that requires much fewer sampling steps. For standard diffusion models trained on the pixel-space, our approach is able to generate images visually comparable to that of the original model using as few as 4 sampling steps on ImageNet 64x64 and CIFAR-10, achieving FID/IS scores comparable to that of the original model while being up to 256 times faster to sample from. For diffusion models trained on the latent-space (e.g., Stable Diffusion), our approach is able to generate high-fidelity images using as few as 1 to 4 denoising steps, accelerating inference by at least 10-fold compared to existing methods on ImageNet 256x256 and LAION datasets. We further demonstrate the effectiveness of our approach on text-guided image editing and inpainting, where our distilled model is able to generate high-quality results using as few as 2-4 denoising steps.
translated by 谷歌翻译
使用通过组成可逆层获得的地图进行标准化模型复杂概率分布。特殊的线性层(例如蒙版和1x1卷积)在现有体系结构中起着关键作用,因为它们在具有可拖动的Jacobians和倒置的同时增加表达能力。我们提出了一个基于蝴蝶层的新的可逆线性层家族,理论上捕获复杂的线性结构,包括排列和周期性,但可以有效地倒置。这种代表力是我们方法的关键优势,因为这些结构在许多现实世界数据集中很常见。根据我们的可逆蝴蝶层,我们构建了一个新的称为蝴蝶流的归一化流量模型。从经验上讲,我们证明蝴蝶不仅可以在MNIST,CIFAR-10和Imagenet 32​​x32等自然图像上实现强密度估计结果,而且还可以在结构化数据集中获得明显更好的对数可能性,例如Galaxy图像和Mimic-III患者群体 - - 同时,在记忆和计算方面比相关基线更有效。
translated by 谷歌翻译
大型视力模型的无监督预训练方法已显示出可以提高下游监督任务的性能。为卫星图像开发类似的技术带来了重要的机会,因为未标记的数据很丰富,并且固有的时间和多光谱结构提供了途径,以进一步改善现有的训练策略。在本文中,我们提出了Satmae,这是基于蒙面自动编码器(MAE)的时间或多光谱卫星图像的预训练框架。为了利用时间信息,我们包括一个时间嵌入以及跨时间独立掩盖图像贴片。此外,我们证明将多光谱数据编码为具有不同光谱位置编码的频段组是有益的。我们的方法在基准数据集(最高$ \ uparrow $ 7 \%)上的监督学习绩效方面都对先前最先前的技术产生了强大的改进,以及在下游遥感任务(包括土地)上的转移学习绩效封面分类(最多$ \ uparrow $ 14 \%)和语义细分。
translated by 谷歌翻译
语言模型既展示了定量的改进,又展示了新的定性功能,随着规模的增加。尽管它们具有潜在的变革性影响,但这些新能力的特征却很差。为了为未来的研究提供信息,为破坏性的新模型能力做准备,并改善社会有害的效果,至关重要的是,我们必须了解目前和近乎未来的能力和语言模型的局限性。为了应对这一挑战,我们介绍了超越模仿游戏基准(Big Bench)。 Big Bench目前由204个任务组成,由132家机构的442位作者贡献。任务主题是多样的,从语言学,儿童发展,数学,常识性推理,生物学,物理学,社会偏见,软件开发等等。 Big-Bench专注于被认为超出当前语言模型的功能的任务。我们评估了OpenAI的GPT型号,Google内部密集变压器体系结构和大型基础上的开关稀疏变压器的行为,跨越了数百万到数十亿个参数。此外,一个人类专家评估者团队执行了所有任务,以提供强大的基准。研究结果包括:模型性能和校准都随规模改善,但绝对的术语(以及与评估者的性能相比);在模型类中的性能非常相似,尽管带有稀疏性。逐渐和预测的任务通常涉及大量知识或记忆成分,而在临界规模上表现出“突破性”行为的任务通常涉及多个步骤或组成部分或脆性指标;社交偏见通常会随着含糊不清的环境而随着规模而增加,但这可以通过提示来改善。
translated by 谷歌翻译
常见的图像到图像翻译方法依赖于来自源和目标域的数据的联合培训。这可以防止培训过程保留域数据的隐私(例如,在联合环境中),并且通常意味着必须对新模型进行新的模型。我们提出了双扩散隐式桥(DDIB),这是一种基于扩散模型的图像翻译方法,它绕过域对训练。带有DDIBS的图像翻译依赖于对每个域独立训练的两个扩散模型,并且是一个两步的过程:DDIB首先获得具有源扩散模型的源图像的潜在编码,然后使用目标模型来解码此类编码,以构造目标模型。这两个步骤均通过ODE定义,因此该过程仅与ODE求解器的离散误差有关。从理论上讲,我们将DDIB解释为潜在源的串联,而潜在的靶向Schr \” Odinger Bridges是一种熵调节的最佳运输形式,以解释该方法的功效。我们在实验上都应用了ddibs,在合成和高级和高位上应用DDIB分辨率图像数据集,以在各种翻译任务中演示其实用性及其与现有最佳传输方法的连接。
translated by 谷歌翻译
高分辨率卫星图像中的对象检测是在许多环境和社会经济监测应用中的地面调查数据收集中的可扩展替代品。然而,由于购买图像和计算的高成本,对大型地理位置的对象检测仍然可能会昂贵。灵感来自传统调查数据收集策略,我们提出了一种通过抽样估计对象计数统计数据的方法。鉴于成本预算,我们的方法通过从学习的提案分布中抽样选择少量代表性区域。使用重要性采样,我们能够在处理仅与详尽的方法相比仅在图像的一小部分图像后准确估计对象计数。我们凭经验表明,拟议的框架在估计美国和非洲的建筑物数量,肯尼亚的汽车数量,在孟加拉国的砖窑和美国的游泳池中达到了强大的表现,同时需要少于0.01%的卫星图像彻底的方法。
translated by 谷歌翻译
密度比估计(DRE)是一种用于比较两个概率分布的基本机器学习技术。然而,现有方法在高维设置中斗争,因为难以基于有限样本进行准确地比较概率分布。在这项工作中,我们提出了Dre-\ idty,一种分歧和征服方法来减少DRE到一系列更简单的子问题。灵感来自Monte Carlo方法,我们通过无限连续的中间桥接桥分布平稳地插入两种分布。然后,我们估计索引索引的桥接分布的瞬时变化率(“时间分数”) - 与数据(Stein)分数类似地定义的量 - 具有新的时间得分匹配目标。粗略地,然后可以集成学习的时间评分以计算所需的密度比。此外,我们表明,传统(Stein)得分可用于获得在分布中连接高密度区域,提高实践性能的集成路径。经验上,我们证明我们的方法在复杂的高维数据集上的相互信息估计和基于能量的建模等下游任务中表现出很好。
translated by 谷歌翻译
可以通过去噪得分匹配有效地估计数据密度的第一阶导数,并且已成为许多应用中的重要组成部分,例如图像生成和音频合成。高阶导数提供有关数据分发的其他本地信息并启用新应用程序。尽管可以通过自动分化估计学习密度模型,但这可以放大估计误差,并且在高维设置中昂贵。为了克服这些限制,我们提出了一种方法来直接从样本中直接估计数据密度的高阶导数(得分)。首先表明可以将去噪得分匹配作为Tweedie公式的特定情况解释。通过利用Tweedie在高阶时刻的公式,我们概括了去噪得分与估计高阶衍生物的匹配。我们经验证明,用所提出的方法训练的模型可以比通过自动分化更有效和准确地近似二阶衍生物。我们表明,我们的模型可用于量化去噪的不确定性,并通过Ozaki离散化来提高Langevin动力学的混合速度,以便采样合成数据和自然图像。
translated by 谷歌翻译
对联合国可持续发展目标的进展(SDGS)因关键环境和社会经济指标缺乏数据而受到阻碍,其中历史上有稀疏时间和空间覆盖率的地面调查。机器学习的最新进展使得可以利用丰富,频繁更新和全球可用的数据,例如卫星或社交媒体,以向SDGS提供洞察力。尽管有希望的早期结果,但到目前为止使用此类SDG测量数据的方法在很大程度上在不同的数据集或使用不一致的评估指标上进行了评估,使得难以理解的性能是改善,并且额外研究将是最丰富的。此外,处理卫星和地面调查数据需要域知识,其中许多机器学习群落缺乏。在本文中,我们介绍了3个SDG的3个基准任务的集合,包括与经济发展,农业,健康,教育,水和卫生,气候行动和陆地生命相关的任务。 15个任务中的11个数据集首次公开发布。我们为Acceptandbench的目标是(1)降低机器学习界的进入的障碍,以促进衡量和实现SDGS; (2)提供标准基准,用于评估各种SDG的任务的机器学习模型; (3)鼓励开发新颖的机器学习方法,改进的模型性能促进了对SDG的进展。
translated by 谷歌翻译