我们提出了一种用于在仅在解码器处作为侧面信息可用时压缩图像的新型神经网络(DNN)架构。该问题在信息理论中称为分布式源编码(DSC)。特别地,我们考虑一对立体图像,其由于视野的重叠场而通常彼此具有高相关,并且假设要压缩和发送该对的一个图像,而另一个图像仅在解码器。在所提出的架构中,编码器将输入图像映射到潜像,量化潜在表示,并使用熵编码压缩它。训练解码器以仅使用后者使用后者提取输入图像和相关图像之间的公共信息。接收的潜在表示和本地生成的公共信息通过解码器网络来获得增强的输入图像的增强重建。公共信息提供了ReceIver上相关信息的简洁表示。我们训练并展示所提出的方法对立体声图像对的拟议方法的有效性。我们的结果表明,该建筑的架构能够利用仅解码器的侧面信息,并且在使用解码器侧信息的情况下优于立体图像压缩的先前工作。
translated by 谷歌翻译
我们提出了一种与变压器的端到端图像压缩和分析模型,针对基于云的图像分类应用程序。代替将现有的变换器的图像分类模型直接放置在图像编解码器之后,我们的目的是重新设计视觉变换器(VIV)模型,以从压缩特征执行图像分类,并促进来自变压器的长期信息的图像压缩。具体而言,我们首先用由卷积神经网络建模的轻量级图像编码器更换vit模型的涂抹杆(即图像分裂和嵌入)。由图像编码器产生的压缩特征被注入卷积电感偏压,并被馈送到变压器,用于绕过图像重建。同时,我们提出了一种特征聚合模块,使压缩特征熔断具有变压器的所选中间特征,并将聚合特征馈送到用于图像重建的解卷积神经网络。聚合特征可以从变压器的自我关注机构获得长期信息,并提高压缩性能。速率 - 失真准确度优化问题最终通过两步培训策略解决。实验结果证明了所提出的模型在图像压缩和分类任务中的有效性。
translated by 谷歌翻译
在本文中,我们提出了一类新的高效的深源通道编码方法,可以在非线性变换下的源分布下,可以在名称非线性变换源通道编码(NTSCC)下收集。在所考虑的模型中,发射器首先了解非线性分析变换以将源数据映射到潜伏空间中,然后通过深关节源通道编码将潜在的表示发送到接收器。我们的模型在有效提取源语义特征并提供源通道编码的侧面信息之前,我们的模型包括强度。与现有的传统深度联合源通道编码方法不同,所提出的NTSCC基本上学习源潜像和熵模型,作为先前的潜在表示。因此,开发了新的自适应速率传输和高辅助辅助编解码器改进机制以升级深关节源通道编码。整个系统设计被制定为优化问题,其目标是最小化建立感知质量指标下的端到端传输率失真性能。在简单的示例源和测试图像源上,我们发现所提出的NTSCC传输方法通常优于使用标准的深关节源通道编码和基于经典分离的数字传输的模拟传输。值得注意的是,由于其剧烈的内容感知能力,所提出的NTSCC方法可能会支持未来的语义通信。
translated by 谷歌翻译
随着事物(AIOT)的发展,在我们的日常工作和生活中产生了大量的视觉数据,例如图像和视频。这些视觉数据不仅用于人类观察或理解,而且用于机器分析或决策,例如智能监控,自动化车辆和许多其他智能城市应用。为此,在这项工作中提出了一种用于人机和机器使用的新图像编解码器范例。首先,利用神经网络提取高级实例分割图和低级信号特征。然后,实例分割图还被表示为具有所提出的16位灰度表示的简档。之后,两个16位灰度曲线和信号特征都以无损编解码器编码。同时,设计和培训图像预测器以实现具有16位灰度曲线简曲和信号特征的一般质量图像重建。最后,使用用于高质量图像重建的有损编解码器来压缩原始图像和预测的剩余地图。通过这种设计,一方面,我们可以实现可扩展的图像压缩,以满足不同人类消费的要求;另一方面,我们可以通过解码的16位灰度分布配置,例如对象分类,检测和分割,直接在解码器侧直接实现多个机器视觉任务。实验结果表明,该建议的编解码器在PSNR和MS-SSIM方面实现了基于大多数基于学习的编解码器,并且优于传统编解码器(例如,BPG和JPEG2000)以进行图像重建。同时,它在对象检测和分割的映射方面优于现有的编解码器。
translated by 谷歌翻译
本文探讨了贝尔视觉变压器预训练的更好的码本。最近的工作成功地转移了从NLP到视野领域的BERT预训练。它直接采用一个简单的离散VAE作为视觉销售器,但尚未考虑由此产生的视觉令牌的语义水平。相比之下,NLP字段中的离散令牌是自然的高度语义。这种差异激励我们学习一个感知码本。我们惊奇地找到了一个简单而有效的想法:在DVAE训练期间强制执行感知相似性。我们证明,所提出的感知码本生成的视觉令牌确实表现出更好的语义含义,随后有助于预训练在各种下游任务中实现卓越的转移性能。例如,我们在Imagenet-1K上实现了84.5前1个精度,vit-B骨干,优于竞争方法Beit +1.3,具有相同的训练纪元。它还可以通过+1.3框AP和+1.0掩模AP,在ADE20K上的语义细分,在ADE20K上提高对象检测和分割任务的性能,+1.0 miou,代码和型号将在\ url {https:// github.com/microsoft/peco}。
translated by 谷歌翻译
视觉信号压缩是一个长期存在的问题。通过深度学习的最近进步,令人兴奋的进展已经推动。尽管压缩性能更好,但现有的端到端压缩算法仍然以速率失真优化而设计更好的信号质量。在本文中,我们表明,网络架构的设计和优化可以进一步改善压缩机器视觉。我们为机器视觉的端到端压缩的编码器提出了一种反转的瓶颈结构,这特别考虑了语义信息的有效表示。此外,我们通过将分析精度纳入优化过程来追求优化的能力,并且通过以迭代方式进一步探索具有广义速率准确优化的最优性。我们使用对象检测作为展示用于机器视觉的端到端压缩,并且广泛的实验表明,该方案在分析性能方面实现了显着的BD速率。此外,由于信号电平重建,还对其他机器视觉任务的强大泛化能力表明了该方案的承诺。
translated by 谷歌翻译
在近期深度图像压缩神经网络中,熵模型在估计深度图像编码的先前分配时起着重要作用。现有方法将HydupRior与熵估计功能中的本地上下文组合。由于没有全球愿景,这大大限制了他们的表现。在这项工作中,我们提出了一种新的全局参考模型,用于图像压缩,以有效地利用本地和全局上下文信息,导致增强的压缩率。所提出的方法扫描解码的潜伏,然后找到最相关的潜伏,以帮助分布估计当前潜伏。这项工作的副产品是一种平均转换GDN模块的创新,进一步提高了性能。实验结果表明,所提出的模型优于行业中大多数最先进方法的速率变形性能。
translated by 谷歌翻译
可扩展的编码,可以适应通道带宽变化,在当今复杂的网络环境中表现良好。然而,现有的可扩展压缩方法面临两个挑战:降低压缩性能和可扩展性不足。在本文中,我们提出了第一所学习的细粒度可扩展图像压缩模型(DeepFGS)来克服上述两个缺点。具体地,我们介绍一个特征分离骨干,将图像信息划分为基本和可伸缩的功能,然后通过信息重新排列策略通过通道重新分配特征通道。以这种方式,我们可以通过一次通过编码来生成连续可扩展的比特流。此外,我们重复使用解码器以降低DeepFGS的参数和计算复杂性。实验表明,我们的DeePFGS优于PSNR和MS-SSIM度量中的所有基于学习的可伸缩图像压缩模型和传统可伸缩图像编解码器。据我们所知,我们的DeePFGS是对学习的细粒度可扩展编码的首次探索,与基于学习的方法相比,实现了最优质的可扩展性。
translated by 谷歌翻译
我们提出了一种压缩具有隐式神经表示的全分辨率视频序列的方法。每个帧表示为映射坐标位置到像素值的神经网络。我们使用单独的隐式网络来调制坐标输入,从而实现帧之间的有效运动补偿。与一个小的残余网络一起,这允许我们有效地相对于前一帧压缩p帧。通过使用学习的整数量化存储网络权重,我们进一步降低了比特率。我们呼叫隐式像素流(IPF)的方法,提供了几种超简化的既定神经视频编解码器:它不需要接收器可以访问预先磨普的神经网络,不使用昂贵的内插基翘曲操作,而不是需要单独的培训数据集。我们展示了神经隐式压缩对图像和视频数据的可行性。
translated by 谷歌翻译
虽然昼夜投影(ERP)是存储全向图像(也称为360度图像)的方便形式,但它既不是等区别也不是共形的,因此与随后的视觉通信不友好。在图像压缩的背景下,ERP将过度采样和变形和靠近杆子的东西,使得感知上最佳的比特分配难以实现。在传统的360度图像压缩中,引入了诸如区域明智的包装和平铺表示的技术以减轻过采样问题,实现有限的成功。在本文中,我们首次尝试学习用于全向图像压缩的深度神经网络之一。我们首先描述参数伪压花表示作为常见的伪变性地图突起的概括。提出了一种计算上易贪婪的方法,以确定关于速率失真性能的新型代理目标的假阴压表示的(子) - 优化配置。然后,我们提出了假阴压卷曲的360度图像压缩。在参数表示的合理约束下,可以通过标准卷积与所谓的假阴压填充有效地实现假阴压卷积。为了展示我们想法的可行性,我们实现了一个端到端的360度图像压缩系统,由学习的假阴短表示,分析变换,非均匀量化器,合成变换和熵模型组成。实验结果为19,790美元$ 9,790 $全向图像表明,我们的方法始终如一的比竞争方法达到更好的速率失真性能。此外,对于所有比特率的所有图像,我们的方法的视觉质量显着提高。
translated by 谷歌翻译
最近隐含的神经表示(INRS)作为各种数据类型的新颖且有效的表现。到目前为止,事先工作主要集中在优化其重建性能。这项工作从新颖的角度来调查INRS,即作为图像压缩的工具。为此,我们提出了基于INR的第一综合压缩管线,包括量化,量化感知再培训和熵编码。使用INRS进行编码,即对数据示例的过度装备,通常是较慢的秩序。为缓解此缺点,我们基于MAML利用META学习初始化,以便在较少的渐变更新中达到编码,这也通常提高INR的速率失真性能。我们发现,我们对INR的源压缩方法非常优于类似的事先工作,具有专门针对图像专门设计的常见压缩算法,并将基于速率 - 失真自动分析器的差距缩小到最先进的学习方法。此外,我们提供了对我们希望促进这种新颖方法对图像压缩的未来研究的重要性的广泛消融研究。
translated by 谷歌翻译
这项工作解决了基于深度神经网络的端到端学习图像压缩(LIC)的两个主要问题:可变速率学习,其中需要单独的网络以不同的质量生成压缩图像,以及可微分近似之间的列车测试不匹配量化和真正的硬量化。我们介绍了LIC的在线元学习(OML)设置,将Meta学习和在线学习中的思想结合在条件变分自动编码器(CVAE)框架中。通过将条件变量视为元参数并将生成的条件特征视为元前沿,可以通过元参数控制所需的重建以适应变量质量的压缩。在线学习框架用于更新元参数,以便为当前图像自适应地调整条件重建。通过OML机制,可以通过SGD有效更新元参数。条件重建基于解码器网络中的量化潜在表示,因此有助于弥合训练估计与真正量化的潜在分布之间的间隙。实验表明,我们的OML方法可以灵活地应用于不同的最先进的LIC方法,以实现具有很少的计算和传输开销的额外性能改进。
translated by 谷歌翻译
为了提高图像压缩性能,最近的基于神经网络的基于神经网络的研究可以分为三类:学习编解码器,后处理网络和紧凑型表示网络。学习编解码器专为超出传统压缩模块而设计的端到端学习。后处理网络使用基于示例的学习增加解码图像的质量。学习紧凑的表示网络,以降低输入图像的容量,以减少比特率的同时保持解码图像的质量。然而,这些方法与现有的编解码器不兼容,或者不会最佳地增加编码效率。具体地,由于编解码器的不准确性,难以在先前的研究中实现最佳学习。在本文中,我们提出了一种基于辅助编解码器网络(ACN)的新颖的标准兼容图像压缩框架。 ACNS旨在模仿现有编解码器的图像劣化操作,这为紧凑型表示网络提供了更准确的梯度。因此,可以有效地和最佳地学习紧凑的表示和后处理网络。我们证明,我们基于JPEG和高效视频编码(HEVC)标准的建议框架基本上以标准的兼容方式大致优于现有的图像压缩算法。
translated by 谷歌翻译
基于神经网络的图像压缩已经过度研究。模型稳健性很大程度上被忽视,但它对服务能够实现至关重要。我们通过向原始源图像注入少量噪声扰动来执行对抗攻击,然后使用主要学习的图像压缩模型来编码这些对抗示例。实验报告对逆势实例的重建中的严重扭曲,揭示了现有方法的一般漏洞,无论用于底层压缩模型(例如,网络架构,丢失功能,质量标准)和用于注射扰动的优化策略(例如,噪声阈值,信号距离测量)。后来,我们应用迭代对抗的FineTuning来细化掠夺模型。在每次迭代中,将随机源图像和对抗示例混合以更新底层模型。结果通过大大提高压缩模型稳健性来表明提出的FineTuning策略的有效性。总体而言,我们的方法是简单,有效和更广泛的,使其具有开发稳健的学习图像压缩解决方案的吸引力。所有材料都在HTTPS://njuvision.github.io/trobustn中公开访问,以便可重复研究。
translated by 谷歌翻译
随着脑成像技术和机器学习工具的出现,很多努力都致力于构建计算模型来捕获人脑中的视觉信息的编码。最具挑战性的大脑解码任务之一是通过功能磁共振成像(FMRI)测量的脑活动的感知自然图像的精确重建。在这项工作中,我们调查了来自FMRI的自然图像重建的最新学习方法。我们在架构设计,基准数据集和评估指标方面检查这些方法,并在标准化评估指标上呈现公平的性能评估。最后,我们讨论了现有研究的优势和局限,并提出了潜在的未来方向。
translated by 谷歌翻译
标记数据通常昂贵且耗时,特别是对于诸如对象检测和实例分割之类的任务,这需要对图像的密集标签进行密集的标签。虽然几张拍摄对象检测是关于培训小说中的模型(看不见的)对象类具有很少的数据,但它仍然需要在许多标记的基础(见)类的课程上进行训练。另一方面,自我监督的方法旨在从未标记数据学习的学习表示,该数据转移到诸如物体检测的下游任务。结合几次射击和自我监督的物体检测是一个有前途的研究方向。在本调查中,我们审查并表征了几次射击和自我监督对象检测的最新方法。然后,我们给我们的主要外卖,并讨论未来的研究方向。https://gabrielhuang.github.io/fsod-survey/的项目页面
translated by 谷歌翻译
我们引入基于实例自适应学习的视频压缩算法。在要传输的每个视频序列上,我们介绍了预训练的压缩模型。最佳参数与潜在代码一起发送到接收器。通过熵编码在合适的混合模型下的参数更新,我们确保可以有效地编码网络参数。该实例自适应压缩算法对于基础模型的选择是不可知的,并且具有改进任何神经视频编解码器的可能性。在UVG,HEVC和XIPH数据集上,我们的CODEC通过21%至26%的BD速率节省,提高了低延迟尺度空间流量模型的性能,以及最先进的B帧模型17至20%的BD速率储蓄。我们还证明了实例 - 自适应FineTuning改善了域移位的鲁棒性。最后,我们的方法降低了压缩模型的容量要求。我们表明它即使在将网络大小减少72%之后也能实现最先进的性能。
translated by 谷歌翻译
使用卷积神经网络(CNN)已经显着改善了几种图像处理任务,例如图像分类和对象检测。与Reset和Abseralnet一样,许多架构在创建时至少在一个数据集中实现了出色的结果。培训的一个关键因素涉及网络的正规化,这可以防止结构过度装备。这项工作分析了在过去几年中开发的几种正规化方法,显示了不同CNN模型的显着改进。该作品分为三个主要区域:第一个称为“数据增强”,其中所有技术都侧重于执行输入数据的更改。第二个,命名为“内部更改”,旨在描述修改神经网络或内核生成的特征映射的过程。最后一个称为“标签”,涉及转换给定输入的标签。这项工作提出了与关于正则化的其他可用调查相比的两个主要差异:(i)第一个涉及在稿件中收集的论文并非超过五年,并第二个区别是关于可重复性,即所有作品此处推荐在公共存储库中可用的代码,或者它们已直接在某些框架中实现,例如Tensorflow或Torch。
translated by 谷歌翻译
通过将图像形成过程分解成逐个申请的去噪自身额,扩散模型(DMS)实现了最先进的合成导致图像数据和超越。另外,它们的配方允许引导机构来控制图像生成过程而不会再刷新。然而,由于这些模型通常在像素空间中直接操作,因此强大的DMS的优化通常消耗数百个GPU天,并且由于顺序评估,推理是昂贵的。为了在保留其质量和灵活性的同时启用有限计算资源的DM培训,我们将它们应用于强大的佩带自动化器的潜在空间。与以前的工作相比,这种代表上的培训扩散模型允许第一次达到复杂性降低和细节保存之间的近乎最佳点,极大地提高了视觉保真度。通过将跨关注层引入模型架构中,我们将扩散模型转化为强大而柔性的发电机,以进行诸如文本或边界盒和高分辨率合成的通用调节输入,以卷积方式变得可以实现。我们的潜在扩散模型(LDMS)实现了一种新的技术状态,可在各种任务中进行图像修复和高竞争性能,包括无条件图像生成,语义场景合成和超级分辨率,同时与基于像素的DMS相比显着降低计算要求。代码可在https://github.com/compvis/lattent-diffusion获得。
translated by 谷歌翻译
在本文中,我们通过变换量化压缩卷积神经网络(CNN)权重。以前的CNN量化技术倾向于忽略权重和激活的联合统计,以给定的量化比特率产生次优CNN性能,或者在训练期间考虑其关节统计,并且不促进已经训练的CNN模型的有效压缩。我们最佳地转换(去相关)并使用速率失真框架来量化训练后的权重,以改善任何给定的量化比特率的压缩。变换量化在单个框架中统一量化和维度减少(去相关性)技术,以促进CNN的低比特率压缩和变换域中的有效推断。我们首先介绍CNN量化的速率和失真理论,并将最佳量化呈现为速率失真优化问题。然后,我们表明,通过在本文中获得的最佳端到端学习变换(ELT),可以使用最佳位深度分配来解决此问题。实验表明,变换量化在雷则和非烫伤量化方案中推进了CNN压缩中的技术状态。特别是,我们发现使用再培训的转换量化能够压缩CNN模型,例如AlexNet,Reset和DenSenet,以非常低的比特率(1-2比特)。
translated by 谷歌翻译