In contrast to fully supervised methods using pixel-wise mask labels, box-supervised instance segmentation takes advantage of simple box annotations, which has recently attracted increasing research attention. This paper presents a novel single-shot instance segmentation approach, namely Box2Mask, which integrates the classical level-set evolution model into deep neural network learning to achieve accurate mask prediction with only bounding box supervision. Specifically, both the input image and its deep features are employed to evolve the level-set curves implicitly, and a local consistency module based on a pixel affinity kernel is used to mine the local context and spatial relations. Two types of single-stage frameworks, i.e., CNN-based and transformer-based frameworks, are developed to empower the level-set evolution for box-supervised instance segmentation, and each framework consists of three essential components: instance-aware decoder, box-level matching assignment and level-set evolution. By minimizing the level-set energy function, the mask map of each instance can be iteratively optimized within its bounding box annotation. The experimental results on five challenging testbeds, covering general scenes, remote sensing, medical and scene text images, demonstrate the outstanding performance of our proposed Box2Mask approach for box-supervised instance segmentation. In particular, with the Swin-Transformer large backbone, our Box2Mask obtains 42.4% mask AP on COCO, which is on par with the recently developed fully mask-supervised methods. The code is available at: https://github.com/LiWentomng/boxlevelset.
translated by 谷歌翻译
Improving the visual quality of the given degraded observation by correcting exposure level is a fundamental task in the computer vision community. Existing works commonly lack adaptability towards unknown scenes because of the data-driven patterns (deep networks) and limited regularization (traditional optimization), and they usually need time-consuming inference. These two points heavily limit their practicability. In this paper, we establish a Practical Exposure Corrector (PEC) that assembles the characteristics of efficiency and performance. To be concrete, we rethink the exposure correction to provide a linear solution with exposure-sensitive compensation. Around generating the compensation, we introduce an exposure adversarial function as the key engine to fully extract valuable information from the observation. By applying the defined function, we construct a segmented shrinkage iterative scheme to generate the desired compensation. Its shrinkage nature supplies powerful support for algorithmic stability and robustness. Extensive experimental evaluations fully reveal the superiority of our proposed PEC. The code is available at https://rsliu.tech/PEC.
translated by 谷歌翻译
最近,优化衍生的学习(ODL)吸引了学习和视觉领域的关注,该学习和视觉领域从优化的角度设计了学习模型。但是,以前的ODL方法将训练和超训练程序视为两个分离的阶段,这意味着在训练过程中必须固定超训练变量,因此也不可能同时获得训练和超级培训的收敛性训练变量。在这项工作中,我们将基于定点迭代的广义Krasnoselkii-Mann(GKM)计划设计为我们的基本ODL模块,该模块将现有的ODL方法统一为特殊情况。在GKM方案下,构建了双级元优化(BMO)算法框架,以共同解决最佳训练和超训练变量。我们严格地证明了训练定点迭代的基本关节融合以及优化超训练的超训练的过程,无论是在近似质量方面还是在固定分析上。实验证明了BMO在稀疏编码和现实世界中的竞争性能的效率,例如图像反卷积和降雨的删除。
translated by 谷歌翻译
可变形图像注册在医学图像分析的各种任务中起着至关重要的作用。从常规能源优化或深层网络中得出的成功的注册算法需要从计算机专家那里进行巨大努力来井设计注册能源,或者仔细调整特定类型的医疗数据类型的网络架构。为了解决上述问题,本文提出了一种自动学习注册算法(Autoreg),该算法(Autoreg)合作优化了建筑及其相应的培训目标,使非计算机专家,例如医疗/临床用户,以方便地查找现有的注册各种情况的算法。具体而言,我们建立了一个三级框架,以自动搜索机制和合作优化来推导注册网络体系结构和目标。我们对多站点卷数据集和各种注册任务进行图像注册实验。广泛的结果表明,我们的自动化可能会自动学习给定量的最佳深度注册网络并实现最先进的性能,也比主流UNET体系结构显着提高了计算效率(从0.558到0.558至0.270秒,对于3D图像对相同的配置)。
translated by 谷歌翻译
增强低光图像的质量在许多图像处理和多媒体应用中起着非常重要的作用。近年来,已经开发出各种深入的学习技术来解决这一具有挑战性的任务。典型的框架是同时估计照明和反射率,但它们忽略了在特征空间中封装的场景级上下文信息,从而导致许多不利的结果,例如,细节损失,颜色不饱和,工件等。为了解决这些问题,我们开发了一个新的上下文敏感的分解网络架构,用于利用空间尺度上的场景级上下文依赖项。更具体地说,我们构建了一种双流估计机制,包括反射率和照明估计网络。我们设计一种新的上下文敏感的分解连接来通过结合物理原理来桥接双流机制。进一步构建了空间改变的照明引导,用于实现照明组件的边缘感知平滑性特性。根据不同的培训模式,我们构建CSDNet(配对监督)和CSDGAN(UNS满分监督),以充分评估我们设计的架构。我们在七个测试基准测试中测试我们的方法,以进行大量的分析和评估的实验。由于我们设计的上下文敏感的分解连接,我们成功实现了出色的增强结果,这完全表明我们对现有最先进的方法的优势。最后,考虑到高效的实际需求,我们通过减少通道数来开发轻量级CSDNet(命名为LiteCsdnet)。此外,通过为这两个组件共享编码器,我们获得更轻量级的版本(短路SLITECSDNET)。 SLITECSDNET只包含0.0301M参数,但达到与CSDNET几乎相同的性能。
translated by 谷歌翻译
从低光场景捕获的图像经常遭受严重的降级,包括低可视性,颜色铸造和密集的声音等。这些因素不仅影响图像质量,还会降低下游低光视图(LLV)应用的性能。已经提出了各种深度学习方法来提高低光图像的视觉质量。然而,这些方法主要依赖于重要的建筑工程来获得适当的低光模型,并且经常遭受高计算负担。此外,扩展这些增强技术以处理其他LLV仍然具有挑战性。为了部分地解决上述问题,我们建立了与架构搜索(Ruas)的RetineX-Inspired展开,一般学习框架,这不仅可以解决低光增强任务,而且还具有处理其他更具挑战性下游视觉应用的灵活性。具体而言,我们首先与展开策略建立嵌套优化制定,探索一系列LLV任务的基础原则。此外,我们构建一个可差的策略,以协同搜索RuAs的特定场景和任务架构。最后但并非最不重要的是,我们展示了如何为低级和高级LLV应用程序应用RuAs(例如,增强,检测和分割)。广泛的实验验证了Ruas的灵活性,有效性和效率。
translated by 谷歌翻译
视频受害是户外视觉系统的重要问题,并已广泛调查。但是,通过聚合模型形成和数据分布设计最佳架构是用于视频受管的具有挑战性的任务。在本文中,我们开发了一种模型引导的三级优化框架,推断了具有协作优化和自动搜索机制的网络架构,名为三级模型推断出协作搜索(TMICS),用于处理各种视频雨水。特别是,为了减轻现有方法无法涵盖各种雨条纹分布的问题,我们首先设计关于任务变量和超参数的超参数优化模型。基于所提出的优化模型,我们设计了一种用于视频的协作结构。该结构包括主导网络架构(DNA)和伴侣网络架构(CNA),其通过引入基于注意力的平均方案(AAS)来协作。为了更好地探索来自视频的帧间信息,我们介绍了一种从光学流模块(OFM)和时间分组模块(TGM)搜索的宏观结构搜索方案,以帮助恢复潜在帧。此外,我们应用了从一块紧凑的候选任务操作集搜索的可分散的神经结构,以便自动发现理想的雨条纹架构。关于各种数据集的广泛实验表明,我们的模型显示了最先进的作品的保真度和时间一致性的显着改善。源代码可在https://github.com/vis-opt-group/tmics中获得。
translated by 谷歌翻译
许多最近的作品通过基于参数模型聚集了相同的身份的形状参数并将不同人的形状参数聚集在一起(例如,3D可变模型(3DMMS))来重建独特的3D面形状。然而,尽管使用这些形状参数的面部识别任务中的高精度,但是从那些参数重建的面部形状的视觉辨别是不令人满意的。以下研究尚未回答以下研究问题:做差异的形状参数保证所代表的3D面形状的视觉歧视吗?本文分析了形状参数与重建形状几何之间的关系,提出了一种新颖的形状相同感知正则化(SIR)损耗的形状参数,旨在增加形状参数和形状几何域中的辨别性。此外,为了应对包含地标和身份注释的缺乏培训数据,我们提出了一种网络结构和相关的培训策略,以利用包含身份或地标标签的混合数据。我们将我们的方法与现有方法进行比较重建误差,视觉区分性和形状参数的面部识别准确性。实验结果表明,我们的方法优于最先进的方法。
translated by 谷歌翻译
近年来,已经开发出各种基于梯度的方法来解决机器学习和计算机视觉地区的双层优化(BLO)问题。然而,这些现有方法的理论正确性和实际有效性总是依赖于某些限制性条件(例如,下层单身,LLS),这在现实世界中可能很难满足。此外,以前的文献仅证明了基于其特定的迭代策略的理论结果,因此缺乏一般的配方,以统一分析不同梯度的BLO的收敛行为。在这项工作中,我们从乐观的双级视点制定BLOS,并建立一个名为Bi-Level血液血统聚合(BDA)的新梯度的算法框架,以部分地解决上述问题。具体而言,BDA提供模块化结构,以分级地聚合上层和下层子问题以生成我们的双级迭代动态。从理论上讲,我们建立了一般会聚分析模板,并导出了一种新的证据方法,以研究基于梯度的BLO方法的基本理论特性。此外,这项工作系统地探讨了BDA在不同优化场景中的收敛行为,即,考虑从解决近似子问题返回的各种解决方案质量(即,全局/本地/静止解决方案)。广泛的实验证明了我们的理论结果,并展示了所提出的超参数优化和元学习任务算法的优越性。源代码可在https://github.com/vis-opt-group/bda中获得。
translated by 谷歌翻译
深度学习已被广​​泛用于医学图像分割,并且录制了录制了该领域深度学习的成功的大量论文。在本文中,我们使用深层学习技术对医学图像分割的全面主题调查。本文进行了两个原创贡献。首先,与传统调查相比,直接将深度学习的文献分成医学图像分割的文学,并为每组详细介绍了文献,我们根据从粗略到精细的多级结构分类目前流行的文献。其次,本文侧重于监督和弱监督的学习方法,而不包括无监督的方法,因为它们在许多旧调查中引入而且他们目前不受欢迎。对于监督学习方法,我们分析了三个方面的文献:骨干网络的选择,网络块的设计,以及损耗功能的改进。对于虚弱的学习方法,我们根据数据增强,转移学习和交互式分割进行调查文献。与现有调查相比,本调查将文献分类为比例不同,更方便读者了解相关理由,并将引导他们基于深度学习方法思考医学图像分割的适当改进。
translated by 谷歌翻译