We study the composition style in deep image matting, a notion that characterizes a data generation flow on how to exploit limited foregrounds and random backgrounds to form a training dataset. Prior art executes this flow in a completely random manner by simply going through the foreground pool or by optionally combining two foregrounds before foreground-background composition. In this work, we first show that naive foreground combination can be problematic and therefore derive an alternative formulation to reasonably combine foregrounds. Our second contribution is an observation that matting performance can benefit from a certain occurrence frequency of combined foregrounds and their associated source foregrounds during training. Inspired by this, we introduce a novel composition style that binds the source and combined foregrounds in a definite triplet. In addition, we also find that different orders of foreground combination lead to different foreground patterns, which further inspires a quadruplet-based composition style. Results under controlled experiments on four matting baselines show that our composition styles outperform existing ones and invite consistent performance improvement on both composited and real-world datasets. Code is available at: https://github.com/coconuthust/composition_styles
translated by 谷歌翻译
数据多样性和数量对于培训深度学习模型的成功至关重要,而在医学成像领域,数据收集和注释的难度和成本尤其巨大。特别是在机器人手术方面,数据稀缺性和失衡严重影响了模型的准确性,并限制了基于深度学习的手术应用(例如手术仪器分割)的设计和部署。考虑到这一点,在本文中,我们重新考虑了手术仪器分割任务,并提出了一种一对多的数据生成解决方案,该解决方案摆脱了复杂且昂贵的数据收集过程和机器人手术的注释。在我们的方法中,我们仅利用单个手术背景组织图像和一些开源仪器图像作为种子图像,并应用多种增强和混合技术来合成大量图像变化。此外,我们还引入了训练期间链式的增强混合,以进一步增强数据多样性。在Endovis-2018和Endovis-2017手术场景分割的真实数据集中评估了所提出的方法。我们的经验分析表明,如果没有高度的数据收集和注释成本,我们就可以实现不错的手术仪器分割性能。此外,我们还观察到我们的方法可以处理部署领域中的新仪器预测。我们希望我们的鼓舞人心的结果能够鼓励研究人员强调以数据为中心的方法,以克服除数据短缺(例如类不平衡,域适应性和增量学习)之外的深度学习限制。
translated by 谷歌翻译
我们从完全不同的角度解决了不足的α效果问题。给定输入肖像图像,而不是估计相应的alpha哑光,我们专注于另一端,以巧妙地增强此输入,从而可以通过任何现有的均值模型轻松估算α哑光。这是通过探索GAN模型的潜在空间来完成的。可以证明可以在潜在空间中找到可解释的方向,它们对应于语义图像转换。我们在Alpha Matting中进一步探索了此属性。特别是,我们将输入肖像倒入StyleGan的潜在代码中,我们的目的是发现潜在空间中是否有增强版本,该版本与参考垫模型更兼容。我们在四个量身定制的损失下优化了潜在空间中的多尺度潜在媒介,从而确保了肖像画上的底漆特异性和微妙的修改。我们证明了所提出的方法可以为任意床上模型完善真实的肖像图像,从而使自动alpha matting的性能较大。此外,我们还利用了Stylegan的生成性能,并建议生成可以将其视为伪GT的增强的肖像数据。它解决了昂贵的Alpha Matte注释的问题,进一步增强了现有模型的底漆性能。代码可在〜\ url {https://github.com/cnnlstm/stylegan_matting}中获得。
translated by 谷歌翻译
作为一个常见的图像编辑操作,图像组成旨在将前景从一个图像切割并粘贴在另一个图像上,从而产生复合图像。但是,有许多问题可能使复合图像不现实。这些问题可以总结为前景和背景之间的不一致,包括外观不一致(例如,不兼容的照明),几何不一致(例如不合理的大小)和语义不一致(例如,不匹配的语义上下文)。先前的作品将图像组成任务分为多个子任务,其中每个子任务在一个或多个问题上目标。具体而言,对象放置旨在为前景找到合理的比例,位置和形状。图像混合旨在解决前景和背景之间的不自然边界。图像协调旨在调整前景的照明统计数据。影子生成旨在为前景产生合理的阴影。通过将所有上述努力放在一起,我们可以获取现实的复合图像。据我们所知,以前没有关于图像组成的调查。在本文中,我们对图像组成的子任务进行了全面的调查。对于每个子任务,我们总结了传统方法,基于深度学习的方法,数据集和评估。我们还指出了每个子任务中现有方法的局限性以及整个图像组成任务的问题。图像组合的数据集和代码在https://github.com/bcmi/awesome-image-composition上进行了总结。
translated by 谷歌翻译
自然图像消光是一个基本和挑战的计算机视觉任务。传统上,该问题被制定为欠暗的问题。由于问题均不含糊,因此需要对数据分布的进一步假设使得摆动良好的问题。对于古典消光方法,通常采用的假设是前景和背景颜色的局部平滑度。然而,对于基于深度学习的焊接方法,没有系统地考虑使用这种假设。在这项工作中,我们考虑了两个局部平滑度假设,可以帮助改善深层图像消光模型。基于本地平滑度假设,我们提出了三种技术,即培训集细化,颜色增强和反向化改进,可以显着提高深度图像消光模型的性能。我们进行实验以检查所提出的算法的有效性。实验结果表明,与现有的消光方法相比,该方法具有良好的性能。
translated by 谷歌翻译
Image harmonization task aims at harmonizing different composite foreground regions according to specific background image. Previous methods would rather focus on improving the reconstruction ability of the generator by some internal enhancements such as attention, adaptive normalization and light adjustment, $etc.$. However, they pay less attention to discriminating the foreground and background appearance features within a restricted generator, which becomes a new challenge in image harmonization task. In this paper, we propose a novel image harmonization framework with external style fusion and region-wise contrastive learning scheme. For the external style fusion, we leverage the external background appearance from the encoder as the style reference to generate harmonized foreground in the decoder. This approach enhances the harmonization ability of the decoder by external background guidance. Moreover, for the contrastive learning scheme, we design a region-wise contrastive loss function for image harmonization task. Specifically, we first introduce a straight-forward samples generation method that selects negative samples from the output harmonized foreground region and selects positive samples from the ground-truth background region. Our method attempts to bring together corresponding positive and negative samples by maximizing the mutual information between the foreground and background styles, which desirably makes our harmonization network more robust to discriminate the foreground and background style features when harmonizing composite images. Extensive experiments on the benchmark datasets show that our method can achieve a clear improvement in harmonization quality and demonstrate the good generalization capability in real-scenario applications.
translated by 谷歌翻译
We propose "factor matting", an alternative formulation of the video matting problem in terms of counterfactual video synthesis that is better suited for re-composition tasks. The goal of factor matting is to separate the contents of video into independent components, each visualizing a counterfactual version of the scene where contents of other components have been removed. We show that factor matting maps well to a more general Bayesian framing of the matting problem that accounts for complex conditional interactions between layers. Based on this observation, we present a method for solving the factor matting problem that produces useful decompositions even for video with complex cross-layer interactions like splashes, shadows, and reflections. Our method is trained per-video and requires neither pre-training on external large datasets, nor knowledge about the 3D structure of the scene. We conduct extensive experiments, and show that our method not only can disentangle scenes with complex interactions, but also outperforms top methods on existing tasks such as classical video matting and background subtraction. In addition, we demonstrate the benefits of our approach on a range of downstream tasks. Please refer to our project webpage for more details: https://factormatte.github.io
translated by 谷歌翻译
人类垫子是指从具有高质量的自然图像中提取人类部位,包括人类细节信息,例如头发,眼镜,帽子等。这项技术在电影行业的图像合成和视觉效果中起着至关重要的作用。当绿屏不可用时,现有的人类底漆方法需要其他输入(例如Trimap,背景图像等)或具有较高计算成本和复杂网络结构的模型,这给应用程序带来了很大的困难实践中的人类垫子。为了减轻此类问题,大多数现有方法(例如MODNET)使用多分支为通过细分铺平道路,但是这些方法并未充分利用图像功能,并且仅利用网络的预测结果作为指导信息。因此,我们提出了一个模块来生成前景概率图,并将其添加到MODNET中以获得语义引导的Matting Net(SGM-NET)。在只有一个图像的条件下,我们可以实现人类的效果任务。我们在P3M-10K数据集上验证我们的方法。与基准相比,在各种评估指标中,我们的方法显着改善。
translated by 谷歌翻译
生成的对抗网络(GAN)已受过培训,成为能够创作出令人惊叹的艺术品(例如面部生成和图像样式转移)的专业艺术家。在本文中,我们专注于现实的业务方案:具有所需的移动应用程序和主题样式的可自定义图标的自动生成。我们首先引入一个主题应用图标数据集,称为Appicon,每个图标都有两个正交主题和应用标签。通过研究强大的基线样式,我们观察到由正交标签的纠缠引起的模式崩溃。为了解决这一挑战,我们提出了由有条件的发电机和双重歧视器组成的ICONGAN,具有正交扩大,并且进一步设计了对比的特征分离策略,以使两个歧视器的特征空间正常。与其他方法相比,ICONGAN在Appicon基准测试中表明了优势。进一步的分析还证明了解开应用程序和主题表示的有效性。我们的项目将在以下网址发布:https://github.com/architect-road/icongan。
translated by 谷歌翻译
利用TRIMAP引导和融合多级功能是具有像素级预测的基于Trimap的垫子的两个重要问题。为了利用Trimap指导,大多数现有方法只需将TRIMAPS和图像连接在一起,以馈送深网络或应用额外的网络以提取更多的TRIMAP指导,这符合效率和效率之间的冲突。对于新兴的基于内容的特征融合,大多数现有的消光方法仅关注本地特征,这些功能缺乏与有趣对象相关的强大语义信息的全局功能的指导。在本文中,我们提出了一种由我们的Trimap引导的非背景多尺度池(TMP)模块和全球本地背景信息融合(GLF)模块组成的Trimap-Goided Feats挖掘和融合网络。考虑到Trimap提供强大的语义指导,我们的TMP模块在Trimap的指导下对有趣的对象进行了有效的特征挖掘,而无需额外参数。此外,我们的GLF模块使用我们的TMP模块开采的有趣物体的全局语义信息,以指导有效的全局本地上下文感知多级功能融合。此外,我们建立了一个共同的有趣的物体消光(CIOM)数据集,以推进高质量的图像消光。在组合物-1K测试集,Alphamatting基准和我们的CIOM测试集上的实验结果表明,我们的方法优于最先进的方法。代码和模型将很快公开发布。
translated by 谷歌翻译
Domain shift widely exists in the visual world, while modern deep neural networks commonly suffer from severe performance degradation under domain shift due to the poor generalization ability, which limits the real-world applications. The domain shift mainly lies in the limited source environmental variations and the large distribution gap between source and unseen target data. To this end, we propose a unified framework, Style-HAllucinated Dual consistEncy learning (SHADE), to handle such domain shift in various visual tasks. Specifically, SHADE is constructed based on two consistency constraints, Style Consistency (SC) and Retrospection Consistency (RC). SC enriches the source situations and encourages the model to learn consistent representation across style-diversified samples. RC leverages general visual knowledge to prevent the model from overfitting to source data and thus largely keeps the representation consistent between the source and general visual models. Furthermore, we present a novel style hallucination module (SHM) to generate style-diversified samples that are essential to consistency learning. SHM selects basis styles from the source distribution, enabling the model to dynamically generate diverse and realistic samples during training. Extensive experiments demonstrate that our versatile SHADE can significantly enhance the generalization in various visual recognition tasks, including image classification, semantic segmentation and object detection, with different models, i.e., ConvNets and Transformer.
translated by 谷歌翻译
在本文中,我们考虑了语义分割中域概括的问题,该问题旨在仅使用标记的合成(源)数据来学习强大的模型。该模型有望在看不见的真实(目标)域上表现良好。我们的研究发现,图像样式的变化在很大程度上可以影响模型的性能,并且样式特征可以通过图像的频率平均值和标准偏差来很好地表示。受此启发,我们提出了一种新颖的对抗性增强(Advstyle)方法,该方法可以在训练过程中动态生成硬性化的图像,因此可以有效防止该模型过度适应源域。具体而言,AdvStyle将样式功能视为可学习的参数,并通过对抗培训对其进行更新。学习的对抗性风格功能用于构建用于健壮模型训练的对抗图像。 AdvStyle易于实现,并且可以轻松地应用于不同的模型。对两个合成到现实的语义分割基准的实验表明,Advstyle可以显着改善看不见的真实域的模型性能,并表明我们可以实现最新技术的状态。此外,可以将AdvStyle用于域通用图像分类,并在考虑的数据集上产生明显的改进。
translated by 谷歌翻译
提供和渲染室内场景一直是室内设计的一项长期任务,艺术家为空间创建概念设计,建立3D模型的空间,装饰,然后执行渲染。尽管任务很重要,但它很乏味,需要巨大的努力。在本文中,我们引入了一个特定领域的室内场景图像合成的新问题,即神经场景装饰。鉴于一张空的室内空间的照片以及用户确定的布局列表,我们旨在合成具有所需的家具和装饰的相同空间的新图像。神经场景装饰可用于以简单而有效的方式创建概念室内设计。我们解决这个研究问题的尝试是一种新颖的场景生成体系结构,它将空的场景和对象布局转化为现实的场景照片。我们通过将其与有条件图像合成基线进行比较,以定性和定量的方式将其进行比较,证明了我们提出的方法的性能。我们进行广泛的实验,以进一步验证我们生成的场景的合理性和美学。我们的实现可在\ url {https://github.com/hkust-vgd/neural_scene_decoration}获得。
translated by 谷歌翻译
The International Workshop on Reading Music Systems (WoRMS) is a workshop that tries to connect researchers who develop systems for reading music, such as in the field of Optical Music Recognition, with other researchers and practitioners that could benefit from such systems, like librarians or musicologists. The relevant topics of interest for the workshop include, but are not limited to: Music reading systems; Optical music recognition; Datasets and performance evaluation; Image processing on music scores; Writer identification; Authoring, editing, storing and presentation systems for music scores; Multi-modal systems; Novel input-methods for music to produce written music; Web-based Music Information Retrieval services; Applications and projects; Use-cases related to written music. These are the proceedings of the 3rd International Workshop on Reading Music Systems, held in Alicante on the 23rd of July 2021.
translated by 谷歌翻译
我们考虑在密集预测中进行任务无关功能的问题上采样,在该预测中,需要进行更新的操作员来促进诸如语义细分和详细信息敏感任务(例如图像矩阵)等区域敏感任务。现有的UP采样运算符通常可以在两种类型的任务中都能很好地工作,但两者兼而有之。在这项工作中,我们介绍了淡入淡出的淡出,插件和任务不合时宜的Upplaping Operator。淡出从三个设计选择中受益:i)考虑编码器和解码器功能在增加内核的过程中共同进行; ii)有效的半换档卷积操作员,可以对每个特征点如何有助于上采样内核进行粒状控制; iii)依赖解码器的门控机制,可增强细节描述。我们首先研究了淡出在玩具数据上的淡采样属性,然后在大规模的语义分割和图像垫子上对其进行评估。尤其是,淡淡的淡出通过在不同任务中持续优于最近的动态上采样操作员,从而揭示了其有效性和任务不足的特征。它还可以很好地跨越卷积和变压器架构,而计算开销很少。我们的工作还提供了有关使任务不合时宜的提升的深入见解。代码可在以下网址找到:http://lnkiy.in/fade_in
translated by 谷歌翻译
派生是一个重要而基本的计算机视觉任务,旨在消除在下雨天捕获的图像或视频中的雨条纹和累积。现有的派威方法通常会使雨水模型的启发式假设,这迫使它们采用复杂的优化或迭代细化以获得高回收质量。然而,这导致耗时的方法,并影响解决从假设偏离的雨水模式的有效性。在本文中,我们通过在没有复杂的雨水模型假设的情况下,通过在没有复杂的雨水模型假设的情况下制定污染作为预测滤波问题的简单而有效的污染方法。具体地,我们识别通过深网络自适应地预测适当的核的空间变型预测滤波(SPFILT以过滤不同的各个像素。由于滤波可以通过加速卷积来实现,因此我们的方法可以显着效率。我们进一步提出了eFderain +,其中包含三个主要贡献来解决残留的雨迹,多尺度和多样化的雨水模式而不会损害效率。首先,我们提出了不确定感知的级联预测滤波(UC-PFILT),其可以通过预测的内核来识别重建清洁像素的困难,并有效地移除残留的雨水迹线。其次,我们设计重量共享多尺度扩张过滤(WS-MS-DFILT),以处理多尺度雨条纹,而不会损害效率。第三,消除各种雨水模式的差距,我们提出了一种新颖的数据增强方法(即Rainmix)来培养我们的深层模型。通过对不同变体的复杂分析的所有贡献相结合,我们的最终方法在恢复质量和速度方面优于四个单像辐照数据集和一个视频派威数据集的基线方法。
translated by 谷歌翻译
在本文中,我们介绍了一个新的建筑数据集,并提出了一种新颖的域泛化方法,以促进从高分辨率遥感图像中提取建筑物的开发。当前建筑数据集的问题涉及它们缺乏多样性,标签的质量不令人满意,并且几乎不用于培训具有良好概括能力的建筑提取模型,以便正确地评估模型在实践中的真实性能场景。为了解决这些问题,我们建立了一个名为WHU-MIX建筑数据集的多样化,大规模和高质量的建筑数据集,该数据集更加面向实践。 WHU-MIX建筑物数据集由一个培训/验证集组成,该培训/验证集包含来自世界各地的43,727个不同图像,以及一个测试集,其中包含来自五大洲其他五个城市的8402张图像。此外,为了进一步提高建筑物提取模型的概括能力,我们提出了一种名为批处理样式混合(BSM)的域概括方法,该方法可以嵌入建筑物的frond-end中,以嵌入为有效的插件模块提取模型,为模型提供逐渐更大的数据分布,以学习数据不变知识。这项研究中进行的实验证实了WHU-MIX建筑数据集的潜力,以提高建筑物提取模型的性能,与其他现有数据集相比,MIOU提高了6-36%。其他数据集中标签不准确的不利影响可能会导致约20%的IOU减少。该实验还证实了所提出的BSM模块在增强模型的概括能力和鲁棒性方面的高性能,超过了13%的基线模型,而MIOU中最新的域概括方法则超过了4-15%。
translated by 谷歌翻译
图像构成目标在将前景对象插入到背景图像中。最先前的图像构成方法专注于调整前景,使其与背景兼容,同时忽略背景的前景的阴影效果。在这项工作中,我们专注于为复合图像中的前景对象产生合理的阴影。首先,我们通过基于配对的真实图像和deshadowed图像生成合成合成图像来贡献实际阴影生成数据集脱差。然后,我们提出了一种新的阴影生成网络SGRNet,其包括阴影掩模预测阶段和阴影填充阶段。在阴影掩模预测阶段,前景和背景信息彻底互动以产生前景影掩模。在阴影填充阶段,预计暗影参数填充阴影区域。我们的Desoba数据集和真实复合图像的广泛实验证明了我们所提出的方法的有效性。我们的数据集和代码可在https://github.com/bcmi/object-shadow-generation-dataset-desoba获得。
translated by 谷歌翻译
本文的目标是对面部素描合成(FSS)问题进行全面的研究。然而,由于获得了手绘草图数据集的高成本,因此缺乏完整的基准,用于评估过去十年的FSS算法的开发。因此,我们首先向FSS引入高质量的数据集,名为FS2K,其中包括2,104个图像素描对,跨越三种类型的草图样式,图像背景,照明条件,肤色和面部属性。 FS2K与以前的FSS数据集不同于难度,多样性和可扩展性,因此应促进FSS研究的进展。其次,我们通过调查139种古典方法,包括34个手工特征的面部素描合成方法,37个一般的神经式传输方法,43个深映像到图像翻译方法,以及35个图像 - 素描方法。此外,我们详细说明了现有的19个尖端模型的综合实验。第三,我们为FSS提供了一个简单的基准,名为FSGAN。只有两个直截了当的组件,即面部感知屏蔽和风格矢量扩展,FSGAN将超越所提出的FS2K数据集的所有先前最先进模型的性能,通过大边距。最后,我们在过去几年中汲取的经验教训,并指出了几个未解决的挑战。我们的开源代码可在https://github.com/dengpingfan/fsgan中获得。
translated by 谷歌翻译
计算机视觉的挑战之一是它需要适应可变环境中的颜色偏差。因此,将颜色偏差对预测的不利影响最小化是视觉任务的主要目标之一。当前的解决方案着重于使用生成模型增强训练数据以增强输入变化的不变性。但是,这种方法通常会引入新的噪声,从而限制了生成数据的增益。为此,本文提出了一种策略,消除了偏差的偏差,该偏差称为随机颜色辍学(RCD)。我们的假设是,如果查询图像和画廊图像之间存在颜色偏差,那么在忽略颜色信息之后,某些示例的检索结果会更好。具体而言,该策略通过在训练数据中辍学的部分颜色信息来平衡神经网络中颜色特征和无关的特征之间的权重,以克服颜色devitaion的效果。所提出的RCD可以与各种现有的REID模型相结合而不更改学习策略,并且可以应用于其他计算机视野字段,例如对象检测。在几个REID基线和三个常见的大规模数据集(例如Market1501,Dukemtmc和MSMT17)上进行的实验已验证了该方法的有效性。跨域测试的实验表明,该策略显着消除了域间隙。此外,为了了解RCD的工作机制,我们从分类的角度分析了该策略的有效性,这表明在具有强大域变化的视觉任务中,最好利用许多而不是所有颜色信息。
translated by 谷歌翻译