Image Virtual try-on aims at replacing the cloth on a personal image with a garment image (in-shop clothes), which has attracted increasing attention from the multimedia and computer vision communities. Prior methods successfully preserve the character of clothing images, however, occlusion remains a pernicious effect for realistic virtual try-on. In this work, we first present a comprehensive analysis of the occlusions and categorize them into two aspects: i) Inherent-Occlusion: the ghost of the former cloth still exists in the try-on image; ii) Acquired-Occlusion: the target cloth warps to the unreasonable body part. Based on the in-depth analysis, we find that the occlusions can be simulated by a novel semantically-guided mixup module, which can generate semantic-specific occluded images that work together with the try-on images to facilitate training a de-occlusion try-on (DOC-VTON) framework. Specifically, DOC-VTON first conducts a sharpened semantic parsing on the try-on person. Aided by semantics guidance and pose prior, various complexities of texture are selectively blending with human parts in a copy-and-paste manner. Then, the Generative Module (GM) is utilized to take charge of synthesizing the final try-on image and learning to de-occlusion jointly. In comparison to the state-of-the-art methods, DOC-VTON achieves better perceptual quality by reducing occlusion effects.
translated by 谷歌翻译
In this paper, we study item advertisements for small businesses. This application recommends prospective customers to specific items requested by businesses. From analysis, we found that the existing Recommender Systems (RS) were ineffective for small/new businesses with a few sales history. Training samples in RS can be highly biased toward popular businesses with sufficient sales and can decrease advertising performance for small businesses. We propose a meta-learning-based RS to improve advertising performance for small/new businesses and shops: Meta-Shop. Meta-Shop leverages an advanced meta-learning optimization framework and builds a model for a shop-level recommendation. It also integrates and transfers knowledge between large and small shops, consequently learning better features in small shops. We conducted experiments on a real-world E-commerce dataset and a public benchmark dataset. Meta-Shop outperformed a production baseline and the state-of-the-art RS models. Specifically, it achieved up to 16.6% relative improvement of Recall@1M and 40.4% relative improvement of nDCG@3 for user recommendations to new shops compared to the other RS models.
translated by 谷歌翻译
Multispectral photometric stereo(MPS) aims at recovering the surface normal of a scene from a single-shot multispectral image captured under multispectral illuminations. Existing MPS methods adopt the Lambertian reflectance model to make the problem tractable, but it greatly limits their application to real-world surfaces. In this paper, we propose a deep neural network named NeuralMPS to solve the MPS problem under general non-Lambertian spectral reflectances. Specifically, we present a spectral reflectance decomposition(SRD) model to disentangle the spectral reflectance into geometric components and spectral components. With this decomposition, we show that the MPS problem for surfaces with a uniform material is equivalent to the conventional photometric stereo(CPS) with unknown light intensities. In this way, NeuralMPS reduces the difficulty of the non-Lambertian MPS problem by leveraging the well-studied non-Lambertian CPS methods. Experiments on both synthetic and real-world scenes demonstrate the effectiveness of our method.
translated by 谷歌翻译
大量证据表明,深神经网络(DNN)容易受到后门攻击的影响,这激发了后门检测方法的发展。现有的后门检测方法通常是针对具有单个特定类型(例如基于补丁或基于扰动)的后门攻击而定制的。但是,在实践中,对手可能会产生多种类型的后门攻击,这挑战了当前的检测策略。基于以下事实:对抗性扰动与触发模式高度相关,本文提出了自适应扰动生成(APG)框架,以通过自适应注射对抗性扰动来检测多种类型的后门攻击。由于不同的触发模式在相同的对抗扰动下显示出高度多样的行为,因此我们首先设计了全球到本地策略,以通过调整攻击的区域和预算来适应多种类型的后门触发器。为了进一步提高扰动注入的效率,我们引入了梯度引导的掩模生成策略,以寻找最佳区域以进行对抗攻击。在多个数据集(CIFAR-10,GTSRB,Tiny-Imagenet)上进行的广泛实验表明,我们的方法以大幅度优于最先进的基线(+12%)。
translated by 谷歌翻译
大多数现有的半监督基于图的聚类方法通过完善亲和力矩阵或直接限制数据点的低维表示来利用监督信息。亲和力矩阵代表图形结构,对于半监督基于图的聚类的性能至关重要。但是,现有方法采用静态亲和力矩阵来学习数据点的低维表示,并且在学习过程中不会优化亲和力矩阵。在本文中,我们提出了一种新型的动态图结构学习方法,用于半监督聚类。在这种方法中,我们通过利用给定的成对约束来同时优化数据点的亲和力矩阵和低维表示。此外,我们提出了一种交替的最小化方法,并通过可靠的收敛来解决提出的非凸模型。在迭代过程中,我们的方法周期性地更新数据点的低维表示并完善了亲和力矩阵,从而导致动态亲和力矩阵(图结构)。具体而言,为了更新亲和力矩阵,我们强制使用具有明显不同的低维表示的数据点具有相关值为0。点。在不同设置下的八个基准数据集上的实验结果显示了所提出方法的优势。
translated by 谷歌翻译
故事结束一代旨在为给定的故事背景产生合理的结局。该领域的大多数现有研究都集中在产生连贯或多元化的故事结尾,而他们忽略了不同的角色可能会导致给定故事的不同结局。在本文中,我们提出了一个面向角色的故事结束生成器(Coseg),以自定义故事中每个角色的结局。具体来说,我们首先提出一个角色建模模块,以从故事背景中提取的描述性经历中学习角色的个性。然后,受到化学反应中离子交换机制的启发,我们设计了一个新颖的矢量断裂/形成模块,以通过类似信息交换程序来学习每个字符和相应上下文之间的固有相互作用。最后,我们利用注意力机制学习有效的特定角色相互作用,并将每种相互作用馈送到解码器中,以生成角色 - 与角色的结尾。广泛的实验结果和案例研究表明,与最先进的方法相比,Coseg在生成的结局质量方面取得了重大改善,并且有效地自定义了不同字符的结局。
translated by 谷歌翻译
联合学习(FL)使移动设备能够在保留本地数据的同时协作学习共享的预测模型。但是,实际上在移动设备上部署FL存在两个主要的研究挑战:(i)频繁的无线梯度更新v.s.频谱资源有限,以及(ii)培训期间渴望的FL通信和本地计算V.S.电池约束的移动设备。为了应对这些挑战,在本文中,我们提出了一种新型的多位空天空计算(MAIRCOMP)方法,用于FL中本地模型更新的频谱有效聚合,并进一步介绍用于移动的能源有效的FL设计设备。具体而言,高精度数字调制方案是在MAIRCOMP中设计和合并的,允许移动设备同时在多访问通道中同时在所选位置上传模型更新。此外,我们理论上分析了FL算法的收敛性。在FL收敛分析的指导下,我们制定了联合传输概率和局部计算控制优化,旨在最大程度地减少FL移动设备的总体能源消耗(即迭代局部计算 +多轮通信)。广泛的仿真结果表明,我们提出的方案在频谱利用率,能源效率和学习准确性方面优于现有计划。
translated by 谷歌翻译
由于复杂且巨大的模型结构,大多数现有的显着对象检测(SOD)模型很难应用。尽管提出了一些轻巧的模型,但准确性几乎不令人满意。在本文中,我们设计了一种新颖的语义引导的上下文融合网络(SCFNET),该网络重点介绍了多层次特征的交互式融合,以进行准确有效的显着对象检测。此外,我们将知识蒸馏应用于SOD任务,并提供相当大的数据集KD-SOD80K。详细说明,我们通过未标记的图像将丰富的知识从经验丰富的老师转移到未经训练的SCFNET,使SCFNET能够学习强大的概括能力,以更准确地检测显着对象。基于知识蒸馏的SCFNET(KDSCFNET)具有与最先进的重量级方法相当的精度,该方法少于1M参数和174 fps实时检测速度。广泛的实验证明了所提出的蒸馏方法和SOD框架的鲁棒性和有效性。代码和数据:https://github.com/zhangjincv/kd-scfnet。
translated by 谷歌翻译
变异量子算法(VQA)在NISQ时代表现出巨大的潜力。在VQA的工作流程中,Ansatz的参数迭代更新以近似所需的量子状态。我们已经看到了各种努力,以较少的大门起草更好的安萨兹。在量子计算机中,栅极Ansatz最终将转换为控制信号,例如TransMons上的微波脉冲。并且对照脉冲需要精心校准,以最大程度地减少误差(例如过度旋转和旋转)。在VQA的情况下,此过程将引入冗余,但是VQAS的变异性能自然可以通过更新幅度和频率参数来处理过度旋转和重组的问题。因此,我们提出了PAN,这是一种用于VQA的天然脉冲ANSATZ GENTARATOR框架。我们生成具有可训练参数用于振幅和频率的天然脉冲ansatz。在我们提出的锅中,我们正在调整参数脉冲,这些脉冲在NISQ计算机上得到了内在支持。考虑到本机 - 脉冲ANSATZ不符合参数迁移规则,我们需要部署非级别优化器。为了限制发送到优化器的参数数量,我们采用了一种生成本机 - 脉冲ANSATZ的渐进式方式。实验是在模拟器和量子设备上进行的,以验证我们的方法。当在NISQ机器上采用时,PAN获得的延迟平均提高了86%。 PAN在H2和HEH+上的VQE任务分别能够达到99.336%和96.482%的精度,即使NISQ机器中有很大的噪声。
translated by 谷歌翻译
近年来,随着新颖的策略和应用,神经网络一直在迅速扩展。然而,尽管不可避免地会针对关键应用程序来解决这些挑战,例如神经网络技术诸如神经网络技术中仍未解决诸如神经网络技术的挑战。已经尝试通过用符号表示来表示和嵌入域知识来克服神经网络计算中的挑战。因此,出现了神经符号学习(Nesyl)概念,其中结合了符号表示的各个方面,并将常识带入神经网络(Nesyl)。在可解释性,推理和解释性至关重要的领域中,例如视频和图像字幕,提问和推理,健康信息学和基因组学,Nesyl表现出了有希望的结果。这篇综述介绍了一项有关最先进的Nesyl方法的全面调查,其原理,机器和深度学习算法的进步,诸如Opthalmology之类的应用以及最重要的是该新兴领域的未来观点。
translated by 谷歌翻译