在本文中,我们专注于面部表情翻译任务,并提出一个新的表达式条件GAN(ECGAN),它可以学习基于一个额外的表达属性从一个图像域到另一个图像域的映射。所提出的ECGAN是通用框架,并且适用于不同的表达生成任务,其中特定的面部表情可以通过条件属性标签容易地控制。此外,我们还介绍了一种新颖的面膜,以减少背景变化的影响。此外,我们提出了在野外进行面部表情生成和识别的整个框架,其包括两个模块,即生成和识别。最后,我们在几个公共面部数据集上评估我们的框架,其中主体具有不同的种族,光照,遮挡,姿势,颜色,内容和背景条件。尽管这些数据集非常多样化,但定性和定量结果都表明我们的方法能够准确,稳健地生成面部表达。
translated by 谷歌翻译
有许多关于从深度神经网络(DNN)中提取瓶颈(BN)特征的研究,这些特征训练用于区分说话者,密码短语和三音素状态以改善文本相关说话者验证(TD-SV)的性能。但是,取得了一定的成功。最近的一项研究[1]提出了一种时间对比学习(TCL)概念,用于探索脑信号分类的大脑状态的平稳性。语音信号具有类似的非平稳性,并且TCL还具有不需要标记数据的优点。因此,我们提出了一种基于TCL的特征提取方法。该方法将训练数据集中的每个语音容差均匀地划分为预定义数量的多帧分段。话语中的每个片段对应于一个类,并且跨语言共享类标签。然后训练DNN以区分各类中的所有语音帧以利用语音的时间结构。此外,我们提出了一种基于分段的无监督聚类算法,以便为这些分段分配类别标签。在RedDots挑战数据库上进行TD-SV实验。使用从TD-SV评估集中排除的语音数据离线密码短语来训练TCL-DNN,因此可以将所述特征视为与短语无关的。我们比较了所提出的TCL瓶颈(BN)特征与短时间倒谱特征和从DNN识别扬声器,密码短语,说话者+密码短语以及标签和边界由三种不同自动生成的单声道提取的BN特征的性能。语音识别(ASR)系统。实验结果表明,所提出的TCL-BN优于自适应特征和说话人+通行短语判别BN特征,其性能与ASR导出的BN特征相当。此外,....
translated by 谷歌翻译
多视图子空间聚类旨在根据其基础子空间结构将一组多源数据划分为多个组。尽管基于光谱聚类的方法在多视图聚类中实现了推广,但是它们的效用受到隔离​​亲和矩阵构造和聚类指示符估计的单独学习方式的限制。在本文中,我们建议在统一模型中共同学习自我表征,继续和离散集群指标。我们的模型可以探索每个视图的子空间结构并融合它们以便同时进行聚类。两个基准数据集的实验结果表明,我们的方法优于其他现有的竞争性多视图聚类方法。
translated by 谷歌翻译
无监督域适应(UDA)解决了由于训练和测试集之间的域转换而导致的性能退化问题,这在计算机视觉应用中是常见的。大多数现有的UDA方法都是基于矢量形式的数据,尽管可视化应用中的典型数据或特征格式是多维张量。此外,目前的方法,包括深度网络方法,假设提供了丰富的标记源样本用于训练。然而,由于在实践中昂贵的注释成本,标记的源样本的数量总是有限的,使得观察到次优性能。在本文中,我们建议通过学习张量空间中的结构化字典来寻求多维数据的判别表示。字典分离特定于域的信息和特定于类的信息,以保证对域的鲁棒性。此外,开发了一种伪标签估计方案,在算法迭代中结合了判别分析,避免了外部分类器的设计。我们在具有有限源样本的不同数据集上执行广泛的结果。实验结果表明,所提出的方法优于最先进的方法。
translated by 谷歌翻译
成立I4U联盟是为了促进联合进入NISTspeaker识别评估(SRE)。这种关节提交的最新版本在SRE 2018中,其中I4U提交是最佳表现系统之一。 SRE'18也标志着I4Uconsortium进入NIST SRE系列评估10周年。本文的主要目的是总结基于提交给SRE'18的各子系统及其融合的结果和经验教训。我们也有意提出一个共同观点,即我们在过去十年中从SRE'08到SRE'18见证了SRE参与者的进步,进展和主要范式转变。在这方面,除其他外,我们已经看到从超向量表示到深度说话人嵌入的范例转换,以及从信道补偿到领域适应的研究挑战的转变。
translated by 谷歌翻译
Cross-view image translation is challenging because it involves images with drastically different views and severe deformation. In this paper, we propose a novel approach named Multi-Channel Attention SelectionGAN (Selection-GAN) that makes it possible to generate images of natural scenes in arbitrary viewpoints, based on an image of the scene and a novel semantic map. The proposed SelectionGAN explicitly utilizes the semantic information and consists of two stages. In the first stage, the condition image and the target semantic map are fed into a cycled semantic-guided generation network to produce initial coarse results. In the second stage, we refine the initial results by using a multi-channel attention selection mechanism. Moreover, uncertainty maps automatically learned from attentions are used to guide the pixel loss for better network optimization. Extensive experiments on Day-ton [42], CVUSA [44] and Ego2Top [1] datasets show that our model is able to generate significantly better results than the state-of-the-art methods. The source code, data and trained models are available at https://github. com/Ha0Tang/SelectionGAN .
translated by 谷歌翻译
生成对抗网络(GAN)中最先进的方法可以学习从一个图像域到另一个具有非配对图像数据的映射函数。但是,这些方法通常会产生伪影,并且只能转换低级信息,但无法传输图像的高级语义部分。原因主要是发生器不具备检测图像中最具辨别力的语义部分的能力,从而使得生成的图像具有低质量。为了解决这一局限性,本文提出了一种新颖的注入引导生成对抗网络(AGGAN),它可以检测出最具辨别力的语义对象,并最大限度地减少语义操作问题中不需要部分的变化,而无需使用额外的数据和模型。 AGGAN中的注意力引导发生器能够通过内置的注意机制产生注意力掩模,然后将输入图像与注意力掩模融合,以获得高质量的目标图像。此外,我们提出了一种新的注意力引导的鉴别器,它只考虑了上学地区。建议的AGGAN通过端到端的方式进行训练,具有对抗性损失,周期一致性丢失,像素丢失和注意力损失。定性和定量结果均表明我们的方法可以比现有模型更有效地生成更清晰,更准确的图像。
translated by 谷歌翻译
使用低剂量计算机断层扫描(CT)进行肺结节检测是肺病筛查和诊断的第一步。最近,基于深度卷积神经网络的算法已经显示出对自动化模块检测的巨大希望。大多数现有的深度学习结节检测系统分两步构建:a)结节候选筛选和b)假阳性减少,使用两个不同的模型分别训练。尽管通常采用这种方法,但两步方法不仅在训练两个独立的深度学习模型上施加了大量的资源开销,而且还因为它可以防止两者之间的串扰而具有最佳优势。在这项工作中,我们提出了一个端到端的结节检测框架,将nodulecandidate筛选和假阳性减少整合到一个模型中,共同训练。我们证明端到端系统在两步法中将性能提高了3.88%,同时将模型复杂度降低了三分之一,并将推理时间缩短了3.6倍。代码将公开发布。
translated by 谷歌翻译
面部属性很重要,因为它们提供了详细的描述并确定了人脸的视觉外观。在本文中,我们的目标是将面部图像转换为草图,同时生成面部属性。为此,我们提出了一种新颖的属性引导草图生成对抗网络(ASGAN),它是一个端到端的框架,包含两个生成器和鉴别器,其中一个用于生成具有属性的面,而另一个用于影像到sketchtranslation。这两个发电机组成一个W形网络(W-net),它们与权重共享约束共同训练。此外,我们还提出了两个新的鉴别器,其中一个侧重于属性生成,三个一个帮助生成逼真的草图。为了验证我们的模型,我们创建了一个包含8,804个图像的新的大型数据集,名为“属性面部照片和草图”(AFPS)数据集,这是第一个与面部草图图像关联的数据集。实验结果表明,所提出的网络(i)产生了比基线具有更清晰的面部属性的更逼真的面部,以及(ii)在不同的生成任务上具有良好的泛化能力。
translated by 谷歌翻译
手势识别是计算机视觉和模式识别的热门话题,在自然人机界面中起着至关重要的作用。尽管最近取得了很大进展,但快速和稳健的手动识别仍然是一个悬而未决的问题,因为现有方法无法同时平衡性能和效率。为了实现桥接,这项工作结合了图像熵和密度聚类,利用手势视频中的关键帧进行进一步的特征提取,从而提高识别效率。此外,还提出了一种特征融合策略,以进一步改进特征表示,从而提高识别的性能。为了在“狂野”环境中验证我们的方法,我们还引入了两个名为HandGesture和Action3D数据集的新数据集。实验一致表明我们的策略在西北大学,剑桥,HandGesture和Action3D手动采集数据集上实现了竞争结果。我们的代码和数据集将发布:http://github.com/Ha0Tang/HandGestureRecognition。
translated by 谷歌翻译