Recently, improving the relevance and diversity of dialogue system has attracted wide attention. For a post x, the corresponding response y is usually diverse in the real-world corpus, while the conventional encoder-decoder model tends to output the high-frequency (safe but trivial) responses and thus is difficult to handle the large number of responding styles. To address these issues, we propose the Atom Responding Machine (ARM), which is based on a proposed encoder-composer-decoder network trained by a teacher-student framework. To enrich the generated responses, ARM introduces a large number of molecule-mechanisms as various responding styles, which are conducted by taking different combinations from a few atom-mechanisms. In other words, even a little of atom-mechanisms can make a mickle of molecule-mechanisms. The experiments demonstrate diversity and quality of the responses generated by ARM. We also present generating process to show underlying interpretability for the result.
translated by 谷歌翻译
归一化方法是卷积神经网络(CNN)中的基本组成部分。它们使用预定义像素集中的统计值来标准化或白化数据。与为特定任务设计标准化技术的现有工作不同,我们提出了可切换美白(SW),它提供了统一不同美白方法以及标准化方法的一般形式。 SW学会以端到端的方式在这些操作之间切换。它有几个优点。首先,SW自适应地为不同的任务选择适当的白化或标准化统计(见图1),使其非常适合于无需手动设计的各种任务。其次,通过整合不同规范化器的优势,SW在各种挑战中显示出与其对应物的一致性。基准。第三,SWserve作为理解美白和标准化技术特征的有用工具。我们表明,SW在图像分类(CIFAR-10/100,ImageNet),语义分割(ADE20K,Cityscapes),域适应(GTA5,Cityscapes)和图像样式转移(COCO)方面优于其他替代方案。例如,在没有花里胡哨的情况下,我们在ADE20K数据集上获得了45.33%mIoU的最先​​进的性能。将发布代码和模型。
translated by 谷歌翻译
通过具有诸如DeepFashion之类的注释的基准来推动对时尚图像的理解,其标签包括服装类别,地标和消费者 - 商业图像对。然而,DeepFashion有一些不可忽视的问题,例如每个图像的单个衣服项,稀疏的标记(仅4~8个),并且没有每像素掩模,这使得它与现实世界的场景有很大的差距。我们通过展示DeepFashion2来解决这个问题,以解决这些问题。它是四个任务的多功能基准,包括衣服检测,姿势估计,分割和检索。它有801K服装项目,每个项目都有丰富的注释,如风格,规模,视角,遮挡,边界框,密集的地标和面具。还有873K商业 - 消费者服装对。提出了一个强大的基线,称为MatchR-CNN,它建立在Mask R-CNN的基础上,以端到端的方式解决上述四个任务。 DeepFashion2中的不同标准进行了广泛的评估。
translated by 谷歌翻译
生成对抗网络(GAN)的进步使得真实的面部图像合成成为可能。然而,合成保持面部身份以及在每个身份内具有高度多样性的面部图像仍然具有挑战性。为了解决这个问题,我们提出了FaceFeat-GAN,这是一种新颖的生成模型,通过使用两个版本来提高图像质量和多样性。与将随机噪声直接映射到图像的现有单阶段模型不同,我们的两阶段合成包括不同特征生成的第一阶段和特征到图像渲染的第二阶段。发电机和鉴别器之间的竞争在两个阶段都经过精心设计,具有不同的目标功能。特别地,在第一阶段,他们竞争特征域以合成各种面部特征而不是图像。在第二阶段,他们在图像域中竞争以呈现包含高度多样性但保持身份的照片真实图像。广泛的实验表明,FaceFeat-GAN生成的图像不仅保留了身份信息,而且具有高度的多样性和质量,显着优于以前的方法。
translated by 谷歌翻译
是的,他们这样做。这项工作研究了深度学习的观点:ConvNet中的不同规范化层是否需要不同的规范化器。这是了解这一现象的第一步。我们允许在可切换归一化(SN)之前堆叠每个卷积层,以便从归一化方法池中选择归一化器。通过ImageNet,COCO,Cityscapes和ADE20K的系统实验,我们回答了以下问题:(a)允许每个规范化层选择自己的规范化器是否有用? (b)对标准化者的选择有何影响? (c)不同的任务和数据集更喜欢不同的规范化器?我们的结果表明:(1)使用不同的规范化器可以改善ConvNet的学习和泛化; (2)归一化器的选择与深度和批量大小有关,但与参数初始化,学习率衰减和求解器的相关性较小; (3)学习选择规范化器时,不同的任务和数据集有不同的行为。
translated by 谷歌翻译
批量归一化(BN)改善了神经网络的收敛和泛化。这项工作在理论上理解这些现象。我们通过使用神经网络的基本块来分析BN,神经网络由内核层,BN层和非线性激活函数组成。这个基本网络帮助我们了解BN在三个方面的影响。首先,通过将BN视为隐式正则化器,可以将BN分解为群体归一化(PN)和伽马衰变作为显式正则化。其次,BN的学习动态和正规化表明训练融合了最大的有效学习率。第三,利用统计力学探讨了BN的推广。实验证明,卷积神经网络中的BN与上述分析具有相同的正则化特征。
translated by 谷歌翻译
在本研究中,我们专注于从Web语料库中提取知识渊博的片段和注释可知文档,其中包括来自社会媒体和We-media的文档。非正式地,知识渊博的片段是指文本描述概念,实体的属性或实体之间的关系,而知识文档是具有足够知识的片段的文档。这些可知的片段和文档可以在多种应用中有所帮助,例如知识库构建和面向知识的服务。以前的研究使用基于模式的方法提取了知识渊博的片段。在这里,我们提出了基于语义的方法来完成这项任务。具体而言,开发基于CNN的模型以同时提取知识渊博的片段和注释可知文档。此外,CNN的“低级共享,高级别拆分”结构旨在处理来自不同内容域的文档。与构建多个特定领域的CNN相比,该联合模型不仅可以大大节省训练时间,而且可以明显提高预测精度。在Wechat公共平台的真实数据集中演示了所提出的方法的优越性。
translated by 谷歌翻译
视频分析软件即服务(VA SaaS)近年来发展迅速。 VA SaaS通常由使用轻量级客户端的用户访问。由于客户端和云之间的传输带宽通常有限且昂贵,因此设计具有有限数据传输要求的云视频分析算法带来了巨大的好处。尽管对视频分析进行了可观的研究,但就我们的最佳知识而言,其中很少有人关注SaaS中的传输带宽限制。作为这方面的第一次尝试,这项工作引入了一个几帧动作识别的问题,旨在保持高识别精度,当在训练和测试期间仅访问几帧时。与先前处理密集帧的工作不同,我们提出时间序列蒸馏(TSD),它将长视频序列提取为非常短的视频序列以进行传输。通过用于视频动作识别的3D CNN的端到端训练,TSD学习视频帧的紧凑且有区别的时间和空间表示。在动力学数据集上,与I3D(一种先进的视频动作识别算法)相比,TSD + I3D通常仅需要50%的帧数,以实现几乎相同的精度。所提出的TSD具有三个吸引人的优点。首先,TSD具有轻量级架构,可以部署在客户端,例如。移动设备,产生压缩的代表帧以节省传输带宽。其次,TSD显着减少了在云上运行压缩帧进行​​视频动作识别的计算,同时保持了较高的识别精度。第三,TSD可以作为任何现有3DCNN的预处理模块插入。大量实验表明TSD的有效性和特征。
translated by 谷歌翻译
卷积神经网络(CNN)在许多计算机视觉问题上取得了巨大成功。与设计CNN架构以改善单个域的单个任务的性能而不是通用的现有工作不同,我们提出了IBN-Net,一种新颖的卷积架构,它显着增强了CNN在一个域(例如Cityscapes)上的建模能力以及它的泛化能力。另一个域(例如GTA5)没有私有化。 IBN-Net仔细地将实例规范化(IN)和批量规范化(BN)集成为构建块,并且可以包含在许多高级深度网络中以改善其性能。这项工作有三个关键贡献。 (1)通过深入研究IN和BN,我们揭示了IN学习对外观变化不变的特征,如颜色,风格和虚拟/现实,而BN对于保存内容相关信息至关重要。 (2)IBN-Net可以应用于许多先进的深层体系结构,如DenseNet,ResNet,ResNeXt和SENet,并且在不增加计算成本的情况下不断提高其性能。 (3)将训练网络应用于新域时,例如从GTA5到Cityscapes,IBN-Net实现了域适应方法的可比改进,即使不使用来自目标域的数据也是如此。凭借IBN-Net,我们在WAD 2018Challenge Drivable Area赛道上获得了第一名,其中mIoU为86.18%。
translated by 谷歌翻译
会话面部生成旨在合成一系列与给定语音语义相对应的面部图像。然而,当人们说话时,他们脸部区域的微妙运动通常是主体的内在面貌和待传递的外在言语的复杂组合。现有作品要么专注于前者,要么在一个主题上构建特定的面部外观模型;或者后者,它模拟了嘴唇运动和言语之间的身份不可知转换。在这项工作中,我们通过学习解开的视听表示来整合这两个方面并实现任意主题的谈话表面生成。我们假设跟踪面部序列实际上是主题相关信息和语音相关信息的组合。这两个空间通过一种新颖的联想和对抗训练过程明显地解开。解缠结的表示具有额外的优势,即bothaudio和视频可以作为用于生成的语音信息的来源。大量的实验表明我们提出的方法可以在具有更清晰的唇部运动模式的任意主题上生成逼真的面部序列。我们还展示了学习的视听表示对于自动唇读和音频视频检测等应用非常有用。
translated by 谷歌翻译